Esta es una historia sobre grados de libertad y parámetros estadísticos y por qué es bueno que los dos tengan una conexión directa simple.
Históricamente, los términos " " aparecieron en los estudios de Euler sobre la función Beta. Estaba usando esa parametrización en 1763, y también Adrien-Marie Legendre: su uso estableció la convención matemática posterior. Este trabajo es anterior a todas las aplicaciones estadísticas conocidas.−1
La teoría matemática moderna proporciona amplias indicaciones, a través de la gran cantidad de aplicaciones en análisis, teoría de números y geometría, que el " −1 términos " en realidad tienen algún significado. He esbozado algunas de esas razones en los comentarios a la pregunta.
De mayor interés es cuál debería ser la parametrización estadística "correcta". Eso no es tan claro y no tiene que ser lo mismo que la convención matemática. Existe una enorme red de familias de distribuciones de probabilidad interrelacionadas, conocidas y de uso común. Por lo tanto, las convenciones usadas para nombrar (es decir, parametrizar) una familia típicamente implican convenciones relacionadas para nombrar familias relacionadas. Cambie una parametrización y querrá cambiarlas todas. Por lo tanto, podríamos mirar estas relaciones en busca de pistas.
Pocas personas no estarían de acuerdo con que las familias de distribución más importantes se derivan de la familia Normal. Recordemos que una variable aleatoria se dice que es "distribuyen normalmente" cuando ( X - μ ) / σ tiene una densidad de probabilidad f ( x ) proporcional a exp ( - x 2 / 2 ) . Cuando σ = 1 y μ = 0 , se dice que X tiene una distribución normal estándar .X(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X
Muchos conjuntos de datos se estudian utilizando estadísticas relativamente simples que involucran combinaciones racionales de los datos y bajas potencias (típicamente cuadrados). Cuando esos datos se modelan como muestras aleatorias de una distribución Normal, de modo que cada x i se ve como una realización de una variable Normal X i , todas las X i comparten una distribución común y son independientes: las distribuciones de esas estadísticas están determinados por esa distribución Normal. Los que surgen con mayor frecuencia en la práctica sonx1,x2,…,xnxiXiXi
,ladistribución t de Studentcon ν = n - 1tνtν=n−1 "grados de libertad". Esta es la distribución de la estadística donde ˉ X =(X1+X2+⋯+Xn)/nmodela la media de los datos yse(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/n es el error estándar de la media. La división porn-1muestra quendebe ser2o mayor, de dondeνes un entero1o mayor. La fórmula, aunque aparentemente un poco complicada, es la raíz cuadrada de una función racional de los datos de grado dos: es relativamente simple.se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1
,ladistribución χ 2 (chi-cuadrado)con ν "grados de libertad" (df). Esta es la distribución de la suma de cuadrados de ν variables normales estándar independientes. Por lo tanto, la distribución de la media de los cuadrados de estas variables será unadistribución χ 2 escalada por 1 / ν : me referiré a esto como unadistribución normal 2 "normalizada".χ2νχ2ννχ21/νχ2
,ladistribución de la relación F con parámetros ( ν 1 , ν 2 ) es la relación de dosdistribucionesindependientes ized 2 normalizadasconFν1,ν2F(ν1,ν2)χ2 y ν 2 grados de libertad.ν1ν2
Los cálculos matemáticos muestran que las tres distribuciones tienen densidades. Es importante destacar que la densidad de la distribución es proporcional al integrando en la definición integral de Euler de la función Gamma ( Γ ). Vamos a compararlos:χ2νΓ
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
This shows that twice a χ2ν variable has a Gamma distribution with parameter ν/2. The factor of one-half is bothersome enough, but subtracting 1 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/2), then the exponent in its density function must be one less than half that count.
Why is the factor of 1/2 less troublesome than a difference of 1? The reason is that the factor will remain consistent when we add things up. If the sum of squares of n independent standard Normals is proportional to a Gamma distribution with parameter n (times some factor), then the sum of squares of m independent standard Normals is proportional to a Gamma distribution with parameter m (times the same factor), whence the sum of squares of all n+m variables is proportional to a Gamma distribution with parameter m+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.
If, however, we were to remove that pesky-looking "−1" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of x in the formula, so that a χ21 distribution would be related to a "Gamma(0)" distribution (since the power of x in its PDF is 1−1=0), then the sum of three χ21 distributions would have to be called a "Gamma(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the −1 from the formula and absorbing it in the parameter.
FYFZ=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2) distribution. Its density function is proportional to
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Furthermore--taking these ideas full circle--the square of a Student t distribution with ν d.f. has an F ratio distribution with parameters (1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.
ΓΓ(α) distribution a "Γ(2α) distribution" and the Beta(α,β) distribution ought to be called a "Beta(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "F Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "−1" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.