¿Cómo entender los grados de libertad?


257

De Wikipedia , hay tres interpretaciones de los grados de libertad de una estadística:

En estadística, el número de grados de libertad es el número de valores en el cálculo final de una estadística que pueden variar libremente .

Las estimaciones de los parámetros estadísticos pueden basarse en diferentes cantidades de información o datos. La cantidad de información independiente que entra en la estimación de un parámetro se llama grados de libertad (df). En general, los grados de libertad de una estimación de un parámetro es igual al número de puntajes independientes que entran en la estimación menos el número de parámetros utilizados como pasos intermedios en la estimación del parámetro en sí (que, en la varianza de la muestra, es uno, ya que la media muestral es el único paso intermedio).

Matemáticamente, los grados de libertad son la dimensión del dominio de un vector aleatorio , o esencialmente el número de componentes 'libres': cuántos componentes deben conocerse antes de que el vector esté completamente determinado .

Las palabras audaces son lo que no entiendo del todo. Si es posible, algunas formulaciones matemáticas ayudarán a aclarar el concepto.

¿También coinciden las tres interpretaciones entre sí?


Echa un vistazo a esta explicación
George Dontas

Respuestas:


242

Esta es una pregunta sutil. ¡Se necesita una persona reflexiva para no entender esas citas! Aunque son sugerentes, resulta que ninguno de ellos es exacto o generalmente correcto. No tengo el tiempo (y no hay espacio aquí) para dar una exposición completa, pero me gustaría compartir un enfoque y una idea que sugiera.

¿De dónde surge el concepto de grados de libertad (DF)? Los contextos en los que se encuentra en los tratamientos elementales son:

  • La prueba t de Student y sus variantes, como las soluciones de Welch o Satterthwaite para el problema de Behrens-Fisher (donde dos poblaciones tienen diferentes variaciones).

  • La distribución de Chi-cuadrado (definida como una suma de cuadrados de normales independientes estándar), que está implicada en la distribución de muestreo de la varianza.

  • La prueba F (de proporciones de varianzas estimadas).

  • La prueba de Chi-cuadrado , que comprende sus usos en (a) pruebas de independencia en tablas de contingencia y (b) pruebas de bondad de ajuste de estimaciones de distribución.

En espíritu, estas pruebas abarcan una gama desde ser exactos (la prueba t de Student y la prueba F para las variables normales) hasta ser buenas aproximaciones (la prueba t de Student y las pruebas Welch / Satterthwaite para datos no demasiado sesgados ) a basarse en aproximaciones asintóticas (la prueba de Chi-cuadrado). Un aspecto interesante de algunos de estos es la aparición de "grados de libertad" no integrales (las pruebas de Welch / Satterthwaite y, como veremos, la prueba de Chi-cuadrado). Esto es de especial interés porque es la primera pista de que DF no es ninguna de las cosas que se alegan de él.

Podemos eliminar de inmediato algunas de las reclamaciones de la pregunta. Debido a que el "cálculo final de una estadística" no está bien definido (aparentemente depende de qué algoritmo se use para el cálculo), no puede ser más que una sugerencia vaga y no merece más críticas. De manera similar, ni el "número de puntajes independientes que entran en la estimación" ni el "número de parámetros utilizados como pasos intermedios" están bien definidos.

Es difícil tratar con "información independiente que entra en [una] estimación" , porque hay dos sentidos diferentes pero íntimamente relacionados de "independiente" que pueden ser relevantes aquí. Una es la independencia de las variables aleatorias; El otro es la independencia funcional. Como un ejemplo de esto último, supongamos que recogemos mediciones morfométricas de sujetos - por ejemplo, por simplicidad, las tres longitudes laterales , , , áreas de superficie , y los volúmenes de Un conjunto de bloques de madera. Las tres longitudes laterales pueden considerarse variables aleatorias independientes, pero las cinco variables son RV dependientes. Los cinco también son funcionalmenteY Z S = 2 ( X Y + Y Z + Z X ) V = X Y Z ( X , Y , Z , S , V ) R 5 ω R 5 f ω g ω f ω ( X ( ψ ) , , V ( ψ ) ) = 0 g ωXYZS=2(XY+YZ+ZX)V=XYZdependiente porque el codominiono el "dominio"!) de la variable aleatoria con valor vectorial traza una variedad tridimensional en . (Por lo tanto, localmente en cualquier punto , hay dos funciones y para las cuales y para puntos "cerca" y las derivadas de y evaluadas en(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0ψ ω f g ω ( X , S , V )gω(X(ψ),,V(ψ))=0ψωfgωson linealmente independientes) Sin embargo -. aquí viene lo bueno - para muchas medidas de probabilidad sobre los bloques, los subconjuntos de variables tales como son dependientes como variables aleatorias, pero funcionalmente independiente.(X,S,V)

Habiendo sido alertados por estas posibles ambigüedades, sostengamos la prueba de bondad de ajuste Chi-cuadrado para el examen , porque (a) es simple, (b) es una de las situaciones comunes en las que las personas realmente necesitan saber sobre el DF para obtener el p-value right y (c) a menudo se usa incorrectamente. Aquí hay una breve sinopsis de la aplicación menos controvertida de esta prueba:

  • Tiene una colección de valores de datos , considerados como una muestra de una población.(x1,,xn)

  • Ha estimado algunos parámetros de una distribución. Por ejemplo, calculó la media y la desviación estándar de una distribución Normal, hipotetizando que la población se distribuye normalmente pero sin saber (antes de obtener los datos) cuál podría ser o .θ 1 θ 2 = θ p θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • De antemano, creó un conjunto de "contenedores" para los datos. (Puede ser problemático cuando los datos determinan los contenedores, a pesar de que esto a menudo se hace). Al usar estos contenedores, los datos se reducen al conjunto de conteos dentro de cada contenedor. Anticipando cuáles podrían ser los valores verdaderos de , lo ha dispuesto de modo que (con suerte) cada contenedor recibirá aproximadamente el mismo recuento. (El binning de igual probabilidad asegura que la distribución de chi-cuadrado sea realmente una buena aproximación a la distribución verdadera de la estadística de chi-cuadrado que está por describirse).( θ )k(θ)

  • Tiene una gran cantidad de datos, suficientes para garantizar que casi todos los contenedores deberían tener un conteo de 5 o más. (Esto, esperamos, permitirá que la distribución muestral del estadístico se aproxime adecuadamente por alguna ).χ 2χ2χ2

Usando las estimaciones de parámetros, puede calcular el recuento esperado en cada bin. La estadística Chi-cuadrado es la suma de las razones.

(observedexpected)2expected.

Esto, según nos dicen muchas autoridades, debería tener (en una aproximación muy cercana) una distribución Chi-cuadrado. Pero hay toda una familia de tales distribuciones. Se diferencian por un parámetro menudo denominado "grados de libertad". El razonamiento estándar sobre cómo determinar es asíννν

Tengo cuentas. Eso es piezas de datos. Pero hay relaciones ( funcionales ) entre ellos. Para empezar, sé de antemano que la suma de los recuentos debe ser igual a . Esa es una relación. Calculé dos (o , generalmente) parámetros a partir de los datos. Eso es dos (o ) relaciones adicionales, dando relaciones totales. Suponiendo que ellos (los parámetros) sean todos ( funcionalmente ) independientes, eso deja solo "grados de libertad" independientes de ( funcionalmente ): ese es el valor a usar para .k n p p p + 1 k - p - 1 νkknppp+1kp1ν

El problema con este razonamiento (que es el tipo de cálculo que sugieren las citas en la pregunta) es que está mal, excepto cuando se cumplen algunas condiciones adicionales especiales. Además, esas condiciones no tienen nada que ver con la independencia (funcional o estadística), con el número de "componentes" de los datos, con el número de parámetros, ni con cualquier otra cosa mencionada en la pregunta original.

Déjame mostrarte con un ejemplo. (Para que quede lo más claro posible, estoy usando una pequeña cantidad de contenedores, pero eso no es esencial). Generemos 20 variables normales estándar independientes e idénticamente distribuidas (iid) y calculemos su media y desviación estándar con las fórmulas habituales ( media = suma / recuento, etc. ). Para probar la bondad del ajuste, cree cuatro contenedores con puntos de corte en los cuartiles de una normal estándar: -0.675, 0, +0.657, y use los recuentos de bin para generar una estadística Chi-cuadrado. Repita como lo permita la paciencia; Tuve tiempo de hacer 10,000 repeticiones.

La sabiduría estándar sobre el DF dice que tenemos 4 bins y 1 + 2 = 3 restricciones, lo que implica que la distribución de estas estadísticas de 10,000 Chi-cuadrado debe seguir una distribución de Chi-cuadrado con 1 DF. Aquí está el histograma:

Figura 1

La línea azul oscuro representa el PDF de una , la que pensamos que funcionaría, mientras que la línea roja oscura representa el gráfico de una (lo cual sería una buena adivina si alguien te dijera que es incorrecto). Tampoco se ajusta a los datos.χ 2 ( 2 ) ν = 1χ2(1)χ2(2)ν=1

Puede esperar que el problema se deba al pequeño tamaño de los conjuntos de datos ( = 20) o tal vez al pequeño tamaño del número de contenedores. Sin embargo, el problema persiste incluso con conjuntos de datos muy grandes y un mayor número de contenedores: no se trata simplemente de un fracaso para alcanzar una aproximación asintótica.n

Las cosas salieron mal porque violé dos requisitos de la prueba de Chi-cuadrado:

  1. Debe usar la estimación de máxima verosimilitud de los parámetros. (Este requisito puede, en la práctica, ser ligeramente violado).

  2. ¡Debe basar esa estimación en los recuentos, no en los datos reales! (Esto es crucial )

Figura 2

El histograma rojo representa las estadísticas de chi-cuadrado para 10,000 iteraciones separadas, siguiendo estos requisitos. Efectivamente, sigue visiblemente la curva (con una cantidad aceptable de error de muestreo), como esperábamos originalmente.χ2(1)

El punto de esta comparación, que espero que haya visto venir, es que el DF correcto que se usará para calcular los valores p depende de muchas cosas además de las dimensiones de múltiples, recuentos de relaciones funcionales o la geometría de las variables normales . Existe una interacción sutil y delicada entre ciertas dependencias funcionales, como se encuentra en las relaciones matemáticas entre cantidades y las distribuciones de los datos, sus estadísticas y los estimadores formados a partir de ellos. En consecuencia, no puede darse el caso de que DF se explique adecuadamente en términos de la geometría de distribuciones normales multivariadas, o en términos de independencia funcional, o como recuentos de parámetros, o cualquier otra cosa de esta naturaleza.

Nos lleva a ver, entonces, que los "grados de libertad" son meramente una heurística que sugiere cuál debería ser la distribución muestral de una estadística (t, Chi-cuadrado o F), pero no es dispositivo. La creencia de que es dispositivo conduce a errores atroces. (Por ejemplo, el mejor éxito en Google cuando busca "bondad de ajuste de chi cuadrado" es una página web de una universidad de la Ivy League que se equivoca por completo. En particular, una simulación basada en sus instrucciones muestra que el chi-cuadrado valor que recomienda ya que tener 7 DF en realidad tiene 9 DF).

Con esta comprensión más matizada, vale la pena volver a leer el artículo de Wikipedia en cuestión: en sus detalles hace las cosas bien, indicando dónde tiende a funcionar la heurística del DF y dónde es una aproximación o no se aplica en absoluto.


En el Volumen II de Kendall & Stuart, 5ª edición, aparece una buena descripción del fenómeno ilustrado aquí (DF inesperadamente alto en las pruebas de Chi-cuadrado al GOF) . Estoy agradecido por la oportunidad brindada por esta pregunta para llevarme de regreso a este maravilloso texto, que está lleno de análisis tan útiles.


Editar (enero de 2017)

Aquí hay un Rcódigo para producir la figura siguiente "La sabiduría estándar sobre DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Esta es una respuesta asombrosa. Ganas en internet por esto.
Adam

66
@caracal: como saben, los métodos de ML para los datos originales son rutinarios y generalizados: para la distribución normal, por ejemplo, el MLE de es la media de la muestra y el MLE de σ es la raíz cuadrada de la desviación estándar de la muestra ( sin la corrección de sesgo habitual). Para obtener estimaciones basadas en recuentos, calculé la función de probabilidad de los recuentos; esto requiere calcular los valores del CDF en los puntos de corte, tomar sus registros, multiplicarlos por los recuentos y sumarlos, y optimizarlos usando un software de optimización genérico. μσ
whuber

44
@caracal Probablemente ya no lo necesite, pero Rahora aparece un ejemplo de código para el ajuste ML de datos agrupados en una pregunta relacionada: stats.stackexchange.com/a/34894 .
whuber

1
"El problema con este razonamiento (que es el tipo de cálculo que sugieren las citas en la pregunta) es que está mal, excepto cuando se cumplen algunas condiciones adicionales especiales". Ahora estoy (casi) a través de dos semestres de una secuencia de modelos lineales, y entiendo que los grados de libertad son el rango de la matriz en el "medio" de la forma cuadrática. ¿Cuáles son estas "condiciones adicionales"?
Clarinetista

44
@Clarinetista El punto principal de mi respuesta es sugerir que lo que le han enseñado se basa en una confusión de dos conceptos de DF. Aunque esa confusión no causa problemas para los modelos de teoría normal de mínimos cuadrados estándar, conduce a errores incluso en circunstancias simples y comunes como el análisis de tablas de contingencia. Ese rango de matriz le da al DF funcional . En un modelo lineal de mínimos cuadrados resulta que proporciona el DF correcto para ciertos tipos de pruebas, como las pruebas F. Para la prueba de chi cuadrado, las condiciones especiales se enumeran más adelante en la respuesta como puntos (1) y (2).
whuber

74

O simplemente: el número de elementos en una matriz numérica que puede cambiar para que el valor de la estadística permanezca sin cambios.

# for instance if:
x + y + z = 10

se puede cambiar, por ejemplo, x e y al azar, pero no se puede cambiar z (se puede, pero no al azar, por lo tanto, no estás libre de cambiarlo - véase el comentario de Harvey), porque se va a cambiar el valor de la estadística (Σ = 10). Entonces, en este caso df = 2.


19
No es correcto decir "no se puede cambiar z". De hecho, debe cambiar z para que la suma sea igual a 10. Pero no tiene otra opción (no libertad) sobre a qué cambia. Puede cambiar dos valores, pero no el tercero.
Harvey Motulsky

53

El concepto no es del todo difícil de precisar matemáticamente dado un poco de conocimiento general de la geometría euclidiana dimensional, subespacios y proyecciones ortogonales.n

Si es una proyección ortogonal de R n a un p -dimensional subespacio L y x es un arbitrario n -vector entonces P x está en L , x - P x y P x son ortogonales y x - P x L es en el complemento ortogonal de L . La dimensión de este complemento ortogonal, L , es n - p . SiPRnpLxnPxLxPxPxxPxLLLnp es libre de variar en unespacio n- dimensional, entonces x - P x es libre de variar en unespacio n - p dimensional. Por esta razón, decimos que x - P x tiene n - p grados de libertad.xnxPxnpxPxnp

Estas consideraciones son importantes para las estadísticas porque si es un vector aleatorio n- dimensional y L es un modelo de su media, es decir, el vector medio E ( X ) está en L , entonces llamamos a X - P X el vector de residuos , y usamos los residuos para estimar la varianza. El vector de residuos tiene n - p grados de libertad, es decir, está restringido a un subespacio de dimensión n - p .XnLE(X)LXPXnpnp

Si las coordenadas de son independientes y normalmente se distribuyen con la misma varianza σ 2, entoncesXσ2

  • Los vectores y X - P X son independientes.PXXPX
  • Si la distribución de la norma al cuadrado del vector de residuos | El | X - P X | El | 2 es una distribución de χ 2 con el parámetro de escala σ 2 y otro parámetro que resulta ser los grados de libertad n - p .E(X)L||XPX||2χ2σ2np

El bosquejo de la prueba de estos hechos se da a continuación. Los dos resultados son centrales para el desarrollo posterior de la teoría estadística basada en la distribución normal. Tenga en cuenta también que es por eso que la distribución tiene la parametrización que tiene. También es una distribución Γ con el parámetro de escala 2 σ 2 y el parámetro de forma ( n - p ) / 2 , pero en el contexto anterior es natural parametrizar en términos de los grados de libertad.χ2Γ2σ2(np)/2

Debo admitir que no encuentro ninguno de los párrafos citados del artículo de Wikipedia particularmente esclarecedor, pero tampoco están realmente equivocados ni son contradictorios. Dicen de manera imprecisa, y en un sentido general, que cuando calculamos la estimación del parámetro de varianza, pero lo hacemos en base a los residuos, basamos el cálculo en un vector que solo puede variar libremente en un espacio de dimensión .np

Más allá de la teoría de los modelos lineales normales, el uso del concepto de grados de libertad puede ser confuso. Se usa, por ejemplo, en la parametrización de la distribución independientemente de si hay una referencia a algo que pueda tener algún grado de libertad. Cuando consideramos el análisis estadístico de datos categóricos, puede haber cierta confusión sobre si las "piezas independientes" deben contarse antes o después de una tabulación. Además, para restricciones, incluso para modelos normales, que no son restricciones de subespacio, no es obvio cómo extender el concepto de grados de libertad. Varias sugerencias existen típicamente bajo el nombre de grados efectivos de libertad.χ2

Antes de considerar cualquier otro uso y significado de los grados de libertad, recomendaré encarecidamente confiar en él en el contexto de modelos lineales normales. Una referencia que trata con esta clase de modelo es A First Course in Linear Model Theory , y hay referencias adicionales en el prefacio del libro a otros libros clásicos sobre modelos lineales.

Prueba de los resultados anteriores: Sea , tenga en cuenta que la matriz de varianza es σ 2 I y elija una base ortonormal z 1 , ... , z p de L y una base ortonormal z p + 1 , ... , z n de L . Entonces z 1 , ... , z n es una base ortonormal de R n . Deje ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~denotar el -vector de los coeficientes de X en esta base, es decir ~ X i = z T i X . Esto también se puede escribir como ˜ X = Z T X donde Z es la matriz ortogonal con las z i en las columnas. Luego tenemos que usar que ˜ X tiene una distribución normal con media Z T ξ y, debido a que Z es ortogonal, la matriz de varianza σ 2 InX

X~i=ziTX.
X~=ZTXZziX~ZTξZσ2I. Esto se desprende de los resultados generales de transformación lineal de la distribución normal. Se eligió la base para que los coeficientes de sean ˜ X i para i = 1 , ... , p , y los coeficientes de X - P X sean ˜ X i para i = p + 1 , ... , n . Dado que los coeficientes no están correlacionados y son conjuntamente normales, son independientes, y esto implica que P X = p iPXX~ii=1,,pXPXX~ii=p+1,,n y X-PX= n i = p + 1 ˜ X izi son independientes. Por otra parte, | El | X-PX| El | 2= n i = p + 1 ˜ X 2 i . SiξLentoncesE( ˜ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL para i = p + 1 , , n porque entonces z iL y por lo tanto z iξ . En este caso | El | X - P X | El | 2 es la suma de n - p N independiente ( 0 , σ 2 )E(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)variables aleatorias -distribuida, cuya distribución, por definición, es una distribución t con parámetro de escala sigma 2 y n - p grados de libertad.χ2σ2np

E(X)LPXXPX||XPX||2npX
Tim

PXXPX

Lχ2

EXLELEE(x1,x2,,xn)=(x1+x2++xn)/nLL=R

EE(X)XLpRnnR1nX

30

Realmente no es diferente de la forma en que funciona el término "grados de libertad" en cualquier otro campo. Por ejemplo, suponga que tiene cuatro variables: la longitud, el ancho, el área y el perímetro de un rectángulo. ¿Realmente sabes cuatro cosas? No, porque solo hay dos grados de libertad. Si conoce el largo y el ancho, puede derivar el área y el perímetro. Si conoce la longitud y el área, puede derivar el ancho y el perímetro. Si conoce el área y el perímetro, puede derivar la longitud y el ancho (hasta la rotación). Si tiene los cuatro, puede decir que el sistema es consistente (todas las variables están de acuerdo entre sí) o inconsistente (ningún rectángulo podría satisfacer todas las condiciones). Un cuadrado es un rectángulo con un grado de libertad eliminado;

En estadística, las cosas se ponen más confusas, pero la idea sigue siendo la misma. Si todos los datos que está utilizando como entrada para una función son variables independientes, entonces tiene tantos grados de libertad como entradas. Pero si tienen dependencia de alguna manera, de modo que si tuvieras n - k entradas podrías calcular las k restantes, entonces en realidad solo tienes n - k grados de libertad. Y a veces debe tener eso en cuenta, para que no se convenza de que los datos son más confiables o tienen más poder predictivo de lo que realmente tienen, contando más puntos de datos de los que realmente tiene bits de datos independientes.

(Tomado de una publicación en http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Además, las tres definiciones están casi tratando de dar un mismo mensaje.


1
Básicamente correcto, pero me preocupa que el párrafo medio pueda leerse de una manera que confunda correlación, independencia (de variables aleatorias) e independencia funcional (de una variedad de parámetros). La distinción correlación-independencia es particularmente importante para mantener.
whuber

@whuber: ¿está bien ahora?
Biostat

3
Es correcto, pero la forma en que usa los términos probablemente confundirá a algunas personas. Todavía no distingue explícitamente la dependencia de variables aleatorias de la dependencia funcional. Por ejemplo, las dos variables en una distribución normal bivariada (no degenerada) con correlación distinta de cero serán dependientes (como variables aleatorias) pero aún ofrecen dos grados de libertad.
whuber


2
Nuestro Centro de ayuda proporciona una guía clara sobre cómo hacer referencia al material escrito por otros , por lo que espero que el OP regrese a esta publicación para tomar las medidas adecuadas y participar en interacciones constructivas (sin embargo, no lo hemos visto por un tiempo).
chl

19

Me gusta mucho la primera oración de The Little Handbook of Statistical Practice. Capítulo de Grados de Libertad

Una de las preguntas que más teme un instructor de una audiencia matemáticamente poco sofisticada es: "¿Qué son exactamente los grados de libertad?"

Creo que puede obtener una buena comprensión de los grados de libertad al leer este capítulo.


66
Sería bueno tener una explicación de por qué los grados de libertad son importantes, en lugar de solo lo que es. Por ejemplo, mostrar que la estimación de la varianza con 1 / n está sesgada, pero usar 1 / (n-1) produce un estimador imparcial.
Tristan

9

Wikipedia afirma que los grados de libertad de un vector aleatorio pueden interpretarse como las dimensiones del subespacio del vector. Quiero ir paso a paso, básicamente, a través de esto como una respuesta parcial y elaboración en la entrada de Wikipedia.

[abc]T[111]Tx¯=1/3(a+b+c)[x¯x¯x¯]T1[111]T1degree of freedom(n1)n1degrees of freedomn3R3[x¯x¯x¯]T[abc]T[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

[x¯x¯x¯]T1σ2((X1X¯)2++(XnX¯)2)χn12

[355080]T55[555555]T55x+55y+55z=DD=9075

55[111]T55R22degrees of freedomR3[555555]T

[555555]T[355080]T[80805][901560]2df55[111]T1df[555555]T


9

En mis clases, utilizo una situación "simple" que podría ayudarlo a preguntarse y tal vez desarrollar una intuición de lo que puede significar un grado de libertad.

Es una especie de enfoque "Forrest Gump" sobre el tema, pero vale la pena intentarlo.

X1,X2,,X10N(μ,σ2)μσ2

μσ2μμμX¯

σ2σ2X1X10

μσ2μμσ2

μX¯μX¯σ2S2σ

μσ2X¯μS2σ2

Pero podría estar en diferentes niveles de error, desde un poco equivocado hasta muy, muy, muy mal (también conocido como "Adiós, recibo de sueldo; ¡nos vemos la próxima semana!").

X¯μS2=2S2=20,000,000σ2σ2X¯ para variar.

μσ2μσ2

¿Cómo puedes notarlo?

μσ

Y aquí está el molesto giro de la trama de esta historia lisérgica: te lo cuenta después de que colocaste tu apuesta. Quizás para iluminarte, quizás para prepararte, quizás para burlarte de ti. ¿Como podrias saber?

μσ2X¯S2μσ2

μX¯(X¯μ)

XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

(Xiμ)/σN(0,1)μσ2

μσ2

[Prefiero pensar que estás pensando en esto último.]

¡Sí hay!

μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10) Cada una de esas distribuciones Chi-cuadrado individuales es una contribución a la cantidad de variabilidad aleatoria que debe esperar enfrentar, con aproximadamente la misma cantidad de contribución a la suma.

El valor de cada contribución no es matemáticamente igual a los otros nueve, pero todos tienen el mismo comportamiento esperado en la distribución. En ese sentido, son de alguna manera simétricos.

Cada uno de esos Chi-cuadrados es una contribución a la cantidad de variabilidad pura y aleatoria que debe esperar en esa suma.

Si tuviera 100 observaciones, se esperaría que la suma anterior fuera mayor solo porque tiene más fuentes de contribuciones .

Cada una de esas "fuentes de contribuciones" con el mismo comportamiento puede llamarse grado de libertad .

Ahora retroceda uno o dos pasos, vuelva a leer los párrafos anteriores si es necesario para acomodar la llegada repentina de su grado de libertad solicitado .

μσ2

La cuestión es que comienzas a contar con el comportamiento de esas 10 fuentes equivalentes de variabilidad. Si tuviera 100 observaciones, tendría 100 fuentes independientes de igual comportamiento de fluctuación estrictamente aleatoria a esa suma.

χ102χ12

μσ2

μσ2

Las cosas comienzan a ponerse raras (jajajaja; ¡solo ahora!) Cuando te rebelas contra Dios y tratas de llevarte bien solo, sin esperar que Él te patrocine.

X¯S2μσ2

X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

i=110(XiX¯)2i=110(Xiμ)2

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"¿Fue todo por nada?"

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.

El primer término tiene distribución Chi-cuadrado con 10 grados de libertad y el último término tiene distribución Chi-cuadrado con un grado de libertad (!).

Simplemente dividimos un Chi-cuadrado con 10 fuentes independientes de variabilidad de igual comportamiento en dos partes, ambas positivas: una parte es un Chi-cuadrado con una fuente de variabilidad y la otra podemos probar (¿salto de fe? ¿Ganar por WO? ) para ser también un Chi-cuadrado con 9 (= 10-1) fuentes independientes de variabilidad de igual comportamiento, con ambas partes independientes entre sí.

Esto ya es una buena noticia, ya que ahora tenemos su distribución.

σ2

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

t

[^ 1]: @whuber dijo en los comentarios a continuación que Gosset no hizo los cálculos, ¡sino que lo adivinó ! Realmente no sé qué hazaña es más sorprendente para ese momento.

t(101)X¯μS2X¯

Ahí tienes. Con una gran cantidad de detalles técnicos barridos groseramente detrás de la alfombra, pero sin depender únicamente de la intervención de Dios para apostar peligrosamente todo su cheque de pago.


1
1010

Muchas gracias por tu evaluación, @whuber! Es sorprendente cuántos errores tipográficos aparecen una vez que olvidaste lo que escribiste. Sobre su evaluación, tenía la intención de ilustrar otra forma de pensar, un poco menos matemática en cierto sentido. Además, no entiendo completamente lo que querías decir si hubieras sumado 10 variables normales independientes en lugar de 10 variables chi-cuadrado independientes, terminarías con una variable normal , que supuse que mantendría tu punto clave . Intentaré dar más detalles al respecto, con la esperanza de mejorar la publicación.
Marcelo Ventura

2

Una explicación intuitiva de los grados de libertad es que representan la cantidad de información independiente disponible en los datos para estimar un parámetro (es decir, cantidad desconocida) de interés .

Como ejemplo, en un modelo de regresión lineal simple de la forma:

Yi=β0+β1Xi+ϵi,i=1,,n

ϵiσβ0β1nn2n2σ


Muchas gracias por tus ediciones a mi respuesta, @COOLSerdash!
Isabella Ghement

2

nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

Para más información ver esto


0

Para mí, la primera explicación que entendí fue:

Si conoce algún valor estadístico como la media o la variación, ¿cuántas variables de datos necesita saber antes de poder conocer el valor de cada variable?

Esto es lo mismo que dijo aL3xa, pero sin darle a ningún punto de datos un papel especial y cercano al tercer caso dado en la respuesta. De esta manera, el mismo ejemplo sería:

Si conoce la media de los datos, debe conocer los valores de todos los puntos de datos menos uno, para conocer el valor de todos los puntos de datos.


Variables -> observaciones
Richard Hardy

0

xyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1x1x¯=0i=1n(xix¯)2n100xn=2x1x2x¯=x1+x22x¯x1x2nx¯nn1

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.