¿Explicación intuitiva para dividir entre


136

Me preguntaron hoy en clase por qué divide la suma del error cuadrado por n1 lugar de con n , al calcular la desviación estándar.

Dije que no voy a responderlo en clase (ya que no quería entrar en estimadores imparciales), pero luego me pregunté: ¿hay una explicación intuitiva para esto?


29
Me gustaría citar este zinger del libro Numerical Recipes : "... si la diferencia entre n y n1 alguna vez es importante para usted, entonces probablemente no sea bueno de todos modos, por ejemplo, tratando de corroborar una hipótesis cuestionable con datos marginales ".
JM no es un estadístico

11
Aquí se presenta una explicación muy elegante e intuitiva (debajo de la prueba) en.wikipedia.org/wiki/... La idea básica es que sus observaciones, naturalmente, estarán más cerca de la media de la muestra que de la media de la población.
WetlabStudent

12
@Tal, esta es la razón por la cual las escuelas apestan. Les preguntas "¿por qué esto ?", Y responden "solo memorízalo".
Pacerier

1
Si está buscando una explicación intuitiva, debería ver la razón por sí mismo al tomar muestras. Mira esto, precisamente responde tu pregunta. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (de la respuesta principal :) "... la desviación estándar que se calcula utilizando las desviaciones de la media de la muestra subestima la desviación estándar deseada de la población ..." Ver también: en.wikipedia.org/wiki/… Entonces, a menos que tenga ganas de calcular algo complejo, simplemente use n-1 si es de una muestra.
Andrew

Respuestas:


99

La desviación estándar calculada con un divisor de es una desviación estándar calculada a partir de la muestra como una estimación de la desviación estándar de la población de la que se extrajo la muestra. Debido a que los valores observados caen, en promedio, más cerca de la media de la muestra que de la media de la población, la desviación estándar que se calcula utilizando desviaciones de la media de la muestra subestima la desviación estándar deseada de la población. El uso de n - 1 en lugar de n como el divisor corrige eso haciendo que el resultado sea un poco más grande.n1n1n

Tenga en cuenta que la corrección tiene un efecto proporcional mayor cuando es pequeño que cuando es grande, que es lo que queremos porque cuando n es mayor, es probable que la media de la muestra sea un buen estimador de la media de la población.n

Cuando la muestra es la población total, usamos la desviación estándar con como divisor porque la media de la muestra es la media de la población.n

(Noto entre paréntesis que nada que comience con el "segundo momento centrado en un medio conocido y definido" cumplirá la solicitud del interlocutor de una explicación intuitiva).


13
No confundamos "intuitivo" con "no técnico".
whuber

32
@Michael, esto no explica ¿Por qué usamos en n−1lugar de n−2(o incluso n−3)?
Pacerier

1
@Pacerier Eche un vistazo a la respuesta de Whuber a continuación para obtener detalles sobre ese punto. En esencia, la corrección es n-1 en lugar de n-2, etc., porque la corrección n-1 da resultados que están muy cerca de lo que necesitamos. Aquí se muestran más correcciones exactas: en.wikipedia.org/wiki/Unlimited_estimation_of_standard_deviation
Michael Lew

1
Hola @ Michael, entonces, ¿por qué la desviación calculada a partir de la media de la muestra tiende a ser menor que la media de la población?
Allen

1
"Debido a que los valores observados caen, en promedio, más cerca de la media de la muestra que de la media de la población, la desviación estándar que se calcula utilizando las desviaciones de la media de la muestra subestima la desviación estándar deseada de la población". ¿Por qué la media de la muestra siempre se subestima? ¿Qué pasa si se sobreestima?
Bora M. Alper

55

Una de las más comunes es que la definición de varianza (de una distribución) es el segundo momento centrado en una media conocida y definida , mientras que el estimador usa una media estimada . Esta pérdida de un grado de libertad (dada la media, puede reconstituir el conjunto de datos con el conocimiento de solo de los valores de datos) requiere el uso de n - 1 en lugar de n para "ajustar" el resultado.n1n1n

Tal explicación es consistente con las variaciones estimadas en ANOVA y el análisis de componentes de la varianza. Realmente es solo un caso especial.

La necesidad de hacer algún ajuste que infle la varianza puede, creo, hacerse intuitivamente clara con un argumento válido que no sea solo agitar las manos ex post facto . (Recuerdo que Student pudo haber hecho tal argumento en su artículo de 1908 sobre la prueba t). Por qué el ajuste a la varianza debería ser exactamente un factor de es más difícil de justificar, especialmente cuando considera que la SD ajustada no esn/(n1)Un estimador imparcial. (Es simplemente la raíz cuadrada de un estimador imparcial de la varianza. Ser imparcial generalmente no sobrevive a una transformación no lineal). Entonces, de hecho, el ajuste correcto a la SD para eliminar su sesgo no es un factor de en absoluto!n/(n1)

Algunos libros de texto introductorios ni siquiera se molestan en introducir el SD ajustado: enseñan una fórmula (dividir por ). Primero reaccioné negativamente a eso cuando enseñaba en un libro así, pero crecí para apreciar la sabiduría: al centrarme en los conceptos y aplicaciones, los autores eliminan todas las sutilezas matemáticas no esenciales. Resulta que nada está herido y nadie está engañado.n


1
Gracias Whuber Tengo que enseñar a los estudiantes con la corrección n-1, por lo que dividir en n solo no es una opción. Como se escribió antes que yo, mencionar la conexión con el segundo momento no es una opción. Aunque mencionar cómo ya se calculó la media, lo que nos deja con menos "datos" para el SD, eso es importante. Con respecto al sesgo del SD, recordé haberlo encontrado, gracias por conducir ese punto a casa. Best, Tal
Tal Galili

3
@Tal Estaba escribiendo en tu idioma, no en el de tus alumnos, porque estoy seguro de que eres capaz de traducirlo a lo que sabes que les llegará. En otras palabras, interpreté "intuitivo" en su pregunta que significa intuitivo para usted .
whuber

1
Hola whuber Gracias por el voto de confianza :). La pérdida del grado de libertad para la estimación de la expectativa es una que estaba pensando usar en clase. El problema es que el concepto de "grados de libertad" por sí mismo es uno que necesita conocimiento / intuición. Pero combinarlo con algunas de las otras respuestas dadas en este hilo será útil (para mí, y espero que otros en el futuro). Best, Tal
Tal Galili

Para grande , generalmente no hay mucha diferencia entre dividir entre n o n - 1 , por lo que sería aceptable introducir la fórmula sin corregir siempre que se destinara a muestras grandes, ¿no? nnn1
PatrickT

1
@Patrick Puede que estés leyendo demasiado en mi respuesta, porque es explícito sobre las razones: son pedagógicas y no tienen nada que ver con si es grande o no. n
whuber

50

Por definición, la varianza se calcula tomando la suma de las diferencias al cuadrado de la media y dividiéndola por el tamaño. Tenemos la formula general

dondeμes la media yNes el tamaño de la población.σ2=iN(Xiμ)2NμN

Según esta definición, la varianza de la muestra a (por ejemplo, la muestra ) también debe calcularse de esta manera.t

donde ¯ X es la mediaynes el tamaño de esta pequeña muestra.σt2=in(XiX¯)2nX¯n

Sin embargo, por varianza muestral , nos referimos a un estimador de la varianza poblacional σ 2 . ¿Cómo podemos estimar σ 2 solo usando los valores de la muestra?S2σ2σ2

De acuerdo con las fórmulas anteriores, la variable aleatoria desvía de la media muestral ¯ X con la varianza σ 2 t . La muestra media ¯ X también se desvía de μ con varianza σ 2XX¯σt2X¯μ porque la media muestral obtiene valores diferentes de muestra a muestra y es una variable aleatoria con mediaμy varianzaσ2σ2nμ . (Se puede probar fácilmente).σ2n

Por lo tanto, aproximadamente, debería desviarse de μ con una varianza que involucra dos variaciones, así que sume estos dos y obtenga σ 2 = σ 2 t + σ 2Xμ . Al resolver esto, obtenemosσ2=σ 2 t ×nσ2=σt2+σ2n . Reemplazarσ 2 t da nuestro estimador para la varianza de la población:σ2=σt2×nn1σt2

.S2=in(XiX¯)2n1

También se puede demostrar que es verdadero.E[S2]=σ2


Espero que esto no sea demasiado trivial: es el hecho de que la media de la muestra converge a ND ( , σμ ) a medida que n se hace arbitrariamente grande, la razón por la cual la media muestral se desvía de la media real con varianzaσ2σn ? σ2n
RexYuan

66
Esta es una mejor explicación que las otras porque muestra las ecuaciones y derivaciones en lugar de simplemente ir a yagga yagga con términos estadísticos.
Nav

1
@sevenkul, ¿podemos ver esto visualmente? cuando dices, X debería desviarse de con esa variación neta, estoy perdido en visualizar esoμ
Parthiban Rajendran

17

Esta es una intuición total, pero la respuesta más simple es que se realiza una corrección para hacer que la desviación estándar de la muestra de un elemento sea indefinida en lugar de 0.


11
¿Por qué no, entonces, usa o incluso1nn21 como correcciones? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

44
es aún más "parsimonioso". :-)1n1
whuber

2
@mbq, con respecto a su respuesta ~ "es una corrección hecha para hacer que la desviación estándar de la muestra de un elemento sea indefinida en lugar de 0", ¿es realmente esa la razón por la cual, o es una respuesta de broma? Sabes que los que no importan como nosotros no pueden decirlo.
Pacerier

44
Formalmente, es una consecuencia que la razón, pero, como escribí, creo que es una buena intuición memorizarlo.

14

Puede obtener una comprensión más profunda del término solo a través de la geometría, no solo por qué no es n sino por qué toma exactamente esta forma, sino que primero puede necesitar construir su intuición para hacer frente a la geometría n- dimensional. A partir de ahí, sin embargo, es un pequeño paso hacia una comprensión más profunda de los grados de libertad en los modelos lineales (es decir, modelo df y residual df). Creo que hay pocas dudas de que Fisher pensó de esta manera. Aquí hay un libro que lo construye gradualmente:n1nn

DJ Saville, Wood GR. Métodos estadísticos: el enfoque geométrico . 3a edición. Nueva York: Springer-Verlag; 1991. 560 páginas. 9780387975177

(Sí, 560 páginas. Lo dije gradualmente).


Gracias, no creo que haya una respuesta desde esa dirección. ¿Alguna forma de resumir la intuición, o es probable que eso no sea posible? Saludos, Tal
Tal Galili

No pude hacerlo yo mismo, pero un crítico de libros resumió el enfoque en un párrafo en Amer. Stat. en 1993: jstor.org/stable/2684984 . Sin embargo, no estoy seguro de que sea realmente práctico utilizar este enfoque con sus alumnos a menos que lo adopte durante todo el curso.
parada el

¿Puedes resumir un poco de la intuición en lugar de solo una referencia de libro?
oliversm

12

El estimador de la varianza de la población está sesgado cuando se aplica a una muestra de la población. Para ajustarse a ese sesgo, debe dividirse entre n-1 en lugar de n. Uno puede mostrar matemáticamente que el estimador de la varianza de la muestra es imparcial cuando dividimos por n-1 en lugar de n. Aquí se proporciona una prueba formal:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Inicialmente fue la corrección matemática la que condujo a la fórmula, supongo. Sin embargo, si uno quiere agregar intuición a una fórmula, las sugerencias ya mencionadas parecen razonables.

Primero, las observaciones de una muestra están en promedio más cerca de la media muestral que de la media poblacional. El estimador de varianza hace uso de la media muestral y, en consecuencia, subestima la varianza real de la población. La división por n-1 en lugar de n corrige ese sesgo.

Además, dividir por n-1 hace que la varianza de una muestra de un elemento sea indefinida en lugar de cero.


12

¿Por qué dividir por lugar de n ? Porque es habitual y da como resultado una estimación imparcial de la varianza. Sin embargo, da como resultado una estimación sesgada (baja) de la desviación estándar, como se puede ver aplicando la desigualdad de Jensen a la función cóncava, la raíz cuadrada.n1n

Entonces, ¿qué tiene de bueno tener un estimador imparcial? No minimiza necesariamente el error cuadrático medio. El MLE para una distribución normal es dividir por lugar de n - 1 . Enseñe a sus alumnos a pensar, en lugar de regurgitar y aplicar nociones anticuadas de un siglo atrás.nn1


8
(+1) Cuanto más pienso en esta situación (y lo he pensado un poco, hasta el punto de investigar los documentos anteriores, como la contribución de Biometrica de 1908 de Student para tratar de rastrear cuándo y por qué apareció ), cuanto más pienso que "porque es habitual" es la única respuesta correcta posible. No estoy contento de ver los votos negativos y solo puedo adivinar que están respondiendo a la última oración, que fácilmente podría verse como un ataque al OP, aunque dudo que esa fuera su intención. n1
whuber

1
Mi última oración fue un consejo amistoso para todos los interesados, en lugar de un ataque al OP.
Mark L. Stone el

En mucho uso no importará, cuando se usa en pruebas o en intervalos de confianza, ¡uno tendría que ajustar otras partes del procedimiento y al final obtener el mismo resultado!
kjetil b halvorsen

8

Es bien sabido (o fácilmente probado) que el cuadrático tiene un extremo en z = - βαz2+2βz+γ . Esto muestra que, para cualquiernnúmeros realesx1,x2,...,xn, la cantidad G(a)= n i=1(xi-a)2=( n i = 1 x 2 i )-2a( n i = 1 xi)+nz=βαnx1,x2,,xn tiene un valor mínimo cuando a = 1

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
.a=1ni=1nxi=x¯

Ahora, suponga que es una muestra de tamaño n de una distribución con media desconocida μ y varianza desconocida σ 2 . Podemos estimar μ como 1xinμσ2μ que es bastante fácil de calcular, pero un intento de estimarσ2 como11ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Solo en este intercambio de pila esto se consideraría una respuesta intuitiva.
Joseph Garvin

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

Pasar de la definición de varianza de la variable aleatoria a la definición de varianza de la muestra es una cuestión de estimar una expectativa por una media que puede justificarse por el principio filosófico de tipicidad: la muestra es una representación típica de la distribución. (Tenga en cuenta que esto está relacionado, pero no es lo mismo que la estimación por momentos).


2
V(X)=E((XY)22)=E((XE(X))2)

44
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


No está claro por qué "una variación infinita sería un resultado más sólido" que una variación cero. De hecho, parece utilizar la "varianza muestral" en el sentido de un estimador de varianza , lo cual es aún más confuso.
whuber

1
0<

4

A sugerencia de whuber , esta respuesta se ha copiado de otra pregunta similar .

La corrección de Bessel se adopta para corregir el sesgo al usar la varianza muestral como estimador de la varianza verdadera. El sesgo en la estadística no corregida se produce porque la media de la muestra está más cerca del centro de las observaciones que la media real, por lo que las desviaciones al cuadrado alrededor de la media de la muestra subestiman sistemáticamente las desviaciones al cuadrado alrededor de la media verdadera.

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Tomando las expectativas de rendimientos:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


Gracias por la prueba!
Upupming

0

Generalmente, usar "n" en el denominador da valores más pequeños que la varianza de la población, que es lo que queremos estimar. Esto sucede especialmente si se toman muestras pequeñas. En el lenguaje de las estadísticas, decimos que la varianza de la muestra proporciona una estimación "sesgada" de la varianza de la población y debe hacerse "imparcial".

Si está buscando una explicación intuitiva, ¡debe dejar que sus alumnos vean la razón por sí mismos al tomar muestras! Mire esto, precisamente responde a su pregunta.

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

Para responder a esta pregunta, debemos volver a la definición de un estimador imparcial. Un estimador imparcial es aquel cuya expectativa tiende a la verdadera expectativa. La media muestral es un estimador imparcial. Para ver por qué:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Veamos las expectativas de la varianza muestral,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

La distribución generalizada T de Student tiene tres parámetros y hace uso de las tres estadísticas. Si decide arrojar alguna información, puede aproximar aún más sus datos utilizando una distribución normal de dos parámetros como se describe en su pregunta.

Desde el punto de vista bayesiano, puede imaginar que la incertidumbre en los hiperparámetros del modelo (distribuciones sobre la media y la varianza) hace que la varianza del predictivo posterior sea mayor que la varianza de la población.


-4

¡Dios mío, se está complicando! Pensé que la respuesta simple era ... si tiene todos los puntos de datos, puede usar "n", pero si tiene una "muestra", suponiendo que sea una muestra aleatoria, tiene más puntos de muestra dentro de la desviación estándar que desde afuera (la definición de desviación estándar). Simplemente no tiene suficientes datos externos para asegurarse de obtener todos los puntos de datos que necesita al azar. El n-1 ayuda a expandirse hacia la desviación estándar "real".


3
n1n2
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.