¿Cómo aceptaron exactamente los estadísticos utilizar (n-1) como estimador imparcial de la varianza de la población sin simulación?


67

La fórmula para calcular la varianza tiene en el denominador:(n1)

s2=i=1N(xix¯)2n1

Siempre me he preguntado por qué. Sin embargo, leer y ver algunos buenos videos sobre "por qué" es, al parecer, es un buen estimador imparcial de la varianza de la población. Mientras que subestima y sobreestima la varianza de la población.(n1)n(n2)

Lo que tengo curiosidad por saber es que, en la era de las computadoras, ¿cómo se hizo exactamente esta elección? ¿Existe una prueba matemática real que pruebe esto o fue esto puramente empírico y los estadísticos hicieron MUCHOS cálculos a mano para llegar a la "mejor explicación" en ese momento?

¿Cómo se les ocurrió a los estadísticos esta fórmula a principios del siglo XIX con la ayuda de las computadoras? Manual o hay más de lo que parece?


13
Supongo que quiere decir " sin la ayuda de computadoras". La respuesta es, quizás como era de esperar, mediante el uso de álgebra. La derivación es bastante sencilla y en muchos lugares es común que los estudiantes de estadística la deriven como un ejercicio / lo aprendan como estudiantes de pregrado.
Glen_b

Creo que esto da una muy buena explicación: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid


He editado su fórmula para usar y ya que el en el denominador es para la varianza muestral (símbolos latinos) y no la varianza poblacional (símbolos griegos). s2x¯n1
Alexis

Respuestas:


40

La corrección se llama corrección de Bessel y tiene una prueba matemática. Personalmente, me enseñaron de la manera más fácil: usar es cómo corregir el sesgo de (ver aquí ).n1E[1n1n(xix¯)2]

También puede explicar la corrección basada en el concepto de grados de libertad, la simulación no es estrictamente necesaria.


15
La prueba alternativa # 3 tiene una hermosa explicación intuitiva que incluso una persona laica puede entender. La idea básica es que la media muestral no es la misma que la media poblacional. Sus observaciones estarán naturalmente más cerca de la media de la muestra que de la media de la población, y esto termina subestimando esos términos con términos. Esto es probablemente obvio para la mayoría de las personas, pero nunca pensé en la "intuición" de por qué la varianza de la muestra sesgada está sesgada hasta ahora. Solo aprendí las pruebas formales. (xiμ)2(xix¯)2
WetlabStudent

2
También hay un enfoque geométrico por qué corregir con n-1 (explicado muy bien en Saville y Wood: métodos estadísticos: el enfoque geométrico). En pocas palabras: una muestra de n puede considerarse como un espacio de datos n-dimensional. Los vectores de puntos de muestra se suman a un vector observado que puede descomponerse en un vector modelo con la dimensión p correspondiente al parámetro p y un vector de error con la dimensión np. La ruptura pitagórica correspondiente del vector de error tiene np cuadrados cuyo promedio es una medida para la variación.
giordano

Te daré un hermoso enlace que contiene una breve explicación: en.wikipedia.org/wiki/Bias_of_an_estimator
Christina

¿Puede explicar por qué en la prueba (alternativa 3) suponemos que tanto las variaciones verdaderas como las sesgadas se calculan usando 's? El problema de las diferentes variaciones surge cuando tenemos una población (con varianza verdadera) y una muestra (con varianza sesgada). Pero si calculamos la varianza en los mismos datos, es decir, , ¿por qué deberían diferir alguna vez? Allí pensamos en como una verdadera varianza calculada usando exactamente las mismas que la sesgada . No puedo estar de acuerdo con esta prueba. Por favor ayuda, ¿qué me estoy perdiendo? n xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov

56

La mayoría de las pruebas que he visto son lo suficientemente simples como para que a Gauss (como lo hizo) probablemente le resulte bastante fácil de probar.

He estado buscando una derivación en CV a la que podría vincularlo (hay varios enlaces a pruebas fuera del sitio, incluido al menos uno en las respuestas aquí), pero no he encontrado uno aquí en CV en un Un par de búsquedas, por lo que para completar, daré una simple. Dada su simplicidad, es fácil ver cómo las personas comenzarían a usar lo que generalmente se llama la corrección de Bessel .

Esto toma como conocimiento asumido, y supone que se conocen las primeras propiedades básicas de varianza .E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
¿Qué propiedad hace que el término desaparezca? 2x¯i=1nxi
Ciprian Tomoiagă

3
No desaparece ¿Notó que cambió el signo del último término?
Glen_b

1
(+1) Recientemente escuché una gran prueba de que personalmente me parece más intuitiva. La varianza muestral con factor se puede volver a expresar como el promedio de todas las diferencias al cuadrado entre todos los puntos pares. Ahora observe que los pares donde el mismo punto ingresa dos veces son todos cero, y esto sesga la expresión. Parece razonable corregir el sesgo al excluir a todos estos pares de la doble suma y solo promediar el resto. Esto produce la corrección de Bessel. 1/n
ameba dice Reinstate Monica

1
No, no importa, lo descubrí. , por lo que solo está aplicando la misma identidad que mencionó anteriormente a ambos términos en la línea 3.V[x¯]=V[x]n
tel

1
Cualquiera de las variantes de iid tiene el mismo segundo momento. Pasamos de hablar sobre todos ellos a solo hablar sobre uno de ellos. Podrías haber tomado fácilmente (y algunas personas lo hacen) o o ... pero yo he tomado la -ésimax1x2xni
Glen_b

37

Según el World of Mathematics de Weisstein, Gauss lo probó por primera vez en 1823. La referencia es el volumen 4 de Gauss 'Werke, que se puede leer en https://archive.org/details/werkecarlf04gausrich . Las páginas relevantes parecen ser 47-49. Parece que Gauss investigó la pregunta y se le ocurrió una prueba. No leo latín, pero hay un resumen en alemán en el texto. Las páginas 103-104 explican lo que hizo (Editar: agregué una traducción aproximada):

Allein da man nicht berechtigt ist, mueren sichersten Werthe fuer die wahren Werthe Selbst zu halten, por lo ueberzeugt man sich fleckig, hombre dass durch dieses Verfahren allemal den wahrscheinlichsten und mittleren Fehler zu klein finden muss, und Daher morir gegebenen Resultaten Eine groessere Genauigkeit beilegt, als sie wirklich besitzen. [Pero dado que uno no tiene derecho a tratar los valores más probables como si fueran los valores reales, uno puede convencerse fácilmente de que uno siempre debe encontrar que el error más probable y el error promedio son demasiado pequeños, y que por lo tanto los resultados dados poseen una mayor precisión de la que realmente tienen.]

de lo cual parecería que era bien sabido que la varianza de la muestra es una estimación sesgada de la varianza de la población. El artículo continúa diciendo que la diferencia entre los dos generalmente se ignora porque no es importante si el tamaño de la muestra es lo suficientemente grande. Entonces dice:

Der Verfasser hat daher diesen Gegenstand eine besondere Untersuchung unterworfen, die zu einem sehr Merkwuerdigen hoechst einfachen Resultate gefuehrt hat. Hombre braucht nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, um ihn in die richtigen zu verwandeln, nur mit

πρπ

zu multiplicieren, wo die Anzahl der beobachtungen (número de observaciones) und die Anzahl der unbekannten groessen (número de incógnitas) bedeutet. [Por lo tanto, el autor ha realizado un estudio especial de este objeto que ha llevado a un resultado muy extraño y extremadamente simple. Es decir, uno solo necesita multiplicar el error promedio encontrado por el proceso erróneo anterior por (la expresión dada) para cambiarlo al correcto, donde es el número de observaciones y es el número de cantidades desconocidas.]πρρπρ

Entonces, si esta es la primera vez que se encuentra la corrección, entonces parece que Gauss la encontró mediante un cálculo inteligente, pero la gente ya sabía que se requería alguna corrección, por lo que tal vez alguien más podría haberla encontrado empíricamente antes de esto . O posiblemente los autores anteriores no quisieron obtener la respuesta precisa porque de todos modos estaban trabajando con conjuntos de datos bastante grandes.

Resumen: manual, pero la gente ya sabía que en el denominador no era del todo correcto.n


Si alguien pudiera proporcionar una traducción del alemán, estaría bien. Por mi parte, no leo alemán.
Faheem Mitha

2
Sí, Google Translate no funciona tan bien debido a mis errores de ortografía. Agregaré un intento de traducción; Será una buena forma de practicar mi alemán.
Flounderer

14

Para mí, una intuición es que

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

Es decir,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

De hecho, probar la ecuación anterior requiere un poco de álgebra (este álgebra es muy similar a la respuesta de @ Glen_b anterior). Pero suponiendo que sea cierto, podemos reorganizar para obtener:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

Para mí, otra parte de la intuición es que usar lugar de introduce un sesgo. Y este sesgo es exactamente igual a .X¯μE[(X¯μ)2]=σ2n


12

La mayoría de las respuestas ya lo han explicado detalladamente, pero aparte de esas, hay una ilustración simple que uno podría encontrar útil:

Suponga que se le da que y los primeros tres números son:n=4

8,4,6 , _

Ahora el cuarto número puede ser cualquier cosa ya que no hay restricciones. Ahora considere la situación cuando se le da que y , entonces si los primeros tres números son: entonces el cuarto número debe ser .n=4x¯=68,4,66

Esto quiere decir que si conoce valores y , entonces el valor no tiene libertad. Por lo tanto, nos da un estimador imparcial.n1x¯nthn1

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.