Estadísticas suficientes para laicos


Respuestas:


33

Una estadística suficiente resume toda la información contenida en una muestra para que pueda hacer la misma estimación del parámetro si le dimos la muestra o solo la estadística misma. Es la reducción de los datos sin pérdida de información.

Aquí hay un ejemplo. Supongamos que tiene una distribución simétrica sobre cero. En lugar de darle una muestra, le entrego una muestra de valores absolutos (esa es la estadística). No puedes ver el letrero. Pero sabe que la distribución es simétrica, por lo que para un valor dado x , - x y x son igualmente probables (la probabilidad condicional es 0.5 ). Entonces puedes lanzar una moneda justa. Si sale cara, haz que x sea negativo. Si sale cruz, hazlo positivo. Esto le da una muestra de X ' , que tiene la misma distribución que los datos originales XXxxx0.5xXX. Básicamente, pudo reconstruir los datos a partir de la estadística. Eso es lo que lo hace suficiente.


Para aclarar / confirmar: las estadísticas son suficientes para un parámetro. No hay ningún parámetro mencionado en este ejemplo, pero supongo que la estadística sería suficiente para cualquier parámetro de cualquier distribución paramétrica elegida X? Así que este es un ejemplo inusual, pero sigue siendo útil para la intuición.
Denziloe

2
@Denziloe Suficiente para cualquier parámetro de esa distribución, bajo los fuertes supuestos de simetría alrededor de 0. Este es un ejemplo de juguete diseñado para desarrollar la intuición.
Dimitriy V. Masterov

13

En términos bayesianos, tiene alguna propiedad observable X y un parámetro Θ . La distribución conjunta para X,Θ se especifica, pero se factoriza como la distribución condicional de XΘ y la distribución previa de Θ . Una estadística T es suficiente para este modelo si y solo si la distribución posterior de ΘX es la misma que la de ΘT(X) , para cada distribución previa de Θ . En palabras, su incertidumbre actualizada sobre Θ después de conocer el valor deX es igual a su incertidumbre actualizada sobreΘ después de conocer el valor deT(X) ,cualquiera que sea la información previa que tenga sobre Θ . Tenga en cuenta que la suficiencia es un concepto dependiente del modelo.


1

Digamos que tiene una moneda y no sabe si es justa o no. En otras palabras, tiene una probabilidad p de subir caras ( H ) y 1p de subir colas ( T ), y no sabes el valor de p .

Intenta hacerse una idea del valor de p lanzando la moneda varias veces, digamos n veces.

Digamos n=5 y el resultado que obtienes es la secuencia (H,H,T,H,T) .

Ahora desea que su amigo estadístico calcule el valor de p para usted, y tal vez le diga si es probable que la moneda sea justa o no. ¿Qué información necesitas decirles para que puedan hacer sus cálculos y sacar sus conclusiones?

Puede decirles todos los datos, es decir (H,H,T,H,T) . ¿Es esto necesario sin embargo? ¿Podría resumir estos datos sin perder ninguna información relevante?

Está claro que el orden de los lanzamientos de monedas es irrelevante, porque estabas haciendo lo mismo para cada lanzamiento de monedas, y los lanzamientos de monedas no se influyeron entre sí. Si el resultado fuera (H,H,T,T,H) , por ejemplo, nuestras conclusiones no serían diferentes. Se deduce que todo lo que realmente necesita decirle a su amigo estadístico es el recuento de cuántas cabezas había.

Expresamos esto diciendo que el número de cabezas es una estadística suficiente para p .

Este ejemplo le da el sabor del concepto. Siga leyendo si desea ver cómo se conecta con la definición formal.

Formalmente, una estadística es suficiente para un parámetro si, dado el valor de la estadística, la distribución de probabilidad de los resultados no involucra el parámetro.

pnumber of heads(1p)n - number of headsp

(H,H,T,H,T)(H,H,T,T,H)...1/10ppp

pnumber of headsnumber of headsp

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.