Estadísticas suficientes para laicos

23

¿Alguien puede explicar estadísticas suficientes en términos muy básicos? Vengo de una formación en ingeniería, y he pasado por muchas cosas, pero no pude encontrar una explicación intuitiva.

machine-learning mathematical-statistics intuition

— usuario1343318
fuente

33

Una estadística suficiente resume toda la información contenida en una muestra para que pueda hacer la misma estimación del parámetro si le dimos la muestra o solo la estadística misma. Es la reducción de los datos sin pérdida de información.

Aquí hay un ejemplo. Supongamos que tiene una distribución simétrica sobre cero. En lugar de darle una muestra, le entrego una muestra de valores absolutos (esa es la estadística). No puedes ver el letrero. Pero sabe que la distribución es simétrica, por lo que para un valor dado , y son igualmente probables (la probabilidad condicional es ). Entonces puedes lanzar una moneda justa. Si sale cara, haz que negativo. Si sale cruz, hazlo positivo. Esto le da una muestra de , que tiene la misma distribución que los datos originales $X$ $x$ $-x$ $x$ $0.5$ $x$ $X'$ $X$ . Básicamente, pudo reconstruir los datos a partir de la estadística. Eso es lo que lo hace suficiente.

— Dimitriy V. Masterov
fuente

Para aclarar / confirmar: las estadísticas son suficientes para un parámetro. No hay ningún parámetro mencionado en este ejemplo, pero supongo que la estadística sería suficiente para cualquier parámetro de cualquier distribución paramétrica elegida X? Así que este es un ejemplo inusual, pero sigue siendo útil para la intuición.

— Denziloe

2

@Denziloe Suficiente para cualquier parámetro de esa distribución, bajo los fuertes supuestos de simetría alrededor de 0. Este es un ejemplo de juguete diseñado para desarrollar la intuición.

— Dimitriy V. Masterov

13

En términos bayesianos, tiene alguna propiedad observable $X$ y un parámetro $\Theta$ . La distribución conjunta para $X,\Theta$ se especifica, pero se factoriza como la distribución condicional de $X\mid \Theta$ y la distribución previa de $\Theta$ . Una estadística $T$ es suficiente para este modelo si y solo si la distribución posterior de $\Theta\mid X$ es la misma que la de $\Theta\mid T(X)$ , para cada distribución previa de $\Theta$ . En palabras, su incertidumbre actualizada sobre $\Theta$ después de conocer el valor de $X$ es igual a su incertidumbre actualizada sobre $\Theta$ después de conocer el valor de $T(X)$ ,cualquiera que sea la información previa que tenga sobre $\Theta$ . Tenga en cuenta que la suficiencia es un concepto dependiente del modelo.

— zen
fuente

1

Digamos que tiene una moneda y no sabe si es justa o no. En otras palabras, tiene una probabilidad $p$ de subir caras ( $H$ ) y $1 - p$ de subir colas ( $T$ ), y no sabes el valor de $p$ .

Intenta hacerse una idea del valor de $p$ lanzando la moneda varias veces, digamos $n$ veces.

Digamos $n = 5$ y el resultado que obtienes es la secuencia $(H, H, T, H, T)$ .

Ahora desea que su amigo estadístico calcule el valor de $p$ para usted, y tal vez le diga si es probable que la moneda sea justa o no. ¿Qué información necesitas decirles para que puedan hacer sus cálculos y sacar sus conclusiones?

Puede decirles todos los datos, es decir $(H, H, T, H, T)$ . ¿Es esto necesario sin embargo? ¿Podría resumir estos datos sin perder ninguna información relevante?

Está claro que el orden de los lanzamientos de monedas es irrelevante, porque estabas haciendo lo mismo para cada lanzamiento de monedas, y los lanzamientos de monedas no se influyeron entre sí. Si el resultado fuera $(H, H, T, T, H)$ , por ejemplo, nuestras conclusiones no serían diferentes. Se deduce que todo lo que realmente necesita decirle a su amigo estadístico es el recuento de cuántas cabezas había.

Expresamos esto diciendo que el número de cabezas es una estadística suficiente para p .

Este ejemplo le da el sabor del concepto. Siga leyendo si desea ver cómo se conecta con la definición formal.

Formalmente, una estadística es suficiente para un parámetro si, dado el valor de la estadística, la distribución de probabilidad de los resultados no involucra el parámetro.

$p^\text{number of heads}(1 - p)^\text{n - number of heads}$ $p$

$(H, H, T, H, T)$ $(H, H, T, T, H)$ $...$ $1/10$ $p$ $p$ $p$

$p$ $\text{number of heads}$ $\text{number of heads}$ $p$

— Denziloe
fuente