Me estoy enseñando algunas estadísticas para divertirme y tengo cierta confusión con respecto a estadísticas suficientes . Escribiré mis confusiones en formato de lista:
Si una distribución tiene parámetros, ¿tendrá n estadísticas suficientes?
¿Existe algún tipo de correspondencia directa entre las estadísticas suficientes y los parámetros? O las estadísticas suficientes sirven simplemente como un conjunto de "información" para que podamos recrear la configuración y poder calcular las mismas estimaciones para los parámetros de la distribución subyacente.
¿Todas las distribuciones tienen estadísticas suficientes? es decir. ¿puede fallar el teorema de factorización?
Usando nuestra muestra de datos, asumimos una distribución de la que es más probable que provengan los datos y luego podemos calcular estimaciones (por ejemplo, el MLE) para los parámetros de la distribución. Las estadísticas suficientes son una forma de poder calcular las mismas estimaciones para los parámetros sin tener que depender de los datos en sí, ¿verdad?
¿Todos los conjuntos de estadísticas suficientes tendrán una estadística mínima suficiente?
Este es el material que estoy usando para tratar de entender el tema: https://onlinecourses.science.psu.edu/stat414/node/283
Por lo que entiendo, tenemos un teorema de factorización que separa la distribución conjunta en dos funciones, pero no entiendo cómo podemos extraer la estadística suficiente después de factorizar la distribución en nuestras funciones.
La pregunta de Poisson dada en este ejemplo tenía una factorización clara, pero luego se afirmó que las estadísticas suficientes eran la media de la muestra y la suma de la muestra. ¿Cómo supimos que esas eran las estadísticas suficientes con solo mirar la forma de la primera ecuación?
¿Cómo es posible llevar a cabo las mismas estimaciones de MLE utilizando estadísticas suficientes si la segunda ecuación del resultado de factorización a veces dependerá de los valores de datos mismos? Por ejemplo, en el caso de Poisson, la segunda función dependía de la inversa del producto de los factoriales de los datos, ¡y ya no tendríamos los datos!
¿Por qué el tamaño de la muestra no sería una estadística suficiente, en relación con el ejemplo de Poisson en la página web ? Necesitaríamos n para reconstruir ciertas partes de la primera función, entonces ¿por qué no es también una estadística suficiente?