Dejando de lado el problema obvio de la baja potencia del chi-cuadrado en este tipo de circunstancias, imagine hacer una prueba de bondad de chi-cuadrado para alguna densidad con parámetros no especificados, agrupando los datos.
Para concreción, digamos una distribución exponencial con media desconocida y un tamaño de muestra de digamos 100.
Para obtener un número razonable de observaciones esperadas por bin, sería necesario tener en cuenta los datos (por ejemplo, si optamos por colocar 6 bins por debajo de la media y 4 por encima de eso, seguiría utilizando límites de bin basados en datos) .
Pero este uso de contenedores basados en ver los datos probablemente afectaría la distribución del estadístico de prueba bajo nulo.
He visto mucha discusión sobre el hecho de que, si los parámetros se estiman con la máxima probabilidad a partir de los datos agrupados , pierde 1 df por parámetro estimado (un problema que se remonta a Fisher vs Karl Pearson), pero no recuerdo leer cualquier cosa sobre encontrar los límites del contenedor en función de los datos. (Si los estima a partir de los datos no enlazados, entonces con bins la distribución de la estadística de prueba se encuentra en algún lugar entre a y a .) χ 2 k - p
¿Esta elección de contenedores basada en datos impacta sustancialmente el nivel de significación o el poder? ¿Hay algunos enfoques que importan más que otros? Si hay mucho efecto, ¿es algo que desaparece en muestras grandes?
Si tiene un impacto sustancial, parece que el uso de una prueba de ji cuadrado cuando los parámetros son desconocidos es casi inútil en muchos casos (a pesar de que todavía se recomienda en bastantes textos), a menos que haya tenido un buen -precio previo del parámetro.
Sería útil discutir los temas o los indicadores de las referencias (preferiblemente con una mención de sus conclusiones).
Editar, más o menos a un lado de la pregunta principal:
Se me ocurre que hay soluciones potenciales para el caso específico de la exponencial * (y el uniforme viene a pensar en ello), pero todavía estoy interesado en el tema más general del impacto de la elección de los límites del contenedor.
* Por ejemplo, para el exponencial, uno podría usar la observación más pequeña (digamos que es igual a ) para tener una idea muy aproximada de dónde colocar los contenedores (ya que la observación más pequeña es exponencial con media ), y luego pruebe las diferencias restantes ( ) para exponencialidad. Por supuesto, eso podría producir una estimación muy pobre de , y por lo tanto, malas elecciones de bin, aunque supongo que uno podría usar el argumento de forma recursiva para tomar las dos o tres observaciones más bajas de las cuales elegir bins razonables y luego probar las diferencias de las observaciones restantes sobre la mayor de esas estadísticas de menor orden para exponencialidad)μ / n n - 1 x i - m μ