¿Impacto de los límites de bin basados en datos en una prueba de bondad de ajuste de chi-cuadrado?

Dejando de lado el problema obvio de la baja potencia del chi-cuadrado en este tipo de circunstancias, imagine hacer una prueba de bondad de chi-cuadrado para alguna densidad con parámetros no especificados, agrupando los datos.

Para concreción, digamos una distribución exponencial con media desconocida y un tamaño de muestra de digamos 100.

Para obtener un número razonable de observaciones esperadas por bin, sería necesario tener en cuenta los datos (por ejemplo, si optamos por colocar 6 bins por debajo de la media y 4 por encima de eso, seguiría utilizando límites de bin basados en datos) .

Pero este uso de contenedores basados en ver los datos probablemente afectaría la distribución del estadístico de prueba bajo nulo.

He visto mucha discusión sobre el hecho de que, si los parámetros se estiman con la máxima probabilidad a partir de los datos agrupados , pierde 1 df por parámetro estimado (un problema que se remonta a Fisher vs Karl Pearson), pero no recuerdo leer cualquier cosa sobre encontrar los límites del contenedor en función de los datos. (Si los estima a partir de los datos no enlazados, entonces con $k$ bins la distribución de la estadística de prueba se encuentra en algún lugar entre a y a .) $\chi^2_{k}$ $\chi^2_{k-p}$

¿Esta elección de contenedores basada en datos impacta sustancialmente el nivel de significación o el poder? ¿Hay algunos enfoques que importan más que otros? Si hay mucho efecto, ¿es algo que desaparece en muestras grandes?

Si tiene un impacto sustancial, parece que el uso de una prueba de ji cuadrado cuando los parámetros son desconocidos es casi inútil en muchos casos (a pesar de que todavía se recomienda en bastantes textos), a menos que haya tenido un buen -precio previo del parámetro.

Sería útil discutir los temas o los indicadores de las referencias (preferiblemente con una mención de sus conclusiones).

Editar, más o menos a un lado de la pregunta principal:

Se me ocurre que hay soluciones potenciales para el caso específico de la exponencial * (y el uniforme viene a pensar en ello), pero todavía estoy interesado en el tema más general del impacto de la elección de los límites del contenedor.

* Por ejemplo, para el exponencial, uno podría usar la observación más pequeña (digamos que es igual a ) para tener una idea muy aproximada de dónde colocar los contenedores (ya que la observación más pequeña es exponencial con media ), y luego pruebe las diferencias restantes ( ) para exponencialidad. Por supuesto, eso podría producir una estimación muy pobre de , y por lo tanto, malas elecciones de bin, aunque supongo que uno podría usar el argumento de forma recursiva para tomar las dos o tres observaciones más bajas de las cuales elegir bins razonables y luego probar las diferencias de las observaciones restantes sobre la mayor de esas estadísticas de menor orden para exponencialidad) $m$ $\mu/n$ $n-1$ $x_i - m$ $\mu$

chi-squared goodness-of-fit binning

— Glen_b -Reinstate a Monica
fuente

Interesante pregunta. No sé la respuesta, pero la idea de que se deben perder algunos grados de libertad tiene sentido. Si aún no lo ha visto, esta respuesta de @whuber debería ser sugerente: cómo entender los grados de libertad . Me parece que algunos estudios de simulación deberían permitirle establecer un punto de apoyo aquí, al menos para algunos casos específicos.

— gung - Restablece a Monica

No estoy seguro de lo útil que es esto, pero hay un problema similar en el campo de la estimación robusta. Específicamente, un método de estimación robusta (p. Ej., Media recortada) a menudo requiere una entrada parametrizada (p. Ej., Parámetro que define cuánto recortar). Este parámetro puede elegirse mediante un método basado en datos (por ejemplo, ver qué tan gruesas son las colas antes de elegir el parámetro de recorte). Pero la preselección del parámetro de recorte sí afecta la distribución de la media recortada, versus, por ejemplo, una regla de parámetro fija. La forma habitual en que se trata en esa literatura es a través de un bootstrap.

— Colin T Bowers

@ColinTBowers: potencialmente algo útil, gracias. No pensé en la posibilidad de bootstrapping.

— Glen_b: reinstala a Mónica el

Podría ser interesante dividir el problema en un caso más simple. Imagine algo así como solo 5 observaciones de su distribución favorita, y coloque un solo divisor en los datos para formar solo dos contenedores.

— zkurtz

Respuestas:

Los resultados básicos de las pruebas de bondad de ajuste de chi-cuadrado se pueden entender jerárquicamente .

Nivel 0 . El estadístico clásico de la prueba de chi-cuadrado de Pearson para analizar una muestra multinomial contra un vector de probabilidad fija es $p$ donde

X^{2} (pag) = \sum_{yo = 1}^{k} \frac{(X_{yo}^{(norte)} - norte {pag}_{yo})^{2}}{norte {pag}_{yo}} \overset{re}{\to} χ_{k - 1}^{2},

$X^2(p) = \sum_{i=1}^k \frac{(X^{(n)}_i - n p_i)^2}{n p_i} \stackrel{d}{\to} \chi_{k-1}^2 \>,$

denota el número de resultados en lacelda

de una muestra de tamaño

. Esto se puede ver fructíferamente como la norma al cuadrado del vector

donde

X_{i}^{(n)}

$X_i^{(n)}$

i

$i$

n

$n$

Y_{n} = (Y_{1}^{(n)}, \dots, Y_{k}^{(n)})

$\mathbf Y_n = (Y_1^{(n)},\ldots,Y_k^{(n)})$

que, por el teorema del límite central multivariado converge en distribución como

Y_{i}^{(n)} = (X_{i}^{(n)} - n p_{i}) / \sqrt{n p_{i}}

$Y_i^{(n)} = (X_i^{(n)} - n p_i)/\sqrt{n p_i}$

De esto vemos que

ya que

Y_{norte} \overset{re}{\to} norte (0 0, yo - \sqrt{pag} {\sqrt{pag}}^{T}) .

$\mathbf Y_n \stackrel{d}{\to} \mathcal N(0, \mathbf I - \sqrt{p}\sqrt{p}^T) \>.$

X^{2} = ‖ Y_{n} ‖^{2} \to χ_{k - 1}^{2}

$X^2 = \|\mathbf Y_n\|^2 \to \chi^2_{k-1}$

es idempotente de rango

I - \sqrt{p} {\sqrt{p}}^{T}

$\mathbf I - \sqrt{p}\sqrt{p}^T$

k - 1

$k-1$

$p$ $m$ $p_i$

X_{1}^{2} = \sum_{yo = 1}^{k} \frac{(X_{yo}^{(norte)} - norte {\hat{pag}}_{yo})^{2}}{norte {\hat{pag}}_{yo}} \overset{re}{\to} χ_{k - metro - 1}^{2},

$X^2_1 = \sum_{i=1}^k \frac{(X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d}{\to} \chi_{k-m - 1}^2 \>,$

$\lambda$ $k$

$m$ $m = 1$

X_{2}^{2} = \sum_{yo = 1}^{k} \frac{(X_{yo}^{(norte)} - norte {\hat{pag}}_{yo})^{2}}{norte {\hat{pag}}_{yo}} \overset{re}{\to} χ_{k - metro - 1}^{2},

$X^2_2 = \sum_{i=1}^k \frac{(X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d}{\to} \chi_{k-m - 1}^2 \>,$

{\hat{p}}_{i}

$\hat{p}_i$

$Z_1,\ldots,Z_n \sim F_\lambda$ $\lambda$ $\chi_{k-m-1}^2$ $\chi_{k-1}^2$

$\mathbf Y_n$ $\mathcal N(0, \mathbf I - \sqrt{p_\lambda}\sqrt{p_\lambda}^T - \mathbf A(\lambda))$

$\lambda$ $\mathbf A(\lambda)$

$\mathbf Y_n$ $\mathbf B(\hat{\lambda})$

Y_{norte}^{T} {si}^{T} si Y_{norte} \overset{re}{\to} χ_{k - 1}^{2},

$\mathbf Y_n^T \mathbf B^T \mathbf B \mathbf Y_n \stackrel{d}{\to} \chi_{k-1}^2 \>,$

k

$k$

Algunos ejemplos son la estadística Rao – Robson – Nikulin y la estadística Dzhaparidze – Nikulin .

$k$ $1/k$ $\hat{I}_j = \hat \mu + \hat\sigma I_{0,j}$ $I_{0,j} = [F^{-1}((j-1)/k), F^{-1}(j/k))$

Referencias

A W. van der Vaart (1998), Estadísticas asintóticas , Cambridge University Press. Capítulo 17 : Pruebas de chi-cuadrado .
$\chi^2$
FC Drost (1989), Pruebas generalizadas de bondad de ajuste de chi-cuadrado para modelos de escala de ubicación cuando el número de clases tiende al infinito , Ann. Stat , vol. 17, no. 3, 1285–1300.
MS Nikulin, MS (1973), prueba de Chi-cuadrado para distribución continua con parámetros de cambio y escala , Teoría de la probabilidad y su aplicación , vol. 19, no. 3, 559-568.
KO Dzaparidze y MS Nikulin (1973), Sobre una modificación de las estadísticas estándar de Pearson , Theory of Probability and its Application , vol. 19, no. 4, 851–853.
KC Rao y DS Robson (1974), una estadística de chi-cuadrado para las pruebas de bondad de ajuste dentro de la familia exponencial , Comm. Estadístico. , vol 3., no. 12, 1139-1153.
N. Balakrishnan, V. Voinov y MS Nikulin (2013), Chi-Squared Bonness of Fit Tests With Applications , Academic Press.

— cardenal
fuente

He encontrado al menos respuestas parciales a mi pregunta, a continuación. (Todavía me gustaría darle a alguien ese bono, por lo que agradecería cualquier información adicional).

Moore (1971) dijo que Roy (1956) y Watson (1957, 58, 59) demostraron que cuando los límites celulares para una estadística de chi-cuadrado son funciones de los mejores valores de parámetros estimados normales asintóticos, entonces, bajo ciertas condiciones, la distribución nula asintótica de la estadística de chi-cuadrado sigue siendo la suma de a $\chi^2_{k-p-1}$ $p$ $\chi^2_1$ $k$ $p$ $\chi^2_{k-p}$ $\chi^2_{k}$ $p$

Referencias

Moore DS (1971), Una estadística de chi-cuadrado con límites de celdas aleatorias , Ann. Matemáticas. Stat. , Vol. 42, Núm. 1, 147-156.

$\chi^2$

— Glen_b -Reinstate a Monica
fuente

¿Impacto de los límites de bin basados ​​en datos en una prueba de bondad de ajuste de chi-cuadrado?

¿Impacto de los límites de bin basados en datos en una prueba de bondad de ajuste de chi-cuadrado?