Reglas para aplicar la simulación Monte Carlo de los valores p para la prueba de chi-cuadrado

Me gustaría entender el uso de la simulación de Monte Carlo en la chisq.test()función en R.

Tengo una variable cualitativa que tiene 128 niveles / clases. El tamaño de mi muestra es 26 (no pude probar más "individuos"). Obviamente, tendré algunos niveles con 0 "individuos". Pero el hecho es que solo tengo un número muy pequeño de clases representadas de las 127 posibles. Como he escuchado que para aplicar la prueba de ji cuadrado debemos tener al menos 5 individuos en cada nivel (no entiendo completamente la razón de eso), pensé que tenía que usar la simulate.p.valueopción de usar la simulación de Monte Carlo para estimar la distribución y calcular un valor p. Sin la simulación de Monte Carlo, R me da un valor p < 1e-16. Con la simulación de Monte Carlo, me da un valor p en 4e-5.

Traté de calcular el valor p con un vector de 26 unos y 101 ceros, y con la simulación Monte-Carlo, obtengo un valor p en 1.

¿Está bien decir que, incluso si el tamaño de mi muestra es pequeño en comparación con el número de clases posibles, la distribución observada es tal que es muy poco probable que todas las clases posibles existan con la misma probabilidad (1/127) en la población real ?

r chi-squared monte-carlo

— jtextori
fuente

Si sus datos realmente son que observó 26 clases distintas de una muestra de 26, entonces esencialmente no tiene evidencia contra la hipótesis de que las 127 clases tienen la misma probabilidad. Esto se puede evaluar con un cálculo de distribución multinomial.

— whuber

" Como he escuchado que para aplicar la prueba de ji cuadrado debemos tener al menos 5 personas en cada nivel (no entiendo completamente la razón de eso) ", no del todo. El consejo original era que el recuento esperado , no el recuento real, debería ser al menos 5. El objetivo con esa regla (ahora desactualizada) era tratar de asegurarse de que la distribución de chi-cuadrado sea una aproximación razonable a la distribución discreta del Estadística de prueba. El asesoramiento en una gran cantidad de documentos en las últimas 4 décadas más o menos es "esa regla es algo demasiado estricta".

— Glen_b -Reinstalar a Mónica el

Al buscar, parece que el objetivo de la simulación de Montecarlo es producir una distribución de referencia, basada en muestras generadas aleatoriamente que tendrán el mismo tamaño que la muestra analizada, a fin de calcular los valores p cuando no se cumplan las condiciones de prueba.

Esto se explica en Hope A. J Royal Stat Society Serie B (1968) que se puede encontrar en JSTOR .

Aquí hay una cita relevante del artículo de Hope:

Los procedimientos de prueba de significancia de Monte-Carlo consisten en la comparación de los datos observados con muestras aleatorias generadas de acuerdo con la hipótesis que se está probando. ... Es preferible utilizar una prueba conocida de buena eficiencia en lugar de un procedimiento de prueba de Monte-Carlo, suponiendo que la hipótesis estadística alternativa se puede especificar por completo. Sin embargo, no siempre es posible usar una prueba de este tipo porque las condiciones necesarias para aplicar la prueba pueden no cumplirse, o la distribución subyacente puede ser desconocida o puede ser difícil decidir sobre un criterio de prueba apropiado.

— jtextori
fuente