Me gustaría entender el uso de la simulación de Monte Carlo en la chisq.test()
función en R.
Tengo una variable cualitativa que tiene 128 niveles / clases. El tamaño de mi muestra es 26 (no pude probar más "individuos"). Obviamente, tendré algunos niveles con 0 "individuos". Pero el hecho es que solo tengo un número muy pequeño de clases representadas de las 127 posibles. Como he escuchado que para aplicar la prueba de ji cuadrado debemos tener al menos 5 individuos en cada nivel (no entiendo completamente la razón de eso), pensé que tenía que usar la simulate.p.value
opción de usar la simulación de Monte Carlo para estimar la distribución y calcular un valor p. Sin la simulación de Monte Carlo, R me da un valor p < 1e-16
. Con la simulación de Monte Carlo, me da un valor p en 4e-5
.
Traté de calcular el valor p con un vector de 26 unos y 101 ceros, y con la simulación Monte-Carlo, obtengo un valor p en 1.
¿Está bien decir que, incluso si el tamaño de mi muestra es pequeño en comparación con el número de clases posibles, la distribución observada es tal que es muy poco probable que todas las clases posibles existan con la misma probabilidad (1/127) en la población real ?