Preguntas para principiantes:
Quiero probar si dos conjuntos de datos discretos provienen de la misma distribución. Me sugirieron una prueba de Kolmogorov-Smirnov.
Conover ( Estadísticas prácticas no paramétricas , 3d) parece decir que la prueba de Kolmogorov-Smirnov puede usarse para este propósito, pero su comportamiento es "conservador" con distribuciones discretas, y no estoy seguro de lo que eso significa aquí.
El comentario de DavidR sobre otra pregunta dice "... Aún puede hacer una prueba de nivel α basada en la estadística KS, pero tendrá que encontrar algún otro método para obtener el valor crítico, por ejemplo, mediante simulación".
La versión de ks.test () en el paquete dgof R ( article , cran ) agrega algunas capacidades que no están presentes en la versión predeterminada de ks.test () en el paquete de estadísticas. Entre otras cosas, dgof :: ks.test incluye este parámetro:
simulate.p.value: una lógica que indica si se deben calcular los valores p mediante la simulación de Monte Carlo, solo para pruebas discretas de bondad de ajuste.
¿El propósito de simulate.p.value = T es lograr lo que sugiere DavidR?
Incluso si es así, no estoy seguro de si realmente puedo usar dgof :: ks.test para una prueba de dos muestras. Parece que solo proporciona una prueba de dos muestras para una distribución continua:
Si y es numérico, se realiza una prueba de dos muestras de la hipótesis nula de que x e y se extrajeron de la misma distribución continua.
Alternativamente, y puede ser una cadena de caracteres que nombra una función de distribución continua (acumulativa) (o tal función), o una función ecdf (u objeto de clase stepfun) que proporciona una distribución discreta. En estos casos, se realiza una prueba de una muestra de la nula de que la función de distribución que generó x es la distribución y ...
(Detalles de fondo: estrictamente hablando, mis distribuciones subyacentes son continuas, pero los datos tienden a estar muy cerca de un puñado de puntos. Cada punto es el resultado de una simulación, y es una media de 10 o 20 números reales entre -1 y 1. Al final de la simulación, esos números son casi siempre muy cercanos a .9 o -9. Por lo tanto, las medias se agrupan alrededor de unos pocos valores, y los estoy tratando como discretos. La simulación es compleja y no tengo razón para pensar que los datos siguen una distribución bien conocida).
¿Consejo?