He escrito un programa que genera datos aleatorios. Si el programa funciona correctamente, esos datos deben seguir una distribución de probabilidad específica y conocida. Me gustaría ejecutar el programa, hacer algunos cálculos sobre el resultado y obtener un valor p.
Antes de que nadie más lo diga: entiendo que las pruebas de hipótesis no pueden detectar cuándo el programa funciona correctamente. Solo puede detectar cuando está funcionando incorrectamente de una manera específica. (E incluso entonces, la prueba "debería" fallar X% del tiempo, dependiendo del nivel de significancia que elija ...)
Por lo tanto, estoy tratando de comprender qué herramientas podrían ser apropiadas. En particular:
Puedo generar tantos datos aleatorios como quiera. Todo lo que tengo que hacer es dejar el programa funcionando lo suficiente. Por lo tanto, no estoy limitado a ningún tamaño de muestra específico.
Me interesan las técnicas que producen un valor p. Así que mirar una gráfica y decir "sí, parece un poco lineal" no es una opción interesante. A menos que haya alguna forma de poner un número difícil en la "incertidumbre" de un gráfico. ;-)
Lo que sé hasta ahora:
He visto tres tipos principales de pruebas mencionadas que parecen ser aplicables: prueba de chi cuadrado de [Pearson], prueba de Kolmogorov-Smirnov y prueba de Anderson-Darling.
Parece que una prueba de ji cuadrado es apropiada para distribuciones discretas , mientras que las otras dos son más apropiadas para distribuciones continuas . (?)
Varias fuentes insinúan que la prueba AD es "mejor" que la prueba KS, pero no entran en más detalles.
Finalmente, todas estas pruebas presumiblemente detectan "formas diferentes" de desviarse de la distribución nula especificada. Pero aún no sé cuáles son las diferencias ... En resumen, estoy buscando algún tipo de descripción general de dónde es más aplicable cada tipo de prueba y qué tipo de problemas detecta mejor.