Recopilo muestras muy grandes (> 1,000,000) de datos categóricos cada día y quiero ver que los datos se vean "significativamente" diferentes entre días para detectar errores en la recopilación de datos.
Pensé que usar una prueba de buen ajuste (en particular, una prueba G) sería un buen ajuste (juego de palabras) para esto. La distribución esperada viene dada por la distribución del día anterior.
Pero, debido a que mis tamaños de muestra son tan grandes, la prueba tiene un poder muy alto y emite muchos falsos positivos. Es decir, incluso una fluctuación diaria muy pequeña dará un valor p cercano a cero.
Terminé multiplicando mi estadística de prueba por alguna constante (0.001), que tiene la buena interpretación de muestrear los datos a esa velocidad. Este artículo parece estar de acuerdo con este enfoque. Ellos dijeron eso:
Chi cuadrado es más confiable con muestras de entre aproximadamente 100 a 2500 personas
Estoy buscando algunos comentarios más autorizados sobre esto. O quizás algunas soluciones alternativas a los falsos positivos al ejecutar pruebas estadísticas en grandes conjuntos de datos.