Actualmente estoy buscando algunos datos producidos por una simulación de MC que escribí: espero que los valores se distribuyan normalmente. Naturalmente, tracé un histograma y parece razonable (¿supongo?):
[Arriba a la izquierda: histograma con dist.pdf(), arriba a la derecha: histograma acumulativo con dist.cdf(), abajo: QQ-plot, datavs dist]
Entonces decidí profundizar en esto con algunas pruebas estadísticas. (Tenga en cuenta que dist = stats.norm(loc=np.mean(data), scale=np.std(data))). Lo que hice y lo que obtuve fue lo siguiente:
Prueba de Kolmogorov-Smirnov:
scipy.stats.kstest(data, 'norm', args=(data_avg, data_sig)) KstestResult(statistic=0.050096921447209564, pvalue=0.20206939857573536)Prueba de Shapiro-Wilk:
scipy.stats.shapiro(dat) (0.9810476899147034, 1.3054057490080595e-05) # where the first value is the test statistic and the second one is the p-value.QQ-plot:
stats.probplot(dat, dist=dist)
Mis conclusiones de esto serían:
Al mirar el histograma y el histograma acumulativo, definitivamente asumiría una distribución normal
Lo mismo ocurre después de mirar el gráfico QQ (¿alguna vez mejora mucho?)
la prueba de KS dice: 'sí, esta es una distribución normal'
Mi confusión es: la prueba SW dice que no está distribuida normalmente (valor p mucho menor que la significación alpha=0.05, y la hipótesis inicial era una distribución normal). No entiendo esto, ¿alguien tiene una mejor interpretación? ¿Me equivoqué en algún momento?
argsargumento de revelar si los parámetros se derivaron de los datos o no. La documentación no es clara , pero su falta de mención de estas distinciones sugiere fuertemente que no está realizando la prueba de Lilliefors. Esa prueba se describe, con un ejemplo de código, en stackoverflow.com/a/22135929/844723 .
