Actualmente estoy buscando algunos datos producidos por una simulación de MC que escribí: espero que los valores se distribuyan normalmente. Naturalmente, tracé un histograma y parece razonable (¿supongo?):
[Arriba a la izquierda: histograma con dist.pdf()
, arriba a la derecha: histograma acumulativo con dist.cdf()
, abajo: QQ-plot, data
vs dist
]
Entonces decidí profundizar en esto con algunas pruebas estadísticas. (Tenga en cuenta que dist = stats.norm(loc=np.mean(data), scale=np.std(data))
). Lo que hice y lo que obtuve fue lo siguiente:
Prueba de Kolmogorov-Smirnov:
scipy.stats.kstest(data, 'norm', args=(data_avg, data_sig)) KstestResult(statistic=0.050096921447209564, pvalue=0.20206939857573536)
Prueba de Shapiro-Wilk:
scipy.stats.shapiro(dat) (0.9810476899147034, 1.3054057490080595e-05) # where the first value is the test statistic and the second one is the p-value.
QQ-plot:
stats.probplot(dat, dist=dist)
Mis conclusiones de esto serían:
Al mirar el histograma y el histograma acumulativo, definitivamente asumiría una distribución normal
Lo mismo ocurre después de mirar el gráfico QQ (¿alguna vez mejora mucho?)
la prueba de KS dice: 'sí, esta es una distribución normal'
Mi confusión es: la prueba SW dice que no está distribuida normalmente (valor p mucho menor que la significación alpha=0.05
, y la hipótesis inicial era una distribución normal). No entiendo esto, ¿alguien tiene una mejor interpretación? ¿Me equivoqué en algún momento?
args
argumento de revelar si los parámetros se derivaron de los datos o no. La documentación no es clara , pero su falta de mención de estas distinciones sugiere fuertemente que no está realizando la prueba de Lilliefors. Esa prueba se describe, con un ejemplo de código, en stackoverflow.com/a/22135929/844723 .