Prueba de normalidad de grandes conjuntos de datos: ¿cómo y cómo es confiable?

Estoy examinando una parte de mi conjunto de datos que contiene 46840 valores dobles que van del 1 al 1690 agrupados en dos grupos. Para analizar las diferencias entre estos grupos, comencé examinando la distribución de los valores para elegir la prueba correcta.

Siguiendo una guía sobre las pruebas de normalidad, hice un qqplot, histogram & boxplot.

ingrese la descripción de la imagen aquí

Esto no parece ser una distribución normal. Dado que la guía dice de manera correcta que un examen puramente gráfico no es suficiente, también quiero probar la distribución para normalidad.

Teniendo en cuenta el tamaño del conjunto de datos y la limitación de la prueba de shapiro-wilks en R, ¿cómo se debe comprobar la normalidad de la distribución dada y teniendo en cuenta el tamaño del conjunto de datos, es esto incluso confiable? ( Ver respuesta aceptada a esta pregunta )

Editar:

La limitación de la prueba de Shapiro-Wilk a la que me refiero es que el conjunto de datos a probar está limitado a 5000 puntos. Para citar otra buena respuesta sobre este tema:

Un problema adicional con la prueba de Shapiro-Wilk es que cuando le proporciona más datos, las posibilidades de que se rechace la hipótesis nula se hacen más grandes. Entonces, lo que sucede es que para grandes cantidades de datos, incluso se pueden detectar desviaciones muy pequeñas de la normalidad, lo que lleva al rechazo del evento de hipótesis nula, aunque para fines prácticos, los datos son más que normales.

[...] Afortunadamente, shapiro.test protege al usuario del efecto descrito anteriormente al limitar el tamaño de los datos a 5000.

En cuanto a por qué estoy probando la distribución normal en primer lugar:

Algunas pruebas de hipótesis suponen una distribución normal de los datos. Quiero saber si puedo usar estas pruebas o no.

r normal-distribution normality-assumption large-data

— deemel
fuente

No hay punto de prueba; cada prueba de cualquier uso, cualquier nivel de significancia razonable será claramente rechazado. Cualquier guía que estés leyendo te ha engañado. ¿Qué quiere decir exactamente con 'confiable'? ¿A qué 'limitación' del Shapiro-Wilk se refiere? Casi estaría de acuerdo con la declaración en la respuesta a la que se vincula ... "Nunca me he encontrado con una situación en la que una prueba normal sea lo correcto" (he visto al menos una vez una situación en la que creo que es lo correcto, pero la gente casi siempre lo hace por malas razones).

— Glen_b -Reinstate Monica el

@Glen_b: por cierto, me encontré usando Shapiro-Wilk el otro día para cuantificar la evidencia contra el nulo, que alguien de la Academia había asumido erróneamente que era mayor de lo que era de una muestra de calificaciones. Me pregunto si ese fue un uso defendible.

— Nick Stauner

@NickStauner mi respuesta creció demasiado para un solo comentario y no quiero secuestrar esta pregunta con una serie de comentarios sobre tu publicación allí. Posibilidades: hablamos en el chat, o publica una pregunta al respecto (a lo que podría publicar una respuesta extensa), o lo discutimos de alguna otra manera, como el correo electrónico.

— Glen_b -Reinstate Monica el

No veo por qué te molestarías. Simplemente no es normal: en este caso, el examen gráfico me parece suficiente. Tienes muchas observaciones de lo que parece ser una buena distribución gamma limpia. Solo ve con eso. kolmogorov-smirnov si es necesario, recomendaré una distribución de referencia.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
ingrese la descripción de la imagen aquí

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

$\approx1.4$ $\approx5.9$ $\approx2.9$

— Nick Stauner
fuente