ANOVA: prueba de suposición de normalidad para muchos grupos con pocas muestras por grupo

Suponga la siguiente situación:

tenemos un gran número (por ejemplo, 20) con grupos pequeños (por ejemplo, n = 3). Noté que si genero valores a partir de la distribución uniforme, los residuos se verán aproximadamente normales a pesar de que la distribución del error es uniforme. El siguiente código R demuestra este comportamiento:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

Si miro el residuo de una muestra en un grupo de tres, la razón del comportamiento es clara:

$r_1 = x_1 - \text{mean}(x1, x2, x3) = x1 - \frac{x_1+x_2+x_3}{3}=\frac{2}{3}x_1 - x_2 - x_3.$

ingrese la descripción de la imagen aquí

Dado que es una suma de variables aleatorias con una desviación estándar no muy diferente, su distribución está bastante más cerca de la distribución normal que los términos individuales. $r_1$

Ahora suponga que tengo la misma situación con datos reales en lugar de datos simulados. Quiero evaluar si se cumplen los supuestos de ANOVA con respecto a la normalidad. La mayoría de los procedimientos recomendados recomiendan la inspección visual de los residuos (por ejemplo, QQ-Plot) o una prueba de normalidad en los residuos. Como mi ejemplo anterior, esto no es realmente óptimo para grupos pequeños.

¿Existe una mejor alternativa cuando tengo muchos grupos de tamaños pequeños?

anova normal-distribution small-sample

— Erik
fuente

Por varias razones, parece que esto no es un problema. Primero, sus residuos aparecerán uniformes: mire un histograma para una gran cantidad de grupos para ver esto. Segundo, la normalidad de los residuos es de poca importancia para la mayoría de los análisis; lo que importa es la normalidad aproximada de las distribuciones de muestreo. ¿Qué aspecto especial de su aplicación, entonces, le hace suponer que hay algún problema real?

— whuber

a) mis residuos no aparecerán uniformes. He probado esto para varios grupos (no muestras por grupo) de 20 a 20000. He adjuntado un ejemplo a la pregunta; parece algo entre uniforme y normal, con una clara tendencia a la normalidad. b) Sé que se trata de la normalidad aproximada de la distribución de muestreo. Este es el punto principal de la pregunta ya que los residuos se verán normales, pero la distribución de muestreo no lo es. Por lo tanto, no puedo usar los residuos para probar las propiedades de la distribución de muestreo.

— Erik

Eso es correcto. Pero, ¿está realmente interesado en la distribución de los errores o está interesado en realizar ANOVA? (No estoy tratando de dar a entender que la pregunta debe ignorarse, es un tema fascinante que ha planteado, pero solo me pregunto si realmente necesita una respuesta para continuar con su análisis de datos).

— whuber

¡Pero puede usar las mismas simulaciones para investigar la robustez del ANOVA en su caso!

— kjetil b halvorsen

Un comentario ligeramente tangencial pero relevante: en general, el uso de una prueba de normalidad (u otro supuesto del modelo) antes de hacer una prueba de hipótesis presenta (al menos) tres problemas: 1) Si lo hace, debe tener en cuenta las pruebas múltiples; 2) Rechazar la hipótesis alternativa, por ejemplo, "no normal" no significa que pueda concluir la normalidad; 3) Las pruebas para los supuestos del modelo tienen sus propios supuestos, entonces, ¿dónde se detiene?

— Martha

$a<b$ $\frac{a+b}2{}$ $\sigma$ $(a,b)$ $\sigma<a$ $\sigma>b$ $\text{SD}<\sigma$ $n>100$

Ahora, en lugar de levantar las manos frustrados, podemos aplicar la corrección de números pequeños para nuestras SD en condiciones normales. (¡Ja! Hay una solución a nuestra miseria).

$\frac{SD(n)}{\mu(n)}\,=\,\sqrt{\frac{2}{n-1}}\,\,\,\frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)} \, = \, 1 - \frac{1}{4n} - \frac{7}{32n^2} - \frac{19}{128n^3} + O(n^{-4})$ $E[\mu]$

$n=3$ $\Gamma(\frac{3}{2})=\frac{\sqrt{\pi }}{2}\approx0.8862269255$ $\sigma$

Ahora, en el caso de que presente, también tiene varias otras cosas. De hecho, la mejor medida de ubicación de una distribución uniforme no es la media. Aunque tanto la media de la muestra como la mediana de la muestra son estimadores imparciales del punto medio, ninguno es tan eficiente como el rango medio de la muestra, es decir, la media aritmética del máximo de la muestra y el mínimo de la muestra, que es el estimador imparcial de varianza mínima UMVU estimador del punto medio (y también la estimación de máxima verosimilitud).

Ahora a la carne de la materia. Si usa el promedio de los valores extremos, la varianza de la medida de la ubicación será menor, siempre que sus datos estén realmente distribuidos de manera uniforme. Puede distribuirse normalmente porque una sola cola de valor extremo bien podría ser normal. Sin embargo, con solo 3 muestras, la desviación estándar necesitará corrección.

— Carl
fuente