¿Qué es lo peor que puede suceder cuando se viola el supuesto de homocedasticidad en ANOVA?


8

Esta es una pregunta de seguimiento que tengo después de revisar esta publicación: ¿ Diferencia en la prueba estadística de medias para datos heterocedásticos no normales?

Para ser claros, pido desde una perspectiva pragmática (no sugerir que las respuestas teóricas no son bienvenidas). Cuando la normalidad entre los grupos está presente (diferente del título de la pregunta mencionada anteriormente), pero las variaciones del grupo son sustancialmente diferentes, ¿qué es lo peor que un investigador podría observar?

En mi experiencia, el problema que más surge con este escenario son los patrones "extraños" en las comparaciones post hoc . (Esto se ha observado tanto en mi trabajo publicado, pero también en entornos pedagógicos ... feliz de proporcionar detalles de esto en los comentarios a continuación.) Lo que he observado es algo similar a esto: tiene tres grupos con . El (omnibus) ANOVA da , y las pruebas pares sugieren que es estadísticamente significativamente diferente de los otros dos grupos ... pero yMETRO1<METRO2<METRO3pags<αtMETRO2METRO1METRO3no son estadísticamente significativamente diferentes. Parte de mi pregunta es si esto es lo que otros han observado, pero también, ¿qué otros problemas ha observado con escenarios comparables?

Una revisión rápida de mis textos de referencia sugiere que ANOVA es bastante robusto a violaciones leves a moderadas del supuesto de homocedasticidad, y aún más con muestras de gran tamaño. Sin embargo, estas referencias no establecen específicamente (1) qué podría salir mal o (2) qué podría suceder con una gran cantidad de grupos.


1
no estoy seguro de por qué el enlace a la pregunta original no aparece (solo aparece como texto sin formato) ... también, en la otra pregunta, el título dice "no normal", pero la discusión es sobre datos normales
Gregg H

Es porque has incluido HTML en tu pregunta. Simplemente use las opciones de formato presentadas en la barra de herramientas de formato; formateará todo correctamente.
Sycorax dice Reinstate Monica

2
Obtienes asupernova
user541686

Respuestas:


5

Se suele decir que las comparaciones grupales de medias basadas en el modelo lineal general son generalmente robustas a las violaciones del supuesto de homogeneidad de la varianza. Sin embargo, existen ciertas condiciones bajo las cuales este definitivamente no es el caso, y una relativamente simple es una situación en la que se viola el supuesto de homogeneidad de varianza y usted tiene disparidades en los tamaños de los grupos. Esta combinación puede aumentar su tasa de error Tipo I o Tipo II, dependiendo de la distribución de las disparidades en las variaciones y los tamaños de muestra entre los grupos .

Una serie de simulaciones simples de pags-los valores te mostrarán cómo. Primero, veamos cómo una distribuciónpagsLos valores deberían verse cuando el nulo es verdadero, se cumple el supuesto de homogeneidad de varianza y los tamaños de grupo son iguales. Simularemos puntuaciones estandarizadas iguales para 200 observaciones en dos grupos ( x e y ), ejecutaremos un parámetrot-test y guarda el resultado pags-valor (y repita esto 10,000 veces). Luego trazaremos un histograma de la simulaciónpags-valores:

nSims <- 10000
h0 <-numeric(nSims)

for(i in 1:nSims){ 
x<-rnorm(n = 200, mean = 0, sd = 1) 
y<-rnorm(n = 200, mean = 0, sd = 1)  
z<-t.test(x,y, var.equal = T) 
h0[i]<-z$p.value 
}

hist(h0, main="Histogram of p-values [H0 = T, HoV = T, Cell.Eq = T]", xlab=("Observed p-value"), breaks=100)

ingrese la descripción de la imagen aquí

La distribución de pags-valores es relativamente uniforme, como debería ser. Pero, ¿qué sucede si hacemos que la desviación estándar del grupo y sea 5 veces mayor que la del grupo x (es decir, se viola la homogeneidad de la varianza)?

ingrese la descripción de la imagen aquí

Sigue siendo bastante uniforme. Pero cuando combinamos el supuesto violado de homogeneidad de varianza con disparidades en el tamaño del grupo (ahora disminuyendo el tamaño de la muestra del grupo x a 20), nos encontramos con problemas importantes. ingrese la descripción de la imagen aquí

La combinación de una desviación estándar más grande en un grupo y un tamaño de grupo más pequeño en el otro produce una inflación bastante dramática en nuestra tasa de error Tipo I. Pero las disparidades en ambos también pueden funcionar a la inversa. Si, en cambio, especificamos una población donde el valor nulo es falso ( la media del grupo x es .4 en lugar de 0), y un grupo (en este caso, el grupo y ) tiene una desviación estándar mayor y un tamaño de muestra mayor, entonces podemos dañar nuestro poder para detectar un efecto real:

ingrese la descripción de la imagen aquí

En resumen, la homogeneidad de la varianza no es un gran problema cuando los tamaños de los grupos son relativamente iguales, pero cuando los tamaños de los grupos son desiguales (como podrían serlo en muchas áreas de investigación cuasi-experimental), la homogeneidad de la varianza realmente puede inflar su Tipo I o II tasas de error.


4

Gregg, ¿te refieres a los datos heteroscedasticos normales? Su segundo párrafo parece sugerir eso.

Agregué una respuesta a la publicación original a la que hace referencia, donde sugerí que si los datos son normales pero heterocedásticos, el uso de mínimos cuadrados generalizados proporciona el enfoque más flexible para tratar con las características de datos que menciona. No tener en cuenta explícitamente esas características conducirá a resultados subóptimos y posiblemente engañosos, como notó en su propia práctica. Lo subóptimo o engañoso que puedan ser los resultados dependerá en última instancia de las peculiaridades de cada conjunto de datos.

Una buena manera de entender esto sería establecer un estudio de simulación en el que pueda variar dos factores: el número de grupos y el grado en que la variabilidad cambia entre los grupos. Luego, podría rastrear el impacto de estos factores en los resultados de la prueba de diferencias entre cualquiera de las medias y los resultados de las comparaciones post-hoc entre pares de medias cuando usa ANOVA estándar (que ignora la heterocedasticidad) versus gls (que explica heteroscedasticidad).

Quizás podría comenzar su ejercicio de simulación con un ejemplo simple con solo 3 grupos, donde mantiene la variabilidad de los dos primeros grupos igual pero cambia la variabilidad del tercer grupo por un factor f donde f se vuelve cada vez más grande. Esto le permitiría ver si ese tercer grupo comienza a dominar los resultados y cuándo. (Por simplicidad, las diferencias en los valores de resultado promedio entre cada uno de los tres grupos podrían mantenerse iguales, aunque podría ver cómo la magnitud de la diferencia común juega con la magnitud de la variabilidad en el tercer grupo).

Creo que sería difícil llegar a una evaluación general de lo que podría salir mal cuando se ignora la heterocedasticidad, además de advertir a las personas que ignorar la heterocedasticidad no es aconsejable cuando existen mejores métodos para tratarla.


Sí, el escenario aquí está destinado a hacer referencia solo a violaciones de la suposición homoscedástica
Gregg H

Sí, esa publicación original fue un poco confusa, ya que mencionó la no normalidad de los datos en su título, pero la normalidad en la pregunta real. ¡Gracias por la aclaración!
Isabella Ghement

3

Bueno, para datos heteroscedasticos no normales, en el peor de los casos, no podría tener ningún significado. Considere variables extraídas de

12πσ[(r1-μ1)2+(r2-μ2)2+σ2]32,
que obtendría si extrajera rendimientos de dos valores de renta variable, entonces ANOVA produciría un resultado completamente aleatorio no correlacionado con la realidad. Tendría una potencia de cero independientemente del tamaño de la muestra.

gracias por esto, aunque el escenario específico que me interesa aquí es normal pero heterocedástico (perdón por la confusión del enlace a la pregunta anterior)
Gregg H
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.