Los supuestos importan en la medida en que afectan las propiedades de las pruebas de hipótesis (e intervalos) que podría usar cuyas propiedades de distribución bajo nulo se calculan basándose en esos supuestos.
En particular, para las pruebas de hipótesis, lo que podría interesarnos es cuán lejos podría estar el verdadero nivel de significación de lo que queremos que sea, y si el poder contra las alternativas de interés es bueno.
En relación con los supuestos sobre los que pregunta:
1. Igualdad de varianza
La varianza de su variable dependiente (residuos) debe ser igual en cada celda del diseño
Esto ciertamente puede afectar el nivel de significancia, al menos cuando los tamaños de muestra son desiguales.
(Editar :) Un estadístico F de ANOVA es la razón de dos estimaciones de varianza (la división y comparación de varianzas es la razón por la cual se llama análisis de varianza) El denominador es una estimación de la varianza de error supuestamente común a todas las celdas (calculada a partir de los residuos), mientras que el numerador, basado en la variación en las medias grupales, tendrá dos componentes, uno por variación en las medias poblacionales y otro debido a la varianza del error. Si el nulo es verdadero, las dos variaciones que se estiman serán las mismas (dos estimaciones de la variación de error común); este valor común pero desconocido se cancela (porque tomamos una razón), dejando un estadístico F que solo depende de la distribución de los errores (que bajo los supuestos que podemos mostrar tiene una distribución F.) (comentarios similares se aplican al t- prueba que usé para la ilustración.)
[Hay un poco más de detalle sobre parte de esa información en mi respuesta aquí ]
Sin embargo, aquí las dos variaciones de población difieren entre las dos muestras de diferentes tamaños. Considere el denominador (del estadístico F en ANOVA y del estadístico t en una prueba t): está compuesto por dos estimaciones de varianza diferentes, no una, por lo que no tendrá la distribución "correcta" (un chi escalado -square para la F y su raíz cuadrada en el caso de at - tanto la forma como la escala son problemas).
Como resultado, el estadístico F o el estadístico t ya no tendrán la distribución F o t, pero la forma en que se ve afectada es diferente dependiendo de si la muestra grande o más pequeña se extrajo de la población con La mayor varianza. Esto a su vez afecta la distribución de los valores p.
Bajo nulo (es decir, cuando las medias de población son iguales), la distribución de los valores de p debe distribuirse uniformemente. Sin embargo, si las variaciones y los tamaños de muestra son desiguales pero las medias son iguales (por lo que no queremos rechazar el valor nulo), los valores p no se distribuyen uniformemente. Hice una pequeña simulación para mostrarte lo que sucede. En este caso, utilicé solo 2 grupos, por lo que ANOVA es equivalente a una prueba t de dos muestras con el supuesto de varianza igual. Así que simulé muestras de dos distribuciones normales, una con desviación estándar diez veces mayor que la otra, pero con medias iguales.
Para la gráfica del lado izquierdo, la desviación estándar más grande ( población ) fue para n = 5 y la desviación estándar más pequeña fue para n = 30. Para el gráfico del lado derecho, la desviación estándar más grande fue con n = 30 y la más pequeña con n = 5. Simulé cada uno 10000 veces y encontré el valor p cada vez. En cada caso, desea que el histograma sea completamente plano (rectangular), ya que esto significa que todas las pruebas realizadas en algún nivel de significancia obtienen realmente esa tasa de error tipo I. En particular, es más importante que las partes más a la izquierda del histograma se mantengan cerca de la línea gris:α
Como vemos, en el gráfico del lado izquierdo (mayor varianza en la muestra más pequeña), los valores p tienden a ser muy pequeños: rechazaríamos la hipótesis nula muy a menudo (casi la mitad del tiempo en este ejemplo) aunque el nulo sea verdadero . Es decir, nuestros niveles de significancia son mucho más grandes de lo que pedimos. En el gráfico del lado derecho, vemos que los valores p son en su mayoría grandes (y, por lo tanto, nuestro nivel de significancia es mucho más pequeño de lo que pedimos); de hecho, ni una sola vez en diez mil simulaciones rechazamos al nivel del 5% (el más pequeño El valor p aquí fue 0.055). [Esto puede no sonar tan mal, hasta que recordemos que también tendremos muy poca potencia para ir con nuestro nivel de significancia muy bajo.]
Esa es una gran consecuencia. Es por eso que es una buena idea usar una prueba t de Welch-Satterthwaite tipo t o ANOVA cuando no tenemos una buena razón para suponer que las variaciones serán casi iguales: en comparación, apenas se ve afectado en estas situaciones (I también simuló este caso; las dos distribuciones de valores p simulados, que no he mostrado aquí, salieron bastante cerca de plano).
2. Distribución condicional de la respuesta (DV)
Su variable dependiente (residuos) debe distribuirse aproximadamente de manera normal para cada celda del diseño
Esto es algo menos directamente crítico: para desviaciones moderadas de la normalidad, el nivel de significación no se ve muy afectado en muestras más grandes (¡aunque el poder puede serlo!).
nn
Vemos que en n = 5 hay muy pocos valores p pequeños (el nivel de significancia para una prueba del 5% sería aproximadamente la mitad de lo que debería ser), pero en n = 50 el problema se reduce, para un 5% prueba en este caso el verdadero nivel de significancia es de aproximadamente 4.5%
Por lo tanto, podríamos sentir la tentación de decir "bueno, está bien, si n es lo suficientemente grande como para que el nivel de significancia sea bastante cercano", pero también podemos estar arrojando una gran cantidad de poder. En particular, se sabe que la eficiencia relativa asintótica de la prueba t en relación con las alternativas ampliamente utilizadas puede llegar a 0. Esto significa que las mejores opciones de prueba pueden obtener la misma potencia con una fracción extremadamente pequeña del tamaño de muestra requerido para obtenerla. La prueba t. No necesita nada fuera de lo común para continuar necesitando más del doble de datos para tener la misma potencia con la t que necesitaría con una prueba alternativa, colas moderadamente más pesadas de lo normal en la distribución de la población y muestras moderadamente grandes pueden ser suficientes para hacerlo.
(Otras opciones de distribución pueden hacer que el nivel de significación sea más alto de lo que debería ser, o sustancialmente más bajo de lo que vimos aquí).