¿Por qué se enseña / usa ANOVA como si fuera una metodología de investigación diferente en comparación con la regresión lineal?


91

ANOVA es equivalente a la regresión lineal con el uso de variables ficticias adecuadas. Las conclusiones siguen siendo las mismas independientemente de si usa ANOVA o regresión lineal.

A la luz de su equivalencia, ¿hay alguna razón por la cual se usa ANOVA en lugar de regresión lineal?

Nota: Estoy particularmente interesado en escuchar sobre razones técnicas para el uso de ANOVA en lugar de regresión lineal.

Editar

Aquí hay un ejemplo usando ANOVA unidireccional. Suponga que quiere saber si la altura promedio de hombres y mujeres es la misma. Para probar su hipótesis, recopilaría datos de una muestra aleatoria de hombres y mujeres (digamos 30 cada uno) y realizaría el análisis ANOVA (es decir, la suma de los cuadrados para el género y el error) para decidir si existe un efecto.

También podría usar la regresión lineal para probar esto de la siguiente manera:

Definir: si el encuestado es un hombre y 0 en caso contrario. Altura = Intercepción + β Género + error donde: error N ( 0 , σ 2 )Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Luego, una prueba de si es una prueba equivalente para su hipótesis.β=0


2
Si no me equivoco, la regresión lineal es la estimación de coeficientes que definen un buen mapa lineal de X a Y. ANOVA es una prueba para saber si hay diferencias significativas en X cuando Y toma dos valores diferentes. ¿Puedes explicarnos por qué crees que son iguales?
robin girard

28
ANOVA puede verse como "azúcar sintáctico" para un subgrupo especial de modelos de regresión lineal. ANOVA es utilizado regularmente por investigadores que no son estadísticos por capacitación. Ahora están "institucionalizados" y es difícil convertirlos nuevamente a usar la representación más general ;-)
suncoolsu

3
βββ

Respuestas:


55

Como economista, el análisis de varianza (ANOVA) se enseña y generalmente se entiende en relación con la regresión lineal (por ejemplo, en el Curso A de Econometría de Arthur Goldberger ). Los economistas / econométricos generalmente ven a ANOVA como poco interesante y prefieren pasar directamente a los modelos de regresión. Desde la perspectiva de los modelos lineales (o incluso lineales generalizados), ANOVA asigna coeficientes en lotes, y cada lote corresponde a una "fuente de variación" en la terminología de ANOVA.

En general, puede replicar las inferencias que obtendría de ANOVA utilizando la regresión, pero no siempre la regresión OLS. Se necesitan modelos multinivel para analizar estructuras de datos jerárquicos como los "diseños de parcelas divididas", donde los efectos entre grupos se comparan con los errores a nivel de grupo, y los efectos dentro del grupo se comparan con los errores a nivel de datos. El artículo de Gelman [1] entra en gran detalle sobre este problema y efectivamente argumenta que ANOVA es una herramienta estadística importante que aún debe enseñarse por sí misma.

En particular, Gelman argumenta que ANOVA es una forma de entender y estructurar modelos multinivel. Por lo tanto, ANOVA no es una alternativa a la regresión, sino una herramienta para resumir inferencias complejas de alta dimensión y para el análisis exploratorio de datos.

Gelman es un estadístico muy respetado y se debe dar crédito a su punto de vista. Sin embargo, casi todo el trabajo empírico que hago estaría igualmente bien servido por la regresión lineal, por lo que caigo firmemente en el campo de verlo como un poco inútil. Algunas disciplinas con diseños de estudio complejos (por ejemplo, psicología) pueden encontrar útil ANOVA.

[1] Gelman, A. (2005). Análisis de varianza: por qué es más importante que nunca (con discusión). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048


1
Gracias por la referencia de Gelman. Leeré su periódico. Pero, ¿no podemos analizar modelos multinivel usando la máxima probabilidad clásica? Estoy de acuerdo en que OLS es ineficiente / inapropiado para modelos de varios niveles.

3
@Srikant: existen muchas formas de tratar con datos multinivel y Gelman es "el rey" de este campo. Su punto es que ANOVA es un método simple / claro de capturar las características clave de estructuras de datos complejas y jerárquicas o diseños de estudio y ANOVA es una forma simple / clara de presentar los resultados clave. En este sentido, su papel es complementario o exploratorio.
Graham Cookson

1
+1 para una buena respuesta clara. El párrafo 3 es esencialmente lo que me enseñaron como estudiante de biología, con énfasis en la facilidad de combinar variables independientes continuas y categóricas en un marco ANOVA.
Freya Harrison

23

Creo que el segundo párrafo de Graham llega al meollo del asunto. Sospecho que no es tanto técnico como histórico, probablemente debido a la influencia de los " Métodos estadísticos para los investigadores ", y la facilidad de enseñar / aplicar la herramienta para no estadísticos en el análisis experimental que involucra factores discretos, en lugar de profundizar en la construcción de modelos. y herramientas asociadas. En estadística, ANOVA generalmente se enseña como un caso especial de regresión. (Creo que esto es similar a por qué la bioestadística se llena con una miríada de "pruebas" homónimas en lugar de enfatizar la construcción de modelos).


14

Diría que algunos de ustedes están usando el término regresión cuando deberían usar el modelo lineal general. Pienso en la regresión como una película que involucra covariables continuas. Cuando las covariables continuas se combinan con variables ficticias que deberían llamarse análisis de covarianza. Si solo se utilizan variables ficticias, nos referimos a esa forma especial de glm como análisis de varianza. Creo que el análisis de varianza tiene un segundo significado distinto como el procedimiento para probar coeficientes significativos en un glm usando la descomposición de la varianza en componentes del término del modelo y el componente del término del error.


2
(+1) También noté inmediatamente la ambigua "regresión" de la terminología a lo largo de la discusión.
Stéphane Laurent

1
(+1) GLM podría ser la mejor manera de desenredar diferentes significados. También se debe tener en cuenta que en la historia de ANOVA se utilizaron procedimientos de cálculo que oscurecen la relación entre OLS y ANOVA. Por lo tanto, la nomenclatura podría estar justificada por razones históricas.
jank

10

ANOVA se puede usar con variables explicativas categóricas (factores) que toman más de 2 valores (niveles) y proporciona una prueba básica de que la respuesta media es la misma para cada valor. Esto evita el problema de regresión al llevar múltiples pruebas t por pares entre esos niveles:

  • Múltiples pruebas t en un nivel de significancia fijo del 5%, harían que aproximadamente el 5% de ellas den resultados incorrectos.
  • Estas pruebas no son independientes entre sí. La comparación de los niveles de A con los de B está relacionada con la comparación de A con los de C, ya que los datos de A se utilizan en ambas pruebas.

Es mejor usar contrastes para diferentes combinaciones en los niveles de factores que desea probar.


1
α=.05

77
(3) su respuesta implica que el problema de las comparaciones múltiples se aplica a la regresión OLS, que no es así, cuando se realiza correctamente. La forma correcta de probar un factor en un contexto de regresión es probar el modelo anidado con todos los dummies de factores descartados contra el modelo completo con todos los dummies de factores incluidos. Esta prueba es idéntica a la que realiza un ANOVA. Es cierto que no debe usar las pruebas de las variables ficticias individuales (que sospecho que es lo que está tratando de describir aquí).
gung - Restablece a Monica

3

ANOVA está probando si hay una diferencia significativa entre la población significa que si está comparando más de dos medias de población, entonces usará una prueba F.

En el análisis de regresión, construyes un modelo entre variables independientes y una variable dependiente. Si tiene una variable independiente con cuatro niveles, puede usar tres variables ficticias y ejecutar un modelo de regresión. La prueba F para el modelo de regresión que se usa para evaluar la importancia del modelo de regresión es la misma que la F que se obtiene al probar la diferencia entre las medias de la población. Si ejecuta una regresión paso a paso, algunas de las variables ficticias podrían eliminarse del modelo y su valor F será diferente de cuando realice la prueba ANOVA.


55
Esto hace que ANOVA sea un procedimiento de prueba y la regresión sea un procedimiento de modelado en el que puede realizar pruebas. Pero ANOVA también tiene un modelo subyacente, independientemente de si esto se enfatiza en todos los tratamientos introductorios. Entonces, esta respuesta no captura ninguna diferencia entre ellos. Tampoco se aborda en la pregunta, por eso se les enseña como diferentes, independientemente de las fuertes similitudes.
Nick Cox
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.