¿Cómo visualizar lo que hace ANOVA?

60

¿De qué manera (maneras?) Hay para explicar visualmente qué es ANOVA?

Cualquier referencia, enlace (s) (paquetes R?) Será bienvenida.

data-visualization anova teaching

— Tal Galili
fuente

En su blog 'Los esfuerzos de un psicólogo en la programación estadística', Kristoffer Magnusson da un gran ejemplo de visualización anova unidireccional usando D3.js rpsychologist.com/d3-one-way-anova/#comment-1891

— Epifunky

He encontrado esta agradable visualización de lo que es el análisis de varianza. No es tan preciso como las respuestas anteriores, pero puedes jugar interactivamente con la visualización. Lo encontré bastante interesante: students.brown.edu/seeing-theory/regression/index.html#third

— Mike

51

Personalmente, me gusta introducir la regresión lineal y el ANOVA al mostrar que todo es lo mismo y que los modelos lineales equivalen a dividir la varianza total: tenemos algún tipo de varianza en el resultado que puede explicarse por los factores de interés, más lo inexplicable parte (llamada 'residual'). Generalmente uso la siguiente ilustración (línea gris para la variabilidad total, líneas negras para la variabilidad específica grupal o individual):

texto alternativo

También me gusta el que heplots paquete R, de Michael amable y John Fox, pero también veo Pruebas de hipótesis visuales en los modelos multivariados lineales: El paquete heplots para R .

Las formas estándar de explicar lo que ANOVA realmente hace, especialmente en el marco del Modelo Lineal, están realmente bien explicadas en las respuestas de Plane a preguntas complejas , por Christensen, pero hay muy pocas ilustraciones. Métodos estadísticos de Saville y Wood : el enfoque geométrico tiene algunos ejemplos, pero principalmente sobre regresión. En el Diseño y análisis de experimentos de Montgomery , que se centró principalmente en DoE, hay ilustraciones que me gustan, pero vea a continuación

texto alternativo

(estos son mios :-)

Pero creo que tienes que buscar libros de texto en modelos lineales si quieres ver cómo la suma de cuadrados, errores, etc. se traduce en un espacio vectorial, como se muestra en Wikipedia . Estimation and Inference in Econometrics , de Davidson y MacKinnon, parece tener buenas ilustraciones (el primer capítulo en realidad cubre la geometría OLS) pero solo busco la traducción al francés (disponible aquí ). La geometría de la regresión lineal también tiene algunas buenas ilustraciones.

Editar :

Ah, y solo recuerdo este artículo de Robert Pruzek, Un nuevo gráfico para ANOVA unidireccional .

Editar 2

Y ahora, el paquete granova (mencionado por @ gd047 y asociado al documento anterior) se ha portado a ggplot, vea granovaGG con una ilustración para ANOVA unidireccional a continuación.

ingrese la descripción de la imagen aquí

— chl
fuente

¿Se produce la primera ilustración con R?

— George Dontas

@ gd047 Sí. Debería tener el código fuente feo en algún lugar si lo desea. El segundo se realiza en Metapost.

— chl

3

@ gd047 Muy bien, como siempre es siempre cuando buscamos código antiguo que no podemos encontrarlo (a pesar de mi mejor esfuerzo con grep / find), así que reescribí un script R rápido (todavía feo) para eso. También he puesto un ejemplo del código MP .

— chl

La geometría del enlace de regresión lineal parece haberse podrido, lamentablemente.

— Silverfish

23

¿Qué tal algo como esto? texto alternativo

Siguiendo a Crawley (2005). Estadística. Una introducción usando R: Wiley.

— EDi
fuente

1

(+1) Me acuerdo de plot.design()(pero el tuyo en una versión mejorada :-)

— chl

Esto es lo mejor.

— Curioso

13

Gracias por tu gran respuesta hasta ahora. Si bien fueron muy esclarecedores, sentí que usarlos para el curso que enseño actualmente (bueno, TA'ing) será demasiado para mis alumnos. (Ayudo a enseñar el curso Bioestadística para estudiantes de títulos avanzados en ciencias de la medicina)

Por lo tanto, terminé creando dos imágenes (ambas basadas en simulación) que creo que son un ejemplo útil para explicar ANOVA.

Estaré encantado de leer comentarios o sugerencias para mejorarlos.

La primera imagen muestra una simulación de 30 puntos de datos, separados en 3 parcelas (que muestran cómo MST = Var se separa de los datos que crean MSB y MSW:

El diagrama de la izquierda muestra un diagrama de dispersión de los datos por grupo.
El del medio muestra cómo se ven los datos que vamos a usar para MSB.
La imagen de la derecha muestra cómo se ven los datos que vamos a utilizar para MSW.

texto alternativo

La segunda imagen muestra 4 parcelas, cada una para una combinación diferente de varianza y expectativa para los grupos mientras

La primera fila de parcelas es para varianza baja, mientras que la segunda fila es para varianza alta (er).
La primera columna de parcelas es para igual expectativa entre los grupos, mientras que la segunda columna muestra grupos con (muy) diferentes expectativas.

texto alternativo

— Tal Galili
fuente

2

H_{0} : μ_{1} = μ_{2} = \dots = μ_{k}

$H_0:~\mu_1=\mu_2=\ldots=\mu_k$

H_{1} : \exists i, j | μ_{i} \neq μ_{j}

$H_1:~\exists\ i,j~|~\mu_i\neq\mu_j$

H_{1} \equiv \neg H_{0}

$H_1\equiv\neg~H_0$ ) Si puede transmitir esas ideas en una pantalla gráfica, que parece ser el caso aquí, entonces creo que ya casi ha terminado.

— chl

Hola chl, gracias por los comentarios positivos (y por tu respuesta detallada anterior). Creo que algunos de los masajes más importantes que obtuve al preparar el material para esta clase son: 1) Cómo describir la transformación de los datos originales para obtener las medidas de varianza MSB y MSW. 2) Cómo la estadística de prueba de MSB / MSW es en realidad una prueba de un solo lado (no de dos lados) donde el H0 es ese MSB <= MSW. Por último, pensé en señalar que es cierto que SSW = SST-SSB (pero no veo cómo es cierto para MSW = MST-MSB).

— Tal Galili

1

y_{i j} = μ + α_{i} + ε_{i j}

$y_{ij}=\mu + \alpha_i + \varepsilon_{ij}$

y_{i j} = μ_{i} + ε_{i j}

$y_{ij}=\mu_i + \varepsilon_{ij}$

y_{i j} = \bar{y_{i}} + ε_{i j} = \bar{y} + ({\bar{y}}_{i} - \bar{y}) + (y_{i j} - {\bar{y}}_{i})

$y_{ij}=\bar{y_i}+\varepsilon_{ij}=\bar{y}+(\bar{y}_i-\bar{y})+(y_{ij}-\bar{y}_i)$

(y_{i j} - \bar{y}) = ({\bar{y}}_{i} - \bar{y}) + (y_{i j} - {\bar{y}}_{i})

$(y_{ij}-\bar{y})=(\bar{y}_i-\bar{y})+(y_{ij}-\bar{y}_i)$

12

Dado que reunimos ciertos tipos de gráficos agradables en esta publicación, aquí hay otro que encontré recientemente y puede ayudarlo a comprender cómo funciona ANOVA y cómo se genera la estadística F. El gráfico fue creado usando el paquete granova en R. texto alternativo

— George Dontas
fuente

2

(+1) Di un enlace al artículo de Robert Pruzek, pero no sabía que estaba disponible en R.

— chl

10

Echa un vistazo a la presentación de Hadley Wickham ( pdf , espejo ) en ggplot. A partir de las páginas 23-40 de este documento, describe un enfoque interesante para visualizar los ANOVA.

* Enlace tomado de: http://had.co.nz/ggplot2/

— Dimitry L
fuente

6

Gran pregunta Sabes, me he esforzado mucho en envolver mi cabeza alrededor de ANOVA durante mucho tiempo. Siempre me encuentro volviendo a la intuición "entre versus dentro", y siempre he tratado de imaginar cómo se vería esto en mi cabeza. Me alegro de que surgiera esta pregunta, y me han sorprendido los variados enfoques en las respuestas anteriores.

De todos modos, durante mucho tiempo (incluso años) he estado queriendo recolectar varias parcelas en un lugar donde podía ver lo que sucedía simultáneamente desde muchas direcciones diferentes: 1) qué tan separadas están las poblaciones , 2) cómo muy lejos están los datos , 3) ¿qué tan grande es el intermedio en comparación con el interno , y 4) cómo se comparan las distribuciones F centrales y no centrales ?

En un mundo realmente genial , incluso podría jugar con controles deslizantes para ver cómo el tamaño de la muestra cambia las cosas.

Así que he estado jugando con el manipulatecomando en RStudio , y Holy Cow, ¡funciona! Aquí está una de las tramas, una instantánea, realmente:

visualizarANOVA

¡Si tiene RStudio, puede obtener el código para hacer la trama anterior (controles deslizantes y todo)! en Github aquí .

Después de jugar con esto por un tiempo, me sorprende lo bien que la estadística F distingue a los grupos, incluso para tamaños de muestra moderadamente pequeños. Cuando miro a las poblaciones, en realidad no están tan separadas (a mi parecer), sin embargo, la barra "dentro" está constantemente eclipsada por la barra "entre". Aprende algo todos los días, supongo.

— kjetil b halvorsen
fuente

3

Para ilustrar lo que está sucediendo con ANOVA unidireccional, a veces he usado un applet ofrecido por los autores de "Introducción a la práctica de la estadística", que permite a los estudiantes jugar dentro y entre las variaciones y observar su efecto en la estadística F . Aquí está el enlace (el applet es el último en la página). Captura de pantalla de muestra:

ingrese la descripción de la imagen aquí

El usuario controla el control deslizante superior, variando las extensiones verticales de los tres grupos de datos. El punto rojo en la parte inferior se mueve a lo largo de la gráfica de valores p mientras se actualiza la estadística F que se muestra debajo.

— David
fuente

2

Parece que el barco ya ha navegado en términos de una respuesta, pero creo que si este es un curso introductorio, la mayoría de las pantallas que se ofrecen aquí serán demasiado difíciles de entender para los estudiantes introductorios ... o al menos también difícil de entender sin una pantalla introductoria que proporciona una explicación muy simplificada de la variación de particionamiento. Muéstreles cómo el total de TSM aumenta con el número de sujetos. Luego, después de mostrar que se infla para varios sujetos (quizás agregando uno en cada grupo varias veces), explique que SST = SSB + SSW (aunque prefiero llamarlo SSE desde el principio porque evita la confusión cuando va a la prueba IMO dentro de los sujetos ) Luego muéstreles una representación visual de la partición de la varianza, por ejemplo, un gran código de color cuadrado para que pueda ver cómo SST está hecho de SSB y SSW. Entonces,

— russellpierce
fuente

2

$Y$ $X$

ingrese la descripción de la imagen aquí

— Martin Van der Linden
fuente