¿De qué manera (maneras?) Hay para explicar visualmente qué es ANOVA?
Cualquier referencia, enlace (s) (paquetes R?) Será bienvenida.
¿De qué manera (maneras?) Hay para explicar visualmente qué es ANOVA?
Cualquier referencia, enlace (s) (paquetes R?) Será bienvenida.
Respuestas:
Personalmente, me gusta introducir la regresión lineal y el ANOVA al mostrar que todo es lo mismo y que los modelos lineales equivalen a dividir la varianza total: tenemos algún tipo de varianza en el resultado que puede explicarse por los factores de interés, más lo inexplicable parte (llamada 'residual'). Generalmente uso la siguiente ilustración (línea gris para la variabilidad total, líneas negras para la variabilidad específica grupal o individual):
También me gusta el que heplots paquete R, de Michael amable y John Fox, pero también veo Pruebas de hipótesis visuales en los modelos multivariados lineales: El paquete heplots para R .
Las formas estándar de explicar lo que ANOVA realmente hace, especialmente en el marco del Modelo Lineal, están realmente bien explicadas en las respuestas de Plane a preguntas complejas , por Christensen, pero hay muy pocas ilustraciones. Métodos estadísticos de Saville y Wood : el enfoque geométrico tiene algunos ejemplos, pero principalmente sobre regresión. En el Diseño y análisis de experimentos de Montgomery , que se centró principalmente en DoE, hay ilustraciones que me gustan, pero vea a continuación
(estos son mios :-)
Pero creo que tienes que buscar libros de texto en modelos lineales si quieres ver cómo la suma de cuadrados, errores, etc. se traduce en un espacio vectorial, como se muestra en Wikipedia . Estimation and Inference in Econometrics , de Davidson y MacKinnon, parece tener buenas ilustraciones (el primer capítulo en realidad cubre la geometría OLS) pero solo busco la traducción al francés (disponible aquí ). La geometría de la regresión lineal también tiene algunas buenas ilustraciones.
Editar :
Ah, y solo recuerdo este artículo de Robert Pruzek, Un nuevo gráfico para ANOVA unidireccional .
Editar 2
Y ahora, el paquete granova (mencionado por @ gd047 y asociado al documento anterior) se ha portado a ggplot, vea granovaGG con una ilustración para ANOVA unidireccional a continuación.
Gracias por tu gran respuesta hasta ahora. Si bien fueron muy esclarecedores, sentí que usarlos para el curso que enseño actualmente (bueno, TA'ing) será demasiado para mis alumnos. (Ayudo a enseñar el curso Bioestadística para estudiantes de títulos avanzados en ciencias de la medicina)
Por lo tanto, terminé creando dos imágenes (ambas basadas en simulación) que creo que son un ejemplo útil para explicar ANOVA.
Estaré encantado de leer comentarios o sugerencias para mejorarlos.
La primera imagen muestra una simulación de 30 puntos de datos, separados en 3 parcelas (que muestran cómo MST = Var se separa de los datos que crean MSB y MSW:
La segunda imagen muestra 4 parcelas, cada una para una combinación diferente de varianza y expectativa para los grupos mientras
Dado que reunimos ciertos tipos de gráficos agradables en esta publicación, aquí hay otro que encontré recientemente y puede ayudarlo a comprender cómo funciona ANOVA y cómo se genera la estadística F. El gráfico fue creado usando el paquete granova en R.
Echa un vistazo a la presentación de Hadley Wickham ( pdf , espejo ) en ggplot. A partir de las páginas 23-40 de este documento, describe un enfoque interesante para visualizar los ANOVA.
* Enlace tomado de: http://had.co.nz/ggplot2/
Gran pregunta Sabes, me he esforzado mucho en envolver mi cabeza alrededor de ANOVA durante mucho tiempo. Siempre me encuentro volviendo a la intuición "entre versus dentro", y siempre he tratado de imaginar cómo se vería esto en mi cabeza. Me alegro de que surgiera esta pregunta, y me han sorprendido los variados enfoques en las respuestas anteriores.
De todos modos, durante mucho tiempo (incluso años) he estado queriendo recolectar varias parcelas en un lugar donde podía ver lo que sucedía simultáneamente desde muchas direcciones diferentes: 1) qué tan separadas están las poblaciones , 2) cómo muy lejos están los datos , 3) ¿qué tan grande es el intermedio en comparación con el interno , y 4) cómo se comparan las distribuciones F centrales y no centrales ?
En un mundo realmente genial , incluso podría jugar con controles deslizantes para ver cómo el tamaño de la muestra cambia las cosas.
Así que he estado jugando con el manipulate
comando en RStudio , y Holy Cow, ¡funciona! Aquí está una de las tramas, una instantánea, realmente:
¡Si tiene RStudio, puede obtener el código para hacer la trama anterior (controles deslizantes y todo)! en Github aquí .
Después de jugar con esto por un tiempo, me sorprende lo bien que la estadística F distingue a los grupos, incluso para tamaños de muestra moderadamente pequeños. Cuando miro a las poblaciones, en realidad no están tan separadas (a mi parecer), sin embargo, la barra "dentro" está constantemente eclipsada por la barra "entre". Aprende algo todos los días, supongo.
Para ilustrar lo que está sucediendo con ANOVA unidireccional, a veces he usado un applet ofrecido por los autores de "Introducción a la práctica de la estadística", que permite a los estudiantes jugar dentro y entre las variaciones y observar su efecto en la estadística F . Aquí está el enlace (el applet es el último en la página). Captura de pantalla de muestra:
El usuario controla el control deslizante superior, variando las extensiones verticales de los tres grupos de datos. El punto rojo en la parte inferior se mueve a lo largo de la gráfica de valores p mientras se actualiza la estadística F que se muestra debajo.
Parece que el barco ya ha navegado en términos de una respuesta, pero creo que si este es un curso introductorio, la mayoría de las pantallas que se ofrecen aquí serán demasiado difíciles de entender para los estudiantes introductorios ... o al menos también difícil de entender sin una pantalla introductoria que proporciona una explicación muy simplificada de la variación de particionamiento. Muéstreles cómo el total de TSM aumenta con el número de sujetos. Luego, después de mostrar que se infla para varios sujetos (quizás agregando uno en cada grupo varias veces), explique que SST = SSB + SSW (aunque prefiero llamarlo SSE desde el principio porque evita la confusión cuando va a la prueba IMO dentro de los sujetos ) Luego muéstreles una representación visual de la partición de la varianza, por ejemplo, un gran código de color cuadrado para que pueda ver cómo SST está hecho de SSB y SSW. Entonces,