¿Cómo son todas las versiones del mismo método estadístico básico?
¿Cómo son todas las versiones del mismo método estadístico básico?
Respuestas:
Considere que todos pueden escribirse como una ecuación de regresión (quizás con interpretaciones ligeramente diferentes a las de sus formas tradicionales).
Regresión:
Prueba t:
ANOVA:
La regresión prototípica se conceptualiza con como una variable continua. Sin embargo, la única suposición que se hace realmente sobre es que es un vector de constantes conocidas. Podría ser una variable continua, pero también podría ser un código ficticio (es decir, un vector de y que indica si una observación es miembro de un grupo indicado, por ejemplo, un grupo de tratamiento). Por lo tanto, en la segunda ecuación, podría ser un código ficticio y el valor p sería el mismo que el de una prueba t en su forma más tradicional. X 0 1 X
Sin embargo, el significado de las betas sería diferente aquí. En este caso, sería la media del grupo de control (para el cual las entradas en la variable ficticia serían 's), y sería la diferencia entre la media del grupo de tratamiento y la media del control grupo. 0 β 1
Ahora, recuerde que es perfectamente razonable tener / ejecutar un ANOVA con solo dos grupos (aunque una prueba t sería más común), y tiene los tres conectados. Si prefiere ver cómo funcionaría si tuviera un ANOVA con 3 grupos; sería: Tenga en cuenta que cuando tiene grupos , tiene códigos ficticios para representarlos. El grupo de referencia (típicamente el grupo de control) se indica teniendo para todosg g - 1 0 β 0 β 1 β 2
A la luz de los comentarios de @ whuber a continuación, estos también pueden representarse mediante ecuaciones matriciales:
Representado de esta manera, & son vectores de longitud , y es un vector de longitud . ahora es una matriz con filas y columnas. En una regresión prototípica tienes variables continuas y la intersección. Por lo tanto, su matriz se compone de una serie de vectores de columna uno al lado del otro, uno para cada
Y ε N β p + 1 X N ( p + 1 ) p X X X 1
Si está representando un ANOVA con grupos de esta manera, recuerde que tendría variables ficticias que indican los grupos, con el grupo de referencia indicado por una observación que tiene 's en cada variable ficticia. Como arriba, todavía tendrías una intercepción. Por lo tanto, . g - 1 0 p = g - 1
Todos pueden escribirse como casos particulares del modelo lineal general.
La prueba t es un caso de ANOVA de dos muestras. Si cuadras la estadística de la prueba t obtienes la correspondiente en el ANOVA.
Un modelo ANOVA es básicamente solo un modelo de regresión donde los niveles de factores están representados por variables ficticias (o indicadores ) .
Entonces, si el modelo para una prueba t es un subconjunto del modelo ANOVA y ANOVA es un subconjunto del modelo de regresión múltiple, la regresión misma (y otras cosas además de la regresión) es un subconjunto del modelo lineal general , que extiende la regresión a un especificación más general del término de error que el caso de regresión habitual (que es 'independiente' y 'varianza igual'), y para multivariante .
Aquí está un ejemplo que muestra la equivalencia de lo común (igual-varianza) dos muestra- análisis y una prueba de hipótesis en un modelo de regresión, hecho en R (las miradas reales de datos para ser emparejados, por lo que esto no es realmente un análisis adecuado) :
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Tenga en cuenta el valor p de 0.079 anterior. Aquí está la única forma anova:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Ahora para la regresión:
> summary(lm(extra ~ group, data = sleep))
(alguna salida eliminada)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Compare el valor p en la fila 'group2', y también el valor p para la prueba F en la última fila. Para una prueba de dos colas, son las mismas y ambas coinciden con el resultado de la prueba t.
Además, el coeficiente para 'grupo2' representa la diferencia de medias para los dos grupos.
Esta respuesta que publiqué anteriormente es algo relevante, pero esta pregunta es algo diferente.
Es posible que desee pensar en las diferencias y similitudes entre los siguientes modelos lineales:
Anova es similar a una prueba t para la igualdad de medias bajo el supuesto de variaciones desconocidas pero iguales entre los tratamientos. Esto se debe a que en ANOVA MSE es idéntico a la varianza agrupada utilizada en la prueba t. Existen otras versiones de la prueba t, como una para varianzas no iguales y la prueba t por pares. Desde esta vista, la prueba t puede ser más flexible.