En modelos sin términos de interacción (es decir, sin términos que se construyen como el producto de otros términos), el coeficiente de regresión de cada variable es la pendiente de la superficie de regresión en la dirección de esa variable. Es constante, independientemente de los valores de las variables, y por lo tanto se puede decir que mide el efecto general de esa variable.
En modelos con interacciones, esta interpretación se puede hacer sin calificación adicional solo para aquellas variables que no están involucradas en ninguna interacción. Para una variable que participa en las interacciones, el coeficiente de regresión del "efecto principal", es decir, el coeficiente de regresión de la variable en sí mismo, es la pendiente de la superficie de regresión en la dirección de esa variable cuando todas las demás variables que interactuar con esa variable tiene valores de cero , y la prueba de significación del coeficiente se refiere a la pendiente de la superficie de regresión solo en esa región del espacio predictor. Dado que no existe el requisito de que realmente haya datos en esa región del espacio, el coeficiente de efecto principal puede tener poca semejanza con la pendiente de la superficie de regresión en la región del espacio predictor donde los datos se observaron realmente.
En términos anova, el coeficiente de efecto principal es análogo a un efecto principal simple, no a un efecto principal general. Además, puede referirse a lo que en un diseño anova serían celdas vacías en las que los datos se suministraron extrapolando desde celdas con datos.
Para una medida del efecto general de la variable que es análoga a un efecto principal general en anova y no se extrapola más allá de la región en la que se observaron los datos, debemos observar la pendiente promedio de la superficie de regresión en la dirección de la variable , donde el promedio supera los N casos que se observaron realmente. Esta pendiente promedio se puede expresar como una suma ponderada de los coeficientes de regresión de todos los términos del modelo que involucran la variable en cuestión.
Los pesos son difíciles de describir pero fáciles de obtener. El coeficiente de efecto principal de una variable siempre obtiene una ponderación de 1. Para cada uno de los coeficientes de un término que involucra esa variable, la ponderación es la media del producto de las otras variables en ese término. Por ejemplo, si tenemos cinco variables "en bruto" x1, x2, x3, x4, x5
, más cuatro interacciones bidireccionales (x1,x2), (x1,x3), (x2,x3), (x4,x5)
y una interacción tridireccional (x1,x2,x3)
, entonces el modelo es
y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
b123*x1*x2*x3 + e
y los principales efectos generales son
B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],
B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],
B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],
B4 = b4 + b45*M[x5],
B5 = b5 + b45*M[x4],
donde M [.] denota la media muestral de la cantidad dentro de los corchetes. Todos los términos del producto dentro de los corchetes se encuentran entre los que se construyeron para hacer la regresión, por lo que un programa de regresión ya debería saber sobre ellos y debería poder imprimir sus medios a pedido.
En los modelos que solo tienen efectos principales e interacciones bidireccionales, hay una forma más simple de obtener los efectos generales: centrar [1] las variables en bruto en sus medios. Esto debe hacerse antes de calcular los términos del producto, y no debe hacerse con los productos. Entonces, todas las expresiones M [.] Se convertirán en 0, y los coeficientes de regresión serán interpretables como efectos generales. Los valores de los b cambiarán; los valores de las B no lo harán. Solo las variables que están involucradas en las interacciones deben centrarse, pero generalmente no hay daño en centrar otras variables medidas. El efecto general de centrar una variable es que, además de cambiar la intersección, solo cambia los coeficientes de otras variables que interactúan con la variable centrada. En particular, no cambia los coeficientes de ningún término que involucre la variable centrada. En el ejemplo anterior, centrar x1 cambiaría b0, b2, b3 y b23.
[1 - "Centrar" es utilizado por diferentes personas de maneras que difieren lo suficiente como para causar confusión. Como se usa aquí, "centrar una variable en #" significa restar # de todas las puntuaciones en la variable, convirtiendo las puntuaciones originales en desviaciones de #.]
Entonces, ¿por qué no siempre centrarse en los medios, rutinariamente? Tres razones Primero, los coeficientes de efecto principal de las variables no centradas pueden ser de interés. Centrarse en tales casos sería contraproducente, ya que cambia los coeficientes de efecto principal de otras variables.
En segundo lugar, el centrado hará que todas las expresiones M [.] Sean 0 y, por lo tanto, convierta los efectos simples en efectos generales, solo en modelos sin interacciones triples o superiores . Si el modelo contiene tales interacciones, entonces los cálculos b -> B aún deben realizarse, incluso si todas las variables están centradas en sus medias.
En tercer lugar, centrar en un valor como la media, que se define por la distribución de los predictores en lugar de ser elegido racionalmente, significa que todos los coeficientes que se ven afectados por el centrado serán específicos de su muestra particular. Si se centra en la media, entonces alguien que intente replicar su estudio debe centrarse en su media, no en su propia media, si desea obtener los mismos coeficientes que obtuvo. La solución a este problema es centrar cada variable en un valor central racionalmente elegido de esa variable que depende del significado de los puntajes y no depende de la distribución de los puntajes. Sin embargo, los cálculos b -> B siguen siendo necesarios.
La importancia de los efectos generales puede probarse mediante los procedimientos habituales para probar combinaciones lineales de coeficientes de regresión. Sin embargo, los resultados deben interpretarse con cuidado porque los efectos generales no son parámetros estructurales sino que dependen del diseño. Se puede esperar que los parámetros estructurales (los coeficientes de regresión (no centrados o con centrado racional) y la varianza del error) permanezcan invariables bajo los cambios en la distribución de los predictores, pero los efectos generales generalmente cambiarán. Los efectos generales son específicos de la muestra particular y no se debe esperar que se trasladen a otras muestras con diferentes distribuciones en los predictores. Si un efecto general es significativo en un estudio y no en otro, puede reflejar nada más que una diferencia en la distribución de los predictores.