¿Por qué centrar variables independientes puede cambiar los efectos principales con moderación?


28

Tengo una pregunta relacionada con la regresión múltiple y la interacción, inspirada en este hilo CV: ¿ Término de interacción usando el análisis de regresión jerárquica de variables centradas? ¿Qué variables debemos centrar?

Al verificar un efecto de moderación, centro mis variables independientes y multiplico las variables centradas para calcular mi término de interacción. Luego ejecuto mi análisis de regresión y compruebo los efectos principales y de interacción, que pueden mostrar la moderación.

Si rehago el análisis sin centrarme, aparentemente el coeficiente de determinación ( ) no cambia, pero los coeficientes de regresión ( s) sí. Eso parece claro y lógico. βR2β

Lo que no entiendo: los valores p de los efectos principales cambian sustancialmente con el centrado, aunque la interacción no (lo cual es correcto). Entonces, mi interpretación de los efectos principales podría cambiar drásticamente, solo determinada por el centrado o no. (¡Sigue siendo la misma información, en ambos análisis!)

¿Alguien puede aclarar? - Porque eso significaría que la opción de centrar mis variables sería obligatoria y todos deberían hacerlo para obtener los mismos resultados con los mismos datos.


Muchas gracias por distribuir ese problema y sus explicaciones completas. ¡Tenga la seguridad de que su ayuda es muy apreciada!

Para mí, la mayor ventaja del centrado es evitar la multicolinealidad. Todavía es bastante confuso establecer una regla, ya sea centrarse o no. Mi impresión es que la mayoría de los recursos sugieren centrarse, aunque existen algunos "riesgos" al hacerlo. Una vez más, quiero destacar el hecho de que 2 investigadores que trabajan con el mismo material y datos pueden concluir resultados diferentes, porque uno se centra y el otro no. Acabo de leer una parte de un libro de Bortz (era profesor y una especie de estrella de la estadística en Alemania y Europa), y ni siquiera menciona esa técnica; solo señala tener cuidado al interpretar los efectos principales de las variables cuando están involucradas en interacciones.

Después de todo, cuando realiza una regresión con un IV, un moderador (o segundo IV) y un DV, ¿recomendaría centrar o no?


55
Casi nunca uso el centrado, lo encuentro completamente innecesario y confuso.
Frank Harrell

3
Lea las respuestas nuevamente cuidadosamente. Sus conclusiones no cambian cuando centra las variables independientes, o aplica cualquier transformación lineal, si se dibujan correctamente. La multicolinealidad por no centrarse es un problema puramente numérico y se trata automáticamente con cualquier software decente.
Scortchi - Restablece a Monica

1
Este fenómeno (de cambio de valores p) puede entenderse como una consecuencia de la naturaleza cuadrática de las interacciones, como se explica en stats.stackexchange.com/questions/28730/… .
whuber

Respuestas:


23

En modelos sin términos de interacción (es decir, sin términos que se construyen como el producto de otros términos), el coeficiente de regresión de cada variable es la pendiente de la superficie de regresión en la dirección de esa variable. Es constante, independientemente de los valores de las variables, y por lo tanto se puede decir que mide el efecto general de esa variable.

En modelos con interacciones, esta interpretación se puede hacer sin calificación adicional solo para aquellas variables que no están involucradas en ninguna interacción. Para una variable que participa en las interacciones, el coeficiente de regresión del "efecto principal", es decir, el coeficiente de regresión de la variable en sí mismo, es la pendiente de la superficie de regresión en la dirección de esa variable cuando todas las demás variables que interactuar con esa variable tiene valores de cero , y la prueba de significación del coeficiente se refiere a la pendiente de la superficie de regresión solo en esa región del espacio predictor. Dado que no existe el requisito de que realmente haya datos en esa región del espacio, el coeficiente de efecto principal puede tener poca semejanza con la pendiente de la superficie de regresión en la región del espacio predictor donde los datos se observaron realmente.

En términos anova, el coeficiente de efecto principal es análogo a un efecto principal simple, no a un efecto principal general. Además, puede referirse a lo que en un diseño anova serían celdas vacías en las que los datos se suministraron extrapolando desde celdas con datos.

Para una medida del efecto general de la variable que es análoga a un efecto principal general en anova y no se extrapola más allá de la región en la que se observaron los datos, debemos observar la pendiente promedio de la superficie de regresión en la dirección de la variable , donde el promedio supera los N casos que se observaron realmente. Esta pendiente promedio se puede expresar como una suma ponderada de los coeficientes de regresión de todos los términos del modelo que involucran la variable en cuestión.

Los pesos son difíciles de describir pero fáciles de obtener. El coeficiente de efecto principal de una variable siempre obtiene una ponderación de 1. Para cada uno de los coeficientes de un término que involucra esa variable, la ponderación es la media del producto de las otras variables en ese término. Por ejemplo, si tenemos cinco variables "en bruto" x1, x2, x3, x4, x5, más cuatro interacciones bidireccionales (x1,x2), (x1,x3), (x2,x3), (x4,x5)y una interacción tridireccional (x1,x2,x3), entonces el modelo es

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

y los principales efectos generales son

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

donde M [.] denota la media muestral de la cantidad dentro de los corchetes. Todos los términos del producto dentro de los corchetes se encuentran entre los que se construyeron para hacer la regresión, por lo que un programa de regresión ya debería saber sobre ellos y debería poder imprimir sus medios a pedido.

En los modelos que solo tienen efectos principales e interacciones bidireccionales, hay una forma más simple de obtener los efectos generales: centrar [1] las variables en bruto en sus medios. Esto debe hacerse antes de calcular los términos del producto, y no debe hacerse con los productos. Entonces, todas las expresiones M [.] Se convertirán en 0, y los coeficientes de regresión serán interpretables como efectos generales. Los valores de los b cambiarán; los valores de las B no lo harán. Solo las variables que están involucradas en las interacciones deben centrarse, pero generalmente no hay daño en centrar otras variables medidas. El efecto general de centrar una variable es que, además de cambiar la intersección, solo cambia los coeficientes de otras variables que interactúan con la variable centrada. En particular, no cambia los coeficientes de ningún término que involucre la variable centrada. En el ejemplo anterior, centrar x1 cambiaría b0, b2, b3 y b23.

[1 - "Centrar" es utilizado por diferentes personas de maneras que difieren lo suficiente como para causar confusión. Como se usa aquí, "centrar una variable en #" significa restar # de todas las puntuaciones en la variable, convirtiendo las puntuaciones originales en desviaciones de #.]

Entonces, ¿por qué no siempre centrarse en los medios, rutinariamente? Tres razones Primero, los coeficientes de efecto principal de las variables no centradas pueden ser de interés. Centrarse en tales casos sería contraproducente, ya que cambia los coeficientes de efecto principal de otras variables.

En segundo lugar, el centrado hará que todas las expresiones M [.] Sean 0 y, por lo tanto, convierta los efectos simples en efectos generales, solo en modelos sin interacciones triples o superiores . Si el modelo contiene tales interacciones, entonces los cálculos b -> B aún deben realizarse, incluso si todas las variables están centradas en sus medias.

En tercer lugar, centrar en un valor como la media, que se define por la distribución de los predictores en lugar de ser elegido racionalmente, significa que todos los coeficientes que se ven afectados por el centrado serán específicos de su muestra particular. Si se centra en la media, entonces alguien que intente replicar su estudio debe centrarse en su media, no en su propia media, si desea obtener los mismos coeficientes que obtuvo. La solución a este problema es centrar cada variable en un valor central racionalmente elegido de esa variable que depende del significado de los puntajes y no depende de la distribución de los puntajes. Sin embargo, los cálculos b -> B siguen siendo necesarios.

La importancia de los efectos generales puede probarse mediante los procedimientos habituales para probar combinaciones lineales de coeficientes de regresión. Sin embargo, los resultados deben interpretarse con cuidado porque los efectos generales no son parámetros estructurales sino que dependen del diseño. Se puede esperar que los parámetros estructurales (los coeficientes de regresión (no centrados o con centrado racional) y la varianza del error) permanezcan invariables bajo los cambios en la distribución de los predictores, pero los efectos generales generalmente cambiarán. Los efectos generales son específicos de la muestra particular y no se debe esperar que se trasladen a otras muestras con diferentes distribuciones en los predictores. Si un efecto general es significativo en un estudio y no en otro, puede reflejar nada más que una diferencia en la distribución de los predictores.


10

Esto se debe a que en cualquier regresión que involucre más de un predictor, los s son coeficientes parciales; se interpretan como el cambio previsto en la variable dependiente para cada aumento de 1 unidad en un predictor, manteniendo constantes todos los demás predictores.β

β 1 x 1y=β1X1+β2X2+β3X1X2+ϵβ1X1β3X1X2X1X1X2β

ββ1yX1 X2=0 0X1yX2β1X2

βX1yX2yX1X2


-1

Me he vuelto loco con la misma pregunta, pero finalmente encontré la solución a tu problema y al mío. ES TODO SOBRE CÓMO CALCULA TUS VARIABLES CENTRADAS. Hay dos opciones disponibles:
1. MEDIA - VARIABLES INDIVIDUALES 2. VARIABLES INDIVIDUALES - MEDIA
Probablemente calculó sus variables centradas como (variable individual - valor medio) , por lo tanto, aquellos con valores bajos obtendrían puntajes negativos, y aquellos con valores altos obtendrían resultados positivos. puntuaciones.
Explicaré con un ejemplo para que sea más fácil de entender. Quiero ver cómo la fuerza muscular afecta la masa ósea y quiero tener en cuenta el género para ver si afecta de manera diferente en niñas y niños. La idea es que cuanto mayor es la fuerza muscular, mayor es la masa ósea. Por lo tanto tengo:

Variable dependiente: Masa ósea Variables independientes: Sexo, fuerza muscular, interacción_SEX_MUSCLEfuerza.

Como encontré la multicolinealidad (generalmente lo haces cuando tienes un término de interacción), centré la fuerza muscular (MEDIA - VARIABLE INDIVIDUAL) y creé el nuevo término de interacción con la nueva variable centrada. Mis coeficientes fueron

0.902
-0.010
-0.023
0.0002

0,902-(0 00,010)-(0,023metrotusdolmidominortetrmirevunaltumi)+(yonortetmirunadotyoonorte0,0002)

Si observa esto, podría pensar que el músculo está afectando negativamente a los huesos, pero debe pensar en sus variables centradas, no en sus variables originales. Digamos que la fuerza muscular media del grupo fue de 30 KG. Y desea estimar la masa ósea de un niño (WEAKBOY) que realizó 20 KGy otro que realizó 40KG(STRONGBOY). Los valores centrados de WEAKBOY serán (VALOR MEDIO DEL GRUPO - VALOR INDIVIDUAL; 30 - 20 = 10), y para STRONGBOY será -10. Aplicando estos valores a la ecuación:

WEAKBOY Masa ósea = 0.902 - 0 - (0.023 * 10) + .... = 0.672

STRONGBOY Masa ósea = 0.902 - (0.023 * (- 10)) + ... = 1.132

Como puede ver, STRONGBOY tendrá un hueso más fuerte. Si hubiera centrado sus variables al revés: (INDIVIDUAL - MEDIO), todos los coeficientes serán los mismos pero los símbolos serán diferentes. Esto se debe a que cuando aplica la variable centrada, WEAKBOY será (-10) y STRONGBOY será (+10). Por lo tanto, los resultados finales serán exactamente los mismos.

Todo tiene sentido una vez que lo entiendes.

Espero que el ejemplo sea lo suficientemente claro.


Este error no explicaría los cambios en los valores p. Por cierto, su opción (1) no está centrada, porque también incluye multiplicar los valores por una constante. (La constante es -1.)
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.