Regresión moderada: ¿Por qué calculamos un término * producto * entre los predictores?

12

Los análisis de regresión moderada a menudo se usan en ciencias sociales para evaluar la interacción entre dos o más predictores / covariables.

Normalmente, con dos variables predictoras, se aplica el siguiente modelo:

$Y = β_0 + β_1*X + β_2*M + β_3*XM + e$

Observe que la prueba de moderación es operacionalizada por el término del producto $XM$ (la multiplicación entre la variable independiente $X$ y la variable moderadora $M$ ). Mi pregunta fundamental es: ¿por qué calculamos realmente un término de producto entre $X$ y $M$ ? ¿Por qué no, por ejemplo, la diferencia absoluta $|M-X|$ o solo la suma $X + M$ ?

Curiosamente, Kenny alude a este problema aquí http://davidakenny.net/cm/moderation.htm diciendo: "Como se verá, la prueba de moderación no siempre está operativa por el término del producto XM", pero no se da más explicación . Una ilustración o prueba formal sería esclarecedora, supongo / espero.

regression interaction

— denominador
fuente

12

Un "moderador" afecta los coeficientes de regresión de $Y$ contra $X$ : pueden cambiar a medida que cambian los valores del moderador. Por lo tanto, en general, el modelo de regresión simple de moderación es

E (Y) = α (M) + β (M) X

$\mathbb{E}(Y) = \alpha(M) + \beta(M)X$

donde y son funciones del moderador en lugar de constantes no afectados por valores de . $\alpha$ $\beta$ $M$ $M$

En el mismo espíritu en el que la regresión se basa en una aproximación lineal de la relación entre e , podemos esperar que tanto como sean, al menos aproximadamente, funciones lineales de todo el rango de valores de en los datos: $X$ $Y$ $\alpha$ $\beta$ $M$ $M$

\begin{aligned} E (Y) & = α_{0} + α_{1} M + O (M^{2}) + (β_{0} + β_{1} M + O (M^{2})) X \\ = α_{0} + β_{0} X + α_{1} M + β_{1} M X + O (M^{2}) + O (M^{2}) X . \end{aligned}

$\eqalign{ \mathbb{E}(Y) &= \alpha_0 + \alpha_1 M + O(M^2) + (\beta_0 + \beta_1 M + O(M^2))X \\ &= \alpha_0 + \beta_0 X + \alpha_1 M + \beta_1 MX + O(M^2) + O(M^2)X. }$

Descartar los términos no lineales ("big-O"), con la esperanza de que sean demasiado pequeños para importar, da el modelo de interacción multiplicativa (bilineal)

\begin{matrix} (1) & E (Y) = α_{0} + β_{0} X + α_{1} M + β_{1} M X . \end{matrix}

$\mathbb{E}(Y) = \alpha_0 + \beta_0 X + \alpha_1 M + \beta_1 MX.\tag{1}$

Esta derivación sugiere una interpretación interesante de los coeficientes: es la velocidad a la que cambia la intersección, mientras que es la velocidad a la que cambia la pendiente . ( y son la pendiente y la intersección cuando se establece (formalmente) en cero). es el coeficiente del "término del producto" . Responde la pregunta de esta manera: $\alpha_1$ $M$ $\beta_1$ $M$ $\alpha_0$ $\beta_0$ $M$ $\beta_1$ $MX$

Modelamos la moderación con un término producto cuando se espera que el moderador será (aproximadamente, en promedio) tienen una relación lineal con la pendiente de vs . $MX$ $M$ $Y$ $X$

De interés es que esta derivación señala el camino hacia una extensión natural del modelo, lo que podría sugerir formas de verificar la bondad del ajuste. Si no le preocupa la no linealidad en ya sea que sepa o asuma que el modelo es exacto, entonces querrá extender el modelo para acomodar los términos que se eliminaron: $X$ $(1)$

E (Y) = α_{0} + β_{0} X + α_{1} M + β_{1} M X + α_{2} M^{2} + β_{2} M^{2} X .

$\mathbb{E}(Y) = \alpha_0 + \beta_0 X + \alpha_1 M + \beta_1 MX + \alpha_2M^2 + \beta_2 M^2X.$

Probar la hipótesis evalúa la bondad del ajuste. Estimar y podría indicar de qué manera podría ser necesario extender el modelo : para incorporar la no linealidad en (cuando ) o una relación de moderación más complicada (cuando ) o posiblemente ambos. (Tenga en cuenta que esta prueba no sería sugerida por una expansión en serie de potencia de una función genérica . $\alpha_2=\beta_2=0$ $\alpha_2$ $\beta_2$ $(1)$ $M$ $\alpha_2 \ne 0$ $\beta_2 \ne 0$ $f(X,M)$

Finalmente, si descubriera que el coeficiente de interacción no era significativamente diferente de cero, pero que el ajuste no es lineal (como lo demuestra un valor significativo de ), concluiría que (a) existe moderación pero ( b) no está modelado por un término , sino por algunos términos de orden superior que comienzan con . Este podría ser el tipo de fenómeno al que se refería Kenny. $\beta_1$ $\beta_2$ $MX$ $M^2X$

— whuber
fuente

8

Si usa la suma de predictores para modelar su interacción, su ecuación sería:

\begin{array}{rcl} Y & = & β_{0} + β_{1} X + β_{2} M + β_{3} (X + M) + e \\ = & β_{0} + β_{1} X + β_{2} M + β_{3} X + β_{3} M + e \\ = & β_{0} + (β_{1} + β_{3}) X + (β_{2} + β_{3}) M + e \\ = & β_{0} + β_{1}^{'} X + β_{2}^{'} M + e \end{array}

$\begin{eqnarray} Y &=& \beta_0 + \beta_1X + \beta_2M + \beta_3(X + M) + e\\ &=& \beta_0 + \beta_1X + \beta_2M + \beta_3X + \beta_3M + e\\ &=& \beta_0 + (\beta_1 + \beta_3)X + (\beta_2 + \beta_3)M + e \\ &=& \beta_0 + \beta_1'X + \beta_2'M + e \end{eqnarray}$

where y . Por lo tanto, su modelo no tendría interacción alguna. Claramente, este no es el caso con el producto. $\beta_1'=\beta_1+\beta_3$ $\beta_2'=\beta_2+\beta_3$

Recordemos la definición del valor absoluto:

| X - M | = {\begin{cases} X - M, & X \geq M \\ M - X, & X < M \end{cases}

$|X-M| = \begin{cases} X-M, & X \geq M\\ M-X, & X < M \end{cases}$

Aunque puede reducir el modelo al que solo tiene términos y , usando def. de, el valor absoluto es una "forma especializada de moderación que es poco probable que sea realista en muchas situaciones", como se señala en el comentario a continuación. $\beta_0 + \beta_1X + \beta_2M + \beta_3|X-M| + e$ $X$ $M$ $|X-M|$

— Milos
fuente

1

En realidad, incluyendo unEl término es demostrablemente una forma de moderación: el valor de cambia . Sin embargo, es una forma limitada y especializada de moderación que es poco probable que sea realista en muchas situaciones. No es correcto decir que ese modelo tiene "solo efectos principales".

| X - M |

$|X-M|$

M

$M$

β_{2}

$\beta_2$

— whuber

1

Sí, tienes razón,es una forma de moderación, me dejé llevar por la transformación y editaré la respuesta en consecuencia. Gracias por señalar esto.

| X - M |

$|X-M|$

— Milos

@Milos: Su ejemplo sobre la suma de predictores fue revelador, algo vergonzoso, debo decir porque ya debería haberme dado cuenta de las implicaciones matemáticas;) whuber: Hasta donde lo entiendo, el valor absoluto solo es útil cuando ambas variables predictoras se miden en las mismas unidades (por ejemplo, dos pruebas psicométricas, utilizando la misma métrica, como las puntuaciones z o las puntuaciones T). La diferencia absoluta entre X y M es una métrica útil , aunque no es la única posible (es decir, el término prodcut también podría usarse).

— denominador

6

No encontrará una prueba formal para usar el moderador multiplicativo. Puede apoyar este enfoque por otros medios. Por ejemplo, observe la expansión Taylor-MacLaurin de una función : $f(X,M)$

f (X, M) = f (0, 0) + \frac{\partial f (0, 0)}{\partial T} T + \frac{\partial f (0, 0)}{\partial M} M + \frac{\partial^{2} f (0, 0)}{\partial T \partial M} T M + \frac{\partial^{2} f (0, 0)}{2 \partial T^{2}} T^{2} + \frac{\partial^{2} f (0, 0)}{2 \partial M^{2}} M^{2} \dots

$f(X,M)=f(0,0)+\frac{\partial f(0,0)}{\partial T} T+\frac{\partial f(0,0)}{\partial M} M+\frac{\partial^2 f(0,0)}{\partial T\partial M} TM +\frac{\partial^2 f(0,0)}{2\partial T^2} T^2 +\frac{\partial^2 f(0,0)}{2\partial M^2} M^2\dots$

Si conecta una función de esta forma en la ecuación de Taylor, obtendrá esto: $f(X,M)=\beta_0+\beta_XX+\beta_MM+\beta_{XM}XM$

f (X, M) = β_{0} + β_{X} X + β_{M} M + β_{X M} X M

$f(X,M)=\beta_0+\beta_XX +\beta_MM +\beta_{XM}XM$

Entonces, la razón aquí es que esta forma multiplicativa particular de la moderación es básicamente una aproximación de Taylor de segundo orden de una relación de moderación genérica $f(X,M)$

ACTUALIZACIÓN: si incluye términos cuadráticos, como @whuber sugirió, esto sucederá: conecte esto a Taylor:

g (X, M) = b_{0} + b_{X} X + b_{M} M + b_{X M} X M + b_{X 2} X^{2} + b_{M 2} M^{2}

$g(X,M)=b_0+b_XX +b_MM +b_{XM}XM+b_{X2}X^2 +b_{M2}M^2$

g (X, M) = b_{0} + b_{X} X + b_{M} M + b_{X M} X M + b_{X 2} X^{2} + b_{M 2} M^{2}

$g(X,M)=b_0+b_XX +b_MM +b_{XM}XM +b_{X2}X^2 +b_{M2}M^2$

Esto muestra que nuestro nuevo modelo con términos cuadráticos corresponde a una aproximación completa de Taylor de segundo orden, a diferencia del modelo de moderación original . $g(X,M)$ $f(X,M)$

— Aksakal
fuente

Dado que la base de su argumento es la expansión de Taylor, ¿por qué no incluyó también los otros dos términos cuadráticos y ? Es cierto que no son formas de moderación, pero su inclusión en el modelo generalmente afectará a .

X^{2}

$X^2$

M^{2}

$M^2$ $\beta_{XM}$

— whuber

@whuber, decidí mantener la publicación corta, esa es la razón principal. De lo contrario, comencé a escribir sobre mi preferencia de incluir términos de segundo orden cada vez que tenga un término cruzado, luego lo eliminé.

— Aksakal