¿Importa la correlación entre variables en una interacción?

Supongamos que se ajusta a un modelo . ¿Existen implicaciones prácticas para la estimación del efecto de interacción si y están correlacionadas? $y = x_1 + x_2 + x_1\times x_2$ $x_1$ $x_2$

Entiendo que podría haber problemas de colinealidad si $x_1$ y $x_2$ están muy correlacionadas, pero eso no debería afectar el término de interacción, ¿verdad?

regression correlation interaction

— hlinee
fuente

Parece que está buscando información sobre la correlación entre

x_{1} x_{2}

$x_1x_2$ y

x_{1}

$x_1$ cuando

x_{1}

$x_1$ y

x_{2}

$x_2$ están correlacionadas. Una forma de tener una idea de lo que se puede deducir es notar que aunque agregar una constante (digamos

c

$c$ ) a cualquiera de los

x_{i}

$x_i$ no cambiará su correlación, cambiará

x_{1} x_{2}

$x_1x_2$ en una constante más

(x_{1} x_{2} + c x_{1} + c x_{2}) .

$(x_1 x_2 + cx_1 + cx_2).$ Esos dos últimos términos muestran que

c

$c$ tiene un profundo efecto en la correlación entre

x_{1} x_{2}

$x_1x_2$ y

x_{i} .

$x_i.$ Si esto no sugiere inmediatamente una respuesta a cualquiera que sea su pregunta, considere dibujar algunos diagramas de dispersión.

— whuber

@whuber Tengo problemas para seguir tu lógica. ¿Hay alguna explicación más explícita paso a paso a la que puedas vincular? Traté de escribirlo con la fórmula de correlación, pero no

— pude

@whuber Además, con respecto a mi pregunta original, creo que algún contexto podría ayudar, ya que estoy de acuerdo en que es bastante vago. Lo que sucedió fue que presenté mis resultados buscando un efecto de interacción a un estadístico con el que trabajé y lo primero que me preguntó fue si los dos predictores en mi interacción estaban correlacionados. No había examinado la correlación y le pregunté por qué importaba. No pudo explicar por qué, pero dijo que sí importaba, de ahí mi pregunta.

— hlinee

Hay una razón por la cual su consultor estadístico no podría explicar por qué la introducción de una interacción en un modelo lineal podría afectar negativamente la estructura de correlación: depende de las circunstancias y no es generalmente cierto que exista un efecto adverso. Simplemente mire los conjuntos de datos que se muestran en las matrices de diagrama de dispersión a continuación para ver todas las diferentes formas en que dos variables podrían estar relacionadas con sus productos.

El resto de esta publicación explica cómo se produjeron esas cifras y podría proporcionar más información sobre la situación.

Primero, obvio: escribiendo tiene una regresión múltiple que involucra las tres variables Si hay o no problemas de colinealidad depende de las relaciones lineales entre Eso es universal. $x_3=x_1x_2,$ $x_1, x_2, x_3.$ $x_i.$

Lo especial de este problema es la relación entre y el otroa saber, que Por lo tanto, si alguien le ha aconsejado que tenga cuidado, debe deberse a la expectativa de que esta relación multiplicativa matemáticamente conlleva algún tipo de multicolinealidad entre todos los $x_3$ $x_i;$ $x_3 = x_1x_2.$ $x_i.$

Esto simplemente no es así, como se puede demostrar exhibiendo todos los patrones posibles. No quiero agotarte con la pedantería de pasar por todas las posibilidades, así que déjame esbozar algunas de las más ilustrativas. La herramienta básica que utilizaré en este estudio es la observación de que la correlación entre cualquier variable permanece sin cambios cuando el sufre transformaciones lineales por separado. $x_1, x_2$ $x_i$ Es decir, podemos multiplicar libremente cualquiera de las variables por constantes y agregar otras constantes a los resultados sin cambiar la correlación. Sin embargo, estas operaciones pueden alterar profundamente las correlaciones entre y $x_1x_2$ $x_i.$

Producto (casi) constante

Es posible que sea constante (lo que, cuando una regresión incluye una constante, será problemático). Para crear un ejemplo, simplemente genere valores distintos de cero para y defina Su producto es igual a por construcción. $x_1x_2$ $x_1$ $x_2 = c/x_1.$ $c$

Puede perturbar este ejemplo cambiando en una variable aleatoria con valores cercanos a Hacer esto introducirá una pequeña correlación entre y su producto, pero no mucho. Aquí, por ejemplo, hay un ejemplo en el que se extrae de una distribución Gamma y tiene una distribución Normal con media y desviación estándar de solo $c\ne 0$ $c.$ $x_i$ $x_1$ $(5)$ $c$ $1$ $1/100:$

Aunque tiene una correlación de en este ejemplo, sus correlaciones con son solo y $x_i$ $\rho_{1\cdot 2}=-0.87$ $x_1x_2$ $-0.06$ $0.00.$

Por lo tanto, aunque puede haber un pequeño problema al usar y en un modelo lineal, incluir es poco probable que lo exacerbe. $x_1$ $x_2$ $x_1x_2$

Producto no constante

Para aclarar los cálculos, también podríamos asumir que tiene una varianza unitaria. Deje que la varianza de sea y escriba para las correlaciones entre y Calculemos qué sucede con estas correlaciones cuando las constantes se restan deDebido a que desempeña roles perfectamente simétricos (simplemente cambie " " por " " en los índices), es suficiente calcular la correlación con $x_i$ $x_1x_2$ $\tau^2$ $\rho_{12\cdot i}$ $x_1x_2$ $x_i.$ $c_i$ $x_i.$ $x_i$ $1$ $2$ $x_1:$

\begin{matrix} (*) & \begin{aligned} Cor ((X_{1} - C_{1}) (X_{2} - C_{2}), X_{1}) & = \frac{Cov ((X_{1} - C_{1}) (X_{2} - C_{2}), X_{1})}{\sqrt{Var (X_{1} - C_{1}) (X_{2} - C_{2}) Var X_{1}}} \\ = \frac{Cov (X_{1} X_{2} - C_{2} X_{1} - C_{1} X_{2} + C_{1} C_{2}, X_{1})}{\sqrt{Var (X_{1} X_{2} - C_{1} X_{2} - C_{2} X_{1} + C_{1} C_{2})}} \\ = \frac{τ ρ_{12 \cdot 1} - C_{2} - C_{1} ρ_{1 \cdot 2}}{\sqrt{τ^{2} - C_{1} ρ_{1 \cdot 2} - C_{2} - 2 C_{1} ρ_{12 \cdot 2} - 2 C_{2} ρ_{12 \cdot 1} + 2 C_{1} C_{2} ρ_{1 \cdot 2}}} . \end{aligned} \end{matrix}

$\eqalign{ \operatorname{Cor}((x_1-c_1)(x_2-c_2), x_1) &= \frac{\operatorname{Cov} ((x_1-c_1)(x_2-c_2), x_1)}{\sqrt{\operatorname{Var}{(x_1-c_1)(x_2-c_2)}\operatorname{Var}{x_1}}} \\ &= \frac{\operatorname{Cov} (x_1x_2 - c_2x_1 - c_1x_2+c_1c_2, x_1)}{\sqrt{\operatorname{Var}(x_1x_2 - c_1x_2 - c_2x_1 + c_1c_2)}} \\ &= \frac{\tau\rho_{12\cdot 1}-c_2-c_1\rho_{1\cdot 2}}{\sqrt{\tau^2 - c_1\rho_{1\cdot 2} - c_2 - 2c_1\rho_{12\cdot 2} - 2c_2\rho_{12\cdot 1} + 2c_1c_2\rho_{1\cdot 2}}}.\tag{*} }$

Cero correlaciones con el producto.

Independientemente de cuál sea la correlación entre , podemos elegir para que el producto no esté correlacionado con $x_i$ $(c_1,c_2)$ $x_i.$

Del análisis anterior, esto se logrará cuando el numerador de sea cero para $(*)$ $i=1,2:$

{\begin{matrix} 0 0 = τ ρ_{12 \cdot 1} - C_{2} - C_{1} ρ_{1 \cdot 2} \\ 0 0 = τ ρ_{12 \cdot 2} - C_{1} - C_{2} ρ_{1 \cdot 2} \end{matrix}

$\left\{\matrix{0 = \tau\rho_{12\cdot 1} -c_2 - c_1\rho_{1\cdot 2} \\ 0 = \tau\rho_{12\cdot 2} -c_1 - c_2\rho_{1\cdot 2}}\right.$

Cuando este sistema de ecuaciones en tiene una solución única. Aquí, por ejemplo, hay una matriz de diagrama de dispersión de un conjunto de datos de valores en el que tiene una distribución Normal bivariada con correlación pero la tiene correlación cero con : $\rho_{1\cdot 2}^2 \ne 1,$ $(c_1,c_2)$ $100$ $(x_i)$ $\rho_{1\cdot 2}=-0.99$ $x_i$ $x_1x_2$

Debido a que no está correlacionado con ("ortogonal a") tanto introducirlo en cualquier modelo lineal no creará ningún problema. $x_1x_2$ $x_i,$

Como sugiere este ejemplo, esta situación es la norma porque tiende a ocurrir cuando se ha centrado. En otras palabras, si centra sus variables antes de crear una interacción, generalmente no tendrá problemas con la colinealidad adicional. $x_i$

Fuertes correlaciones con el producto.

Las ecuaciones también se pueden resolver para producir correlaciones fuertes. Ni siquiera necesitamos ir tan lejos como para resolver las ecuaciones exactamente (lo cual es un desafío), porque hay un atajo simple: al cambiar el de una de las para que sea casi cero y agregarle una constante, no cambiaremos su correlación, pero entonces el producto será casi igual a un múltiplo del otro de lo que los hace fuertemente correlacionados. $(*)$ $x_i$ $x_i,$

Aquí hay un ejemplo basado en el anterior. En este ejemplo, se cambió a para que sea aproximadamente igual a lo que lo correlaciona positivamente con De hecho, y en este ejemplo. $x_2$ $1 + x_2 / 100$ $x_1x_2$ $x_1,$ $x_1x_2.$ $\rho_{12\cdot 1} = 0.999878$ $\rho_{12\cdot 2} = -0.9898793$

— whuber
fuente

¡Perfecto! Gracias por la explicación detallada :)

— hlinee