Hay una razón por la cual su consultor estadístico no podría explicar por qué la introducción de una interacción en un modelo lineal podría afectar negativamente la estructura de correlación: depende de las circunstancias y no es generalmente cierto que exista un efecto adverso. Simplemente mire los conjuntos de datos que se muestran en las matrices de diagrama de dispersión a continuación para ver todas las diferentes formas en que dos variables podrían estar relacionadas con sus productos.
El resto de esta publicación explica cómo se produjeron esas cifras y podría proporcionar más información sobre la situación.
Primero, obvio: escribiendo tiene una regresión múltiple que involucra las tres variables Si hay o no problemas de colinealidad depende de las relaciones lineales entre Eso es universal.X3=X1X2,X1,X2,X3.Xyo.
Lo especial de este problema es la relación entre y el otroa saber, que Por lo tanto, si alguien le ha aconsejado que tenga cuidado, debe deberse a la expectativa de que esta relación multiplicativa matemáticamente conlleva algún tipo de multicolinealidad entre todos losX3Xyo;X3=X1X2.Xyo.
Esto simplemente no es así, como se puede demostrar exhibiendo todos los patrones posibles. No quiero agotarte con la pedantería de pasar por todas las posibilidades, así que déjame esbozar algunas de las más ilustrativas. La herramienta básica que utilizaré en este estudio es la observación de que la correlación entre cualquier variable permanece sin cambios cuando el sufre transformaciones lineales por separado. X1,X2Xyo Es decir, podemos multiplicar libremente cualquiera de las variables por constantes y agregar otras constantes a los resultados sin cambiar la correlación. Sin embargo, estas operaciones pueden alterar profundamente las correlaciones entre yX1X2Xyo.
Producto (casi) constante
Es posible que sea constante (lo que, cuando una regresión incluye una constante, será problemático). Para crear un ejemplo, simplemente genere valores distintos de cero para y defina Su producto es igual a por construcción.X1X2X1X2= c /X1.C
Puede perturbar este ejemplo cambiando en una variable aleatoria con valores cercanos a Hacer esto introducirá una pequeña correlación entre y su producto, pero no mucho. Aquí, por ejemplo, hay un ejemplo en el que se extrae de una distribución Gamma y tiene una distribución Normal con media y desviación estándar de soloc ≠ 0c .XyoX1( 5 )C11 / 100 :
Aunque tiene una correlación de en este ejemplo, sus correlaciones con son solo yXyoρ1 ⋅ 2= - 0.87X1X2- 0.060.00.
Por lo tanto, aunque puede haber un pequeño problema al usar y en un modelo lineal, incluir es poco probable que lo exacerbe.X1X2X1X2
Producto no constante
Para aclarar los cálculos, también podríamos asumir que tiene una varianza unitaria. Deje que la varianza de sea y escriba para las correlaciones entre y Calculemos qué sucede con estas correlaciones cuando las constantes se restan deDebido a que desempeña roles perfectamente simétricos (simplemente cambie " " por " " en los índices), es suficiente calcular la correlación conXyoX1X2τ2ρ12 ⋅ iX1X2Xyo.CyoXyo.Xyo12X1:
Cor( (X1-C1) (X2-C2) ,X1)=Cov( (X1-C1) (X2-C2) ,X1)Var(X1-C1) (X2-C2) VarX1-----------------------√=Cov(X1X2-C2X1-C1X2+C1C2,X1)Var(X1X2-C1X2-C2X1+C1C2)-------------------------√=τρ12 ⋅ 1-C2-C1ρ1 ⋅ 2τ2-C1ρ1 ⋅ 2-C2- 2C1ρ12 ⋅ 2- 2C2ρ12 ⋅ 1+ 2C1C2ρ1 ⋅ 2-------------------------------------√.(*)
Cero correlaciones con el producto.
Independientemente de cuál sea la correlación entre , podemos elegir para que el producto no esté correlacionado conXyo(C1,C2)Xyo.
Del análisis anterior, esto se logrará cuando el numerador de sea cero para( ∗ )i = 1 , 2 :
{0 = τρ12 ⋅ 1-C2-C1ρ1 ⋅ 20 = τρ12 ⋅ 2-C1-C2ρ1 ⋅ 2
Cuando este sistema de ecuaciones en tiene una solución única. Aquí, por ejemplo, hay una matriz de diagrama de dispersión de un conjunto de datos de valores en el que tiene una distribución Normal bivariada con correlación pero la tiene correlación cero con :ρ21 ⋅ 2≠ 1 ,(C1,C2)100(Xyo)ρ1 ⋅ 2= - 0.99XyoX1X2
Debido a que no está correlacionado con ("ortogonal a") tanto introducirlo en cualquier modelo lineal no creará ningún problema.X1X2Xyo,
Como sugiere este ejemplo, esta situación es la norma porque tiende a ocurrir cuando se ha centrado. En otras palabras, si centra sus variables antes de crear una interacción, generalmente no tendrá problemas con la colinealidad adicional.Xyo
Fuertes correlaciones con el producto.
Las ecuaciones también se pueden resolver para producir correlaciones fuertes. Ni siquiera necesitamos ir tan lejos como para resolver las ecuaciones exactamente (lo cual es un desafío), porque hay un atajo simple: al cambiar el de una de las para que sea casi cero y agregarle una constante, no cambiaremos su correlación, pero entonces el producto será casi igual a un múltiplo del otro de lo que los hace fuertemente correlacionados.( ∗ )XyoXyo,
Aquí hay un ejemplo basado en el anterior. En este ejemplo, se cambió a para que sea aproximadamente igual a lo que lo correlaciona positivamente con De hecho, y en este ejemplo.X21 +X2/ 100X1X2X1,X1X2.ρ12 ⋅ 1= 0.999878ρ12 ⋅ 2= - 0.9898793