Término de interacción utilizando variables centradas análisis de regresión jerárquica? ¿Qué variables debemos centrar?

Estoy ejecutando un análisis de regresión jerárquica y tengo algunas dudas:

¿Calculamos el término de interacción usando las variables centradas?
¿Tenemos que centrar TODAS las variables continuas que tenemos en el conjunto de datos, excepto la variable dependiente?
Cuando tenemos que registrar algunas variables (porque su sd es mucho más alta que su media), ¿entonces centramos la variable que se acaba de registrar o la inicial?

Por ejemplo: Variable "Volumen de negocios" ---> Volumen de negocios registrado (porque el SD es demasiado alto en comparación con la media) ---> ¿Centrado_Volumen de negocio?

O sería directamente Volumen de negocios -> Centrado_Turnover (y trabajamos con este)

¡¡GRACIAS!!

interaction multicollinearity centering

— Estudiante de doctorado
fuente

Debe centrar los términos involucrados en la interacción para reducir la colinealidad, por ejemplo

set.seed(10204)
x1 <- rnorm(1000, 10, 1)
x2 <- rnorm(1000, 10, 1)
y <- x1 + rnorm(1000, 5, 5)  + x2*rnorm(1000) + x1*x2*rnorm(1000) 

x1cent <- x1 - mean(x1)
x2cent <- x2 - mean(x2)
x1x2cent <- x1cent*x2cent

m1 <- lm(y ~ x1 + x2 + x1*x2)
m2 <- lm(y ~ x1cent + x2cent + x1cent*x2cent)

summary(m1)
summary(m2)

Salida:

> summary(m1)

Call:
lm(formula = y ~ x1 + x2 + x1 * x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  193.333    335.281   0.577    0.564
x1           -15.830     33.719  -0.469    0.639
x2           -14.065     33.567  -0.419    0.675
x1:x2          1.179      3.375   0.349    0.727

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015

> summary(m2)

Call:
lm(formula = y ~ x1cent + x2cent + x1cent * x2cent)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     12.513      3.203   3.907 9.99e-05 ***
x1cent          -4.106      3.186  -1.289    0.198    
x2cent          -2.291      3.198  -0.716    0.474    
x1cent:x2cent    1.179      3.375   0.349    0.727    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015


library(perturb)
colldiag(m1)
colldiag(m2)

Si usted centra otras variables depende de usted; centrar (en lugar de estandarizar) una variable que no está involucrada en una interacción cambiará el significado de la intercepción, pero no otras cosas, por ejemplo

x1 <- rnorm(1000, 10, 1)
x2 <- x1 - mean(x1)
y <- x1 + rnorm(1000, 5, 5) 
m1 <- lm(y ~ x1)
m2 <- lm(y ~ x2)

summary(m1)
summary(m2)

Salida:

> summary(m1)

Call:
lm(formula = y ~ x1)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5412     1.6003   4.087 4.71e-05 ***
x1            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

> summary(m2)

Call:
lm(formula = y ~ x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  15.0965     0.1607  93.931  < 2e-16 ***
x2            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

Pero debe tomar registros de variables porque tiene sentido hacerlo o porque los residuos del modelo indican que debería hacerlo, no porque tengan mucha variabilidad. La regresión no hace suposiciones sobre la distribución de las variables, hace suposiciones sobre la distribución de los residuos.

— Peter Flom - Restablece a Monica
fuente

Gracias por tu respuesta, Peter! Entonces, supongo que primero tendría que registrar las variables (¿todos los predictores?) Y, después de eso, centraría solo las variables independientes requeridas para calcular los términos de interacción. Una pregunta más: ¿Recomendaría centrar o estandarizar las variables? De nuevo, muchas gracias !!

— PhDstudent

Sí, inicie sesión antes de centrar. La estandarización y el centrado hacen cosas diferentes; Tampoco está mal. A algunos les gusta la estandarización, generalmente prefiero las variables "en bruto".

— Peter Flom - Restablece a Monica

No veo cómo definir el modelo generador como y <- x1 + rnorm(1000, 5, 5) + x2*rnorm(1000) + x1*x2*rnorm(1000)ayuda a ilustrar la respuesta. La media de esto es y la varianza es , por lo que no hay término de interacción en el modelo generador.

x_{1} + 5

$x_1 +5$

1 + 25 + 1 + 1

$1 + 25 + 1 + 1$

— Rufo