Efecto de supresión en regresión: definición y explicación / representación visual

¿Qué es una variable supresora en regresión múltiple y cuáles podrían ser las formas de mostrar visualmente el efecto de supresión (su mecánica o su evidencia en los resultados)? Me gustaría invitar a todos los que tengan un pensamiento, para compartir.

— ttnphns
fuente

Ver Friedman, L. y Wall, M. (2005). Vistas gráficas de supresión y multicolinealidad en regresión lineal múltiple. El estadístico estadounidense , 59 (2), 127-136.

— Ray Koopman el

Ah, eso es lindo e interesante. Muchas gracias. ¿Desea agregar una respuesta basada en eso? Sería útil para muchos.

— ttnphns

Respuestas:

Existen varios efectos de regresión mencionados con frecuencia que conceptualmente son diferentes pero que tienen mucho en común cuando se ven de manera puramente estadística (ver, por ejemplo, este documento "Equivalencia del efecto de mediación, confusión y supresión" por David MacKinnon et al., O artículos de Wikipedia):

Mediador: IV que transmite el efecto (totalmente o en parte) de otro IV al DV.
Confusor: IV que constituye o excluye, total o parcialmente, el efecto de otro IV al DV.
Moderador: IV que, variando, maneja la fuerza del efecto de otro IV en el DV. Estadísticamente, se conoce como interacción entre los dos IV.
Supresor: IV (un mediador o moderador conceptual) cuya inclusión refuerza el efecto de otro IV en el DV.

No voy a discutir en qué medida algunos o todos ellos son técnicamente similares (para eso, lea el documento vinculado anteriormente). Mi objetivo es tratar de mostrar gráficamente qué es un supresor . La definición anterior de que "el supresor es una variable cuya inclusión fortalece el efecto de otro IV en el DV" me parece potencialmente amplia porque no dice nada sobre los mecanismos de tal mejora. A continuación, estoy discutiendo un mecanismo, el único que considero que es la supresión. Si también hay otros mecanismos (como en este momento, no he tratado de meditar en ninguno de esos otros), entonces la definición "amplia" anterior debería considerarse imprecisa o mi definición de supresión debería considerarse demasiado limitada.

Definición (en mi entendimiento)

El supresor es la variable independiente que, cuando se agrega al modelo, eleva el cuadrado R observado principalmente debido a su contabilidad de los residuos que deja el modelo sin él, y no debido a su propia asociación con el DV (que es relativamente débil). Sabemos que el aumento de R-cuadrado en respuesta a la adición de un IV es la correlación de la parte cuadrada de ese IV en ese nuevo modelo. De esta manera, si la correlación parcial del IV con el DV es mayor (en valor absoluto) que el orden cero entre ellos, ese IV es un supresor. $r$

Por lo tanto, un supresor en su mayoría "suprime" el error del modelo reducido, siendo débil como un predictor en sí mismo. El término de error es el complemento de la predicción. La predicción se "proyecta" o "comparte" entre los IV (coeficientes de regresión), y también lo es el término de error ("complementa" a los coeficientes). El supresor suprime dichos componentes de error de manera desigual: mayor para algunos IV, menor para otros IV. Para aquellos IV "cuyos" componentes de este tipo suprime en gran medida, presta una considerable ayuda facilitadora al aumentar realmente sus coeficientes de regresión .

No se producen efectos supresores fuertes a menudo y violentamente (un ejemplo en este sitio). La supresión fuerte generalmente se introduce conscientemente. Un investigador busca una característica que debe correlacionarse con el DV lo más débil posible y al mismo tiempo correlacionar con algo en el IV de interés que se considera irrelevante, sin predicción, con respecto al DV. Él lo ingresa al modelo y obtiene un aumento considerable en el poder predictivo de ese IV. El coeficiente del supresor generalmente no se interpreta.

Podría resumir mi definición de la siguiente manera [arriba en la respuesta de @ Jake y los comentarios de @ gung]:

Definición formal (estadística): el supresor es IV con correlación parcial mayor que la correlación de orden cero (con el dependiente).
Definición conceptual (práctica): la definición formal anterior + la correlación de orden cero es pequeña, por lo que el supresor no es un predictor de sonido en sí mismo.

"Supresor" es un papel de un IV en un modelo específico solamente, no la característica de la variable separada. Cuando se agregan o eliminan otras vías intravenosas, el supresor puede detener repentinamente la supresión o reanudar la supresión o cambiar el foco de su actividad supresora.

Situación de regresión normal

La primera imagen a continuación muestra una regresión típica con dos predictores (hablaremos de regresión lineal). La imagen se copia desde aquí, donde se explica con más detalles. En resumen, los predictores moderadamente correlacionados (= que tienen un ángulo agudo entre ellos) y abarcan el espacio 2-dimensional "plano X". La variable dependiente se proyecta ortogonalmente, dejando la variable predicha y los residuales con st. desviación igual a la longitud de . El cuadrado R de la regresión es el ángulo entre e $X_1$ $X_2$ $Y$ $Y'$ $e$ $Y$ $Y'$ , y los dos coeficientes de regresión están directamente relacionados con las coordenadas oblicuas y , respectivamente. Esta situación la he llamado normal o típica porque y correlacionan con (existe un ángulo oblicuo entre cada uno de los independientes y los dependientes) y los predictores compiten por la predicción porque están correlacionados. $b_1$ $b_2$ $X_1$ $X_2$ $Y$

ingrese la descripción de la imagen aquí

Situación de supresión

Se muestra en la siguiente imagen. Este es como el anterior; sin embargo, el vector ahora se aleja un poco del espectador y cambió su dirección considerablemente. actúa como un supresor. Tenga en cuenta en primer lugar que difícilmente se correlaciona con . Por lo tanto, no puede ser un predictor valioso en sí mismo. Segundo. Imagine que está ausente y usted predice solo por $Y$ $X_2$ $X_2$ $Y$ $X_2$ $X_1$ ; la predicción de esta regresión de una variable se representa como vector rojo, el error como vector, y el coeficiente está dada por $Y^*$ $e^*$ $b^*$ coordenada (que es el punto final de ). $Y^*$

ingrese la descripción de la imagen aquí

Ahora regrese al modelo completo y observe que está bastante correlacionado con . Por lo tanto, cuando se introduce en el modelo, puede explicar una parte considerable de ese error del modelo reducido, reduciendo a . Esta constelación: (1) no es rival de como predictor ; y (2) es un basurero para recoger la imprevisibilidad que dejó , - hace que un supresor $X_2$ $e^*$ $X_2$ $e^*$ $e$ $X_2$ $X_1$ $X_2$ $X_1$ $X_2$ . Como resultado de su efecto, la fuerza predictiva de ha crecido hasta cierto punto: es mayor que . $X_1$ $b_1$ $b^*$

Bueno, ¿por qué llama supresor de y cómo puede reforzarlo al "suprimirlo"? Mira la siguiente foto. $X_2$ $X_1$

ingrese la descripción de la imagen aquí

Es exactamente lo mismo que el anterior. Piense nuevamente en el modelo con el único predictor . Por supuesto, este predictor podría descomponerse en dos partes o componentes (mostrados en gris): la parte que es "responsable" de la predicción de (y, por lo tanto, coincide con ese vector) y la parte que es "responsable" de la imprevisibilidad (y así paralelo a $X_1$ $Y$ ). Esestasegunda parte de $e^*$ $X_1$ , la parte irrelevante para , es suprimida por cuando ese supresor se agrega al modelo. La parte irrelevante se suprime y, por tanto, dado que el supresor no en sí predecir $Y$ $X_2$ $Y$ en gran medida, la parte relevante se ve más fuerte. Un supresor no es un predictor sino más bien un facilitador para otro / otro predictor / es. Porque compite con lo que les impide predecir.

Signo del coeficiente de regresión del supresor

Es el signo de la correlación entre el supresor y la variable de error deja el modelo reducido (sin el supresor). En la representación anterior, es positivo. En otras configuraciones (por ejemplo, revertir la dirección de ) podría ser negativo. $e^*$ $X_2$

Supresión y cambio de signo de coeficiente

Agregar una variable que servirá a un supresor puede o no cambiar el signo de los coeficientes de algunas otras variables. Los efectos de "supresión" y "signo de cambio" no son lo mismo. Además, creo que un supresor nunca puede cambiar el signo de aquellos predictores a quienes sirve supresor. (¡Sería un descubrimiento sorprendente agregar el supresor a propósito para facilitar una variable y luego descubrir que se ha vuelto realmente más fuerte pero en la dirección opuesta! Estaría agradecido si alguien pudiera mostrarme que es posible).

Diagrama de supresión y Venn

La situación de regresión normal a menudo se explica con la ayuda del diagrama de Venn.

enter image description here

A + B + C + D = 1, toda la variabilidad El área B + C + D es la variabilidad explicada por los dos IV ( y ), el cuadrado R; el área restante A es la variabilidad del error. B + C = ; D + C = , correlaciones de orden cero de Pearson. B y D son las correlaciones de la parte cuadrada (semipartial): B = $Y$ $X_1$ $X_2$ $r_{YX_1}^2$ $r_{YX_2}^2$ ; D= son las correlaciones parciales cuadradas que tienen elmismo significado básicoque los coeficientes de regresión estandarizados betas. $r_{Y(X_1.X_2)}^2$ . B / (A + B)= yD / (A + D)= $r_{Y(X_2.X_1)}^2$ $r_{YX_1.X_2}^2$ $r_{YX_2.X_1}^2$

De acuerdo con la definición anterior (que se adhieren a) que un supresor es la IV con una mayor parte de correlación de correlación de orden cero, es el supresor de si D área> D + C área. Eso no se puede mostrar en el diagrama de Venn. (Implicaría que C desde la vista de no está "aquí" y no es la misma entidad que C desde la vista de Uno debe inventar quizás algo así como un diagrama de Venn de varias capas para retorcerse para mostrarlo). $X_2$ $X_2$ $X_1$

Datos de ejemplo

         y         x1         x2

1.64454000  .35118800 1.06384500
1.78520400  .20000000 -1.2031500
-1.3635700 -.96106900 -.46651400
 .31454900  .80000000 1.17505400
 .31795500  .85859700 -.10061200
 .97009700 1.00000000 1.43890400
 .66438800  .29267000 1.20404800
-.87025200 -1.8901800 -.99385700
1.96219200 -.27535200 -.58754000
1.03638100 -.24644800 -.11083400
 .00741500 1.44742200 -.06923400
1.63435300  .46709500  .96537000
 .21981300  .34809500  .55326800
-.28577400  .16670800  .35862100
1.49875800 -1.1375700 -2.8797100
1.67153800  .39603400 -.81070800
1.46203600 1.40152200 -.05767700
-.56326600 -.74452200  .90471600
 .29787400 -.92970900  .56189800
-1.5489800 -.83829500 -1.2610800

Resultados de regresión lineal:

Observe que sirvió como supresor. Su correlación de orden cero con es prácticamente cero, pero su correlación parcial es mucho mayor en magnitud, . Se fortaleció en cierta medida la fuerza predictiva de (de r $X_2$ $Y$ $-.224$ $X_1$ , una posible beta en regresión simple con ella, hasta beta en la regresión múltiple). $.419$ $.538$

Según la definición formal , apareció como un supresor, porque su correlación parcial es mayor que su correlación de orden cero. Pero eso se debe a que solo tenemos dos IV en el ejemplo simple. Conceptualmente, no es un supresor porque su con no se trata de . $X_1$ $X_1$ $r$ $Y$ $0$

Por cierto, la suma de las correlaciones de la parte cuadrada excedió R-cuadrado: .4750^2+(-.2241)^2 = .2758 > .2256lo que no ocurriría en una situación de regresión normal (ver el diagrama de Venn arriba).

PD: Al terminar mi respuesta, encontré esta respuesta (por @gung) con un diagrama simple (esquemático) agradable, que parece estar de acuerdo con lo que mostré arriba por vectores.

— ttnphns
fuente

+6, esto es realmente genial y ayudará a las personas a comprender mejor este tema en el futuro. Iba a señalar mi otra respuesta (que estoy de acuerdo es coherente con la suya aquí); Puede ser útil si las personas quieren intentar visualizar estas cosas desde una perspectiva diferente.

— gung - Restablece a Monica

Un par de pequeños puntos: 1 Con respecto a su afirmación de que el supresor no estará correlacionado w / Y, b / ce * está correlacionado w / Y (ver aquí para más información), si X1 no está incluido en el modelo, X2 debería estar correlacionado w / Y (si 'significativamente' depende de N, por supuesto). 2 Re si el signo en x1 podría cambiar (b * -> b1), si X1 está muy cerca de w / Y no correlacionado en ausencia del supresor yw / SE grandes, el signo en X1 en el modelo reducido podría voltearse solo por casualidad debido a un error de muestreo, pero esto debería ser poco común y mínimo.

— gung - Restablece a Monica

@gung, gracias. (1) Anhelo sus respuestas (y las de otros) que podrían ayudar a mejorar / corregir las mías. Entonces, cuando tenga tiempo, publique pensamientos que haya esbozado en su comentario; (2) por favor no hagas estas "recompensas": no voy a capitalizar; otros usuarios, los "más jóvenes" podrían valer la pena.

— ttnphns

No creo que mi otra respuesta sea "mejor" que la tuya; de hecho, creo que el tuyo es más completo / general. Creo que dice algunas cosas similares de una manera ligeramente diferente, por lo que puede ser útil para algunos lectores leer ambas. Si lo desea, podría reunir una pequeña publicación que explique mi comentario anterior, pero no quiero simplemente copiar y pegar mi otra respuesta aquí, y no tengo nada que agregar a eso (ni a la suya). En cuanto a la recompensa, servirá para atraer la atención / opiniones a este hilo, lo que será bueno, no podría otorgarlo, pero eso parece una tontería.

— gung - Restablece a Monica

Me gustan bastante estas formas geométricas vectoriales de pensar sobre las cosas. ¿Te importa si te pregunto cómo dibujaste tus tramas? ¿Fue "con el mouse" en algo parecido a MS Paint, o usando algún software más sofisticado? He dibujado cosas como esta antes con el mouse y me preguntaba si había una manera más fácil / más eficiente.

— Jake Westfall

Aquí hay otra vista geométrica de la supresión, pero en lugar de estar en el espacio de observación como es el ejemplo de @ ttnphns, esta es en el espacio variable , el espacio donde viven los diagramas de dispersión cotidianos.

Considere una regresión , es decir, la intersección es 0 y ambos predictores tener una pendiente parcial de 1. Ahora, los predictores y pueden ellos mismos estar correlacionados. Consideraremos dos casos: primero el caso donde y están correlacionados positivamente, que llamaré el caso "confusión" (caracterizada por la regresión secundaria $\hat{y}_i=x_i+z_i$ $x$ $z$ $x$ $z$ ), y segundo el caso de queyestán correlacionados negativamente, que llamaré el caso "supresión" (con regresión secundaria $\hat{x}_i=\frac{1}{2}z_i$ $x$ $z$ ). $\hat{x}_i=-\frac{1}{2}z_i$

Podemos trazar nuestra ecuación de regresión como un plano en el espacio variable que se ve así:

plane

Caso de confusión

$x$ $z$ $y$ $x$ $x$ $y$ $x$ $z$ $z$ $x$ $z$ $y$ $x$ $x$ $x$

$x$ $x$ $x$ $x$ $x$

confounding

$x$ $z$ $z$ .

$x$ $z$ $x$ $x$ $z$ $x$ $z$ $x$ $z$ $x$ $z$ $\hat{x}_i=\frac{1}{2}z_i$ $x$ $z$ $y$ $x$ $\Delta x + \Delta z = 1 + \frac{1}{2} = 1.5$ .

Entonces, cuando controlamos $z$ en la regresión múltiple, el efecto de $x$ parece ser más pequeño de lo que era en la regresión simple. Podemos ver esto visualmente arriba en el hecho de que el vector rojo (que representa la pendiente parcial) es menos empinado que el vector azul (que representa la pendiente simple). El vector azul es realmente el resultado de sumar dos vectores, el vector rojo y otro vector (no mostrado) que representa la mitad de la pendiente parcial de $z$ .

Bien, ahora pasamos a la pendiente para el $x$ predictor en el caso de supresión. Si siguió todo lo anterior, esta es una extensión realmente fácil.

Caso de supresión

Decir que el otro predictor $z$ está sirviendo como una variable supresora es decir que cuando miramos una simple regresión de $y$ en $x$ , el efecto de $x$ aquí es más débil que el efecto de x en una regresión múltiple de $y$ en $x$ y $z$ , donde separamos el efecto de $z$ . (Tenga en cuenta que en casos extremos, el efecto de $x$ en la regresión múltiple, incluso podría cambiar las direcciones! Pero no estoy considerando ese caso extremo aquí.) La intuición detrás de la terminología es que parece que en el caso de regresión simple, el efecto de $x$ estaba siendo "suprimido" por lo omitido $z$ variable. Y cuando incluimos $z$ en la regresión, el efecto de $x$ emerge claramente para que podamos ver, donde no podíamos verlo tan claramente antes. Aquí está lo que las pendientes simples y parciales de $x$ se ven como vectores en el plano de regresión en el caso de supresión:

suppression

Entonces, cuando controlamos $z$ en la regresión múltiple, el efecto de $x$ appears to increase relative to what it was in the simple regression. We can see this visually above in the fact that the red vector (representing the partial slope) is steeper than the blue vector (representing the simple slope). In this case the secondary regression was $\hat{x}_i=-\frac{1}{2}z_i$ , so a one-unit increase in $x$ is associated with a half-unit decrease in $z$ , which in turn leads to a half-unit decrease in $y$ . So ultimately the simple slope of $x$ in this case will be $\Delta x + \Delta z = 1 + -\frac{1}{2} = 0.5$ . As before, the blue vector is really the result of adding two vectors, the red vector and another vector (not shown) representing half of the reverse of the partial slope of $z$ .

Illustrative datasets

In case you want to play around with these examples, here is some R code for generating data conforming to the example values and running the various regressions.

library(MASS) # for mvrnorm()
set.seed(7310383)

# confounding case --------------------------------------------------------

mat <- rbind(c(5,1.5,1.5),
             c(1.5,1,.5),
             c(1.5,.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y         x         z
# y 1.0000000 0.6708204 0.6708204
# x 0.6708204 1.0000000 0.5000000
# z 0.6708204 0.5000000 1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#     -1.57e-17     1.50e+00  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#      3.14e-17     1.00e+00     1.00e+00  
# @ttnphns comment: for x, zero-order r = .671 > part r = .387
#                   for z, zero-order r = .671 > part r = .387

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#     6.973e-33    5.000e-01 

# suppression case --------------------------------------------------------

mat <- rbind(c(2,.5,.5),
             c(.5,1,-.5),
             c(.5,-.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y          x          z
# y 1.0000000  0.3535534  0.3535534
# x 0.3535534  1.0000000 -0.5000000
# z 0.3535534 -0.5000000  1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#    -4.318e-17    5.000e-01  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#    -3.925e-17    1.000e+00    1.000e+00  
# @ttnphns comment: for x, zero-order r = .354 < part r = .612
#                   for z, zero-order r = .354 < part r = .612

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#      1.57e-17    -5.00e-01

— Jake Westfall
fuente

Jake, may I ask you to supply your answer with actual data? Please give three variables values for the two cases you consider. Thanks. (I mean, don't plot it, just give it)

— ttnphns

@ttnphns I guess the reason you are asking is because you have noticed (as I have just discovered through some investigation) that the values implied by my example are not really plausible, since they imply that

x

$x$ and

z

$z$ are perfectly correlated. Point taken. (And nice intuition!) I will update my answer soon (probably tomorrow, it's getting late now) to use some more plausible values for the variables and also include some code for generating a dataset conforming to these values. Any other suggestions for improving my answer?

— Jake Westfall

@ttnphns Okay I edited my answer. Let me know what you think.

— Jake Westfall

Please, suggest a concrete random number seed in your code. I'll want to reproduce exactly your results here online: pbil.univ-lyon1.fr/Rweb (as I don't have R on my computer - I'm not R user).

— ttnphns

@ttnphns You don't need a seed to reproduce the example datasets. Any dataset generated using the code above will always have exactly the correlation/regression coefficients and variances shown above, although the particular data values may vary (to no consequence). For those averse to installing/using R, I have uploaded two datasets generated using the code above that you can download and analyze using the stats package of your choice. The links are: (1) psych.colorado.edu/~westfaja/confounding.csv (2) psych.colorado.edu/~westfaja/suppression.csv . I'll add a seed too I guess.

— Jake Westfall

Here is how I think about the suppressor effect. But please let me know if I am wrong.

Here is an example of a binary outcome (classification, logistic regression). We can see that there is no significant difference in X1, there is no difference in X2, but put X1 and X2 together (i.e. correct x1 for x2 or vice versa) and samples can be classified almost perfectly and thus the variables are now highly significant.

— rep_ho
fuente

Can you print the data corresponding to your picture, in your answer?

— ttnphns

Can you give vore for the numbers?

— fossekall