¿Hay alguna diferencia entre 'controlar para' e 'ignorar' otras variables en regresión múltiple?


50

El coeficiente de una variable explicativa en una regresión múltiple nos dice la relación de esa variable explicativa con la variable dependiente. Todo esto, mientras 'controla' las otras variables explicativas.

Cómo lo he visto hasta ahora:

Mientras se calcula cada coeficiente, las otras variables no se tienen en cuenta, por lo que considero que se ignoran.

Entonces, ¿estoy en lo cierto cuando pienso que los términos 'controlado' e 'ignorado' se pueden usar indistintamente?


2
No estaba tan entusiasmado con esta pregunta hasta que vi que los dos pensaron que inspiraste a @gung para ofrecer.
DWin

1
No sabías de la conversación que estábamos teniendo en otro lugar que motivó esta pregunta, @DWin. Era demasiado tratar de explicar esto en un comentario, así que le pedí al OP que hiciera una pregunta formal. De hecho, creo que resaltar explícitamente la distinción b / t ignorar y controlar otras variables en la regresión es una gran pregunta, y me alegro de que se haya discutido aquí.
gung - Restablecer Monica

2
vea también el primer diagrama aquí
Glen_b

1
¿Están disponibles los datos utilizados en esta pregunta para que podamos ejecutarlos nosotros mismos como una muestra educativa?
Larry

Respuestas:


88

YX1X2YX1

  1. X1YX2
    Y=β0+β1X1+β2X2
  2. X1Y X2

    Y=β0+β1X1

X1Yβ^1X1X2

ingrese la descripción de la imagen aquí

X1X2X2X2 X2X2X2=1X2=2X2=3X1YX2 X2

ingrese la descripción de la imagen aquí

Otra forma de pensar acerca de la distinción entre ignorar y controlar otra variable, es considerar la distinción entre una distribución marginal y una distribución condicional . Considere esta figura:

ingrese la descripción de la imagen aquí

( Esto se toma de mi respuesta aquí: ¿Cuál es la intuición detrás de las distribuciones gaussianas condicionales? )

YYXYX1=25X1=45X1


2
Gung, esto es esclarecedor, me alegro de haber cometido el error de usar la palabra 'ignorar' en mi respuesta a esa pregunta. Ahora voy a tratar de averiguar cómo exactamente 'controlan' los paquetes estadísticos para las otras variables. (Mi primer pensamiento es que usan alguna medida como el coeficiente de correlación de Pearson. Sin embargo, con muchas variables explicativas, las cosas se pondrían confusas) ¡Gracias por esta respuesta!
Siddharth Gopi

1
De nada, @garciaj, aunque todavía no he terminado ;-). Estoy buscando otra figura; Puede que tenga que hacerlo desde cero.
gung - Restablece a Monica

44
La idea crucial en la primera figura es que esos puntos se encuentran en un espacio tridimensional, con los círculos rojos en un plano en la pantalla de la computadora, los triángulos azules en un plano paralelo un poco delante de la pantalla y el verde ventajas en un avión un poco por delante de eso. El plano de regresión se inclina hacia abajo a la derecha, pero se inclina hacia arriba a medida que se mueve desde la pantalla hacia usted. Tenga en cuenta que este fenómeno ocurre porque X1 y X2 están correlacionados, si no estuvieran correlacionados, las betas estimadas serían las mismas.
gung - Restablece a Monica

1
Y este tipo de correlación entre los predictores (por ejemplo, el escenario @gung) es lo que generalmente subyace en un caso de la paradoja de Simpson . En un universo con más de tres variables, es aconsejable recordar que puede estar al acecho de sus inferencias (¡oh!).
FairMiles

2
@MSIS, cuando controla una variable en un modelo, el modelo intenta mantenerla constante (fija) en aras de estimar todo lo demás en el modelo. Sin embargo, esto es solo un intento y está sujeto a un error aleatorio, por lo que no es necesariamente idéntico a lo que obtendría si realizara un estudio con una variable fijada físicamente en un valor dado.
gung - Restablece a Monica

8

Están no ignorados. Si fueran 'ignorados' no estarían en el modelo. La estimación de la variable explicativa de interés está condicionada a las otras variables. La estimación se forma "en el contexto de" o "permitiendo el impacto de" las otras variables en el modelo.


La estimación está, por supuesto, sujeta a otras variables. Pero debemos purificarlo introduciendo los llamados otros factores en el modelo. Sin embargo, a veces estos factores pueden ser de naturaleza categórica y causar más problemas que dar una solución válida.
Subhash C. Davar
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.