Sesgo variable omitido en la regresión logística versus sesgo variable omitido en la regresión de mínimos cuadrados ordinarios


17

Tengo una pregunta sobre el sesgo variable omitido en la regresión logística y lineal.

Digamos que omito algunas variables de un modelo de regresión lineal. Imagine que esas variables omitidas no están correlacionadas con las variables que incluí en mi modelo. Esas variables omitidas no sesgan los coeficientes en mi modelo.

Pero en la regresión logística, acabo de enterarme de que esto no es cierto. Las variables omitidas sesgarán los coeficientes de las variables incluidas, incluso si las variables omitidas no están correlacionadas con las variables incluidas. Encontré un artículo sobre este tema, pero no puedo entenderlo.

Aquí está el papel y algunas diapositivas de PowerPoint.

El sesgo, aparentemente, siempre es hacia cero. ¿Alguien puede explicar cómo funciona esto?


¿Está familiarizado con la forma en que el modelo de regresión logística emerge de un modelo de regresión lineal subyacente de "variable latente"?
Alecos Papadopoulos

@AlecosPapadopoulos I por mi parte no lo soy. Cual es el plato
Alexis

Hay otros artículos que discuten esto, pero el que enlazó es el más fácil que conozco. Así que no creo que pueda mejorarlo.
Maarten Buis

Estimado Sr. Papadopoulos: He leído sobre la idea de la variable latente. ¿Por qué preguntas?
ConfusedEconometricsUndergrad

@ Alexis Consulte, por ejemplo, esta publicación, stats.stackexchange.com/questions/80611/… , y el artículo de wikipedia, en.wikipedia.org/wiki/… . Este enfoque también aclara que es la suposición que hacemos sobre el término de error del modelo subyacente lo que determina qué modelo obtendremos en el nivel de Probabilidades. Para otro ejemplo, si suponemos que el error subyacente sigue un uniforme, obtenemos el Modelo de probabilidad lineal, ver stats.stackexchange.com/questions/81789
Alecos Papadopoulos

Respuestas:


20

El caso de "sesgo de atenuación" puede presentarse más claramente si examinamos el modelo "probit", pero el resultado también se traslada a la regresión logística.

Debajo de los Modelos de probabilidad condicional (modelos logísticos (logit), "probit" y "Probabilidad lineal") podemos postular un modelo de regresión lineal latente (no observable):

y=Xβ+u

donde es una variable continua no observable (y X es la matriz regresora). Se supone que el término de error es independiente de los regresores y que sigue una distribución que tiene una densidad simétrica alrededor de cero y, en nuestro caso, la distribución normal estándar F U ( u ) = Φ ( u ) .yXFU(u)=Φ(u)

Suponemos que lo que observamos, es decir, la variable binaria , es una función indicadora de la no observable y :yy

y=1ify>0,y=0ify0

Luego preguntamos "¿cuál es la probabilidad de que tome el valor 1 dados los regresores?" (es decir, estamos viendo una probabilidad condicional). Esto esy1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

la última igualdad debido a la propiedad "reflexiva" de la función de distribución acumulativa estándar, que proviene de la simetría de la función de densidad alrededor de cero. Tenga en cuenta que, aunque hemos supuesto que es independiente de X , es necesario condicionar X para tratar la cantidad X β como no aleatoria.uXXXβ

Si suponemos que , obtenemos el modelo teóricoXβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

Sea ahora independiente de X 1 y erróneamente excluido de la especificación de la regresión subyacente. Entonces especificamosX2X1

Supongamos además que X 2 también es una variable aleatoria normal X 2N ( μ 2 , σ 2 2 ) . Pero esto significa que

y=b0+b1X1+ϵ
X2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

debido al cierre bajo adición de la distribución normal (y el supuesto de independencia). Aplicando la misma lógica que antes, aquí tenemos

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

Estandarizando la variable que tenemosϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

and one can compare models (1) and (2).

The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

b^1pb11+b22σ22|b^1|<|b1|

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.