El caso de "sesgo de atenuación" puede presentarse más claramente si examinamos el modelo "probit", pero el resultado también se traslada a la regresión logística.
Debajo de los Modelos de probabilidad condicional (modelos logísticos (logit), "probit" y "Probabilidad lineal") podemos postular un modelo de regresión lineal latente (no observable):
y∗=Xβ+u
donde es una variable continua no observable (y X es la matriz regresora). Se supone que el término de error es independiente de los regresores y que sigue una distribución que tiene una densidad simétrica alrededor de cero y, en nuestro caso, la distribución normal estándar F U ( u ) = Φ ( u ) .y∗XFU(u)=Φ(u)
Suponemos que lo que observamos, es decir, la variable binaria , es una función indicadora de la no observable y ∗ :yy∗
y=1ify∗>0,y=0ify∗≤0
Luego preguntamos "¿cuál es la probabilidad de que tome el valor 1 dados los regresores?" (es decir, estamos viendo una probabilidad condicional). Esto esy1
P(y=1∣X)=P(y∗>0∣X)=P(Xβ+u>0∣X)=P(u>−Xβ∣X)=1−Φ(−Xβ)=Φ(Xβ)
la última igualdad debido a la propiedad "reflexiva" de la función de distribución acumulativa estándar, que proviene de la simetría de la función de densidad alrededor de cero. Tenga en cuenta que, aunque hemos supuesto que es independiente de X , es necesario condicionar X para tratar la cantidad X β como no aleatoria.uXXXβ
Si suponemos que , obtenemos el modelo teóricoXβ=b0+b1X1+b2X2
P(y=1∣X)=Φ(b0+b1X1+b2X2)(1)
Sea ahora independiente de X 1 y erróneamente excluido de la especificación de la regresión subyacente. Entonces especificamosX2X1
Supongamos además que X 2 también es una variable aleatoria normal X 2 ∼ N ( μ 2 , σ 2 2 ) . Pero esto significa que
y∗=b0+b1X1+ϵ
X2X2∼N(μ2,σ22)
ϵ=u+b2X2∼N(b2μ2,1+b22σ22)
debido al cierre bajo adición de la distribución normal (y el supuesto de independencia). Aplicando la misma lógica que antes, aquí tenemos
P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)
Estandarizando la variable que tenemosϵ
P(y=1∣X1)=1−P⎛⎝⎜ϵ−b2μ21+b22σ22−−−−−−−√≤−(b0+b2μ2)1+b22σ22−−−−−−−√−b11+b22σ22−−−−−−−√X1∣X1⎞⎠⎟
⇒P(y=1∣X1)=Φ⎛⎝⎜(b0+b2μ2)1+b22σ22−−−−−−−√+b11+b22σ22−−−−−−−√X1⎞⎠⎟(2)
and one can compare models (1) and (2).
The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):
b^1→pb11+b22σ22−−−−−−−√⟹|b^1|<|b1|
which is the "bias towards zero" result.
We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).