En la regresión lineal múltiple estándar, la capacidad de ajustar estimaciones de mínimos cuadrados ordinarios (MCO) en dos pasos proviene del teorema de Frisch-Waugh-Lovell . Este teorema muestra que la estimación de un coeficiente para un predictor particular en un modelo lineal múltiple es igual a la estimación obtenida mediante la regresión de los residuos de respuesta (residuos de una regresión de la variable de respuesta frente a las otras variables explicativas) frente a los residuos del predictor (residuos de una regresión de la variable predictora contra las otras variables explicativas). Evidentemente, está buscando una analogía con este teorema que pueda usarse en un modelo de regresión logística.
Para esta pregunta, es útil recordar la caracterización de la variable latente de la regresión logística :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
En esta caracterización del modelo, la variable de respuesta latente no es observable, y en su lugar observamos el indicador que nos dice si la respuesta latente es positiva o no. Esta forma del modelo es similar a la regresión lineal múltiple, excepto que usamos una distribución de error ligeramente diferente (la distribución logística en lugar de la distribución normal) y, lo que es más importante, solo observamos un indicador que muestra si la respuesta latente es positiva o no. .Y∗iYi
Esto crea un problema para cualquier intento de crear un ajuste de dos pasos del modelo. Este teorema de Frisch-Waugh-Lovell depende de la capacidad de obtener residuos intermedios para la respuesta y el predictor de interés, en comparación con las otras variables explicativas. En el presente caso, solo podemos obtener residuos de una variable de respuesta "categorizada". La creación de un proceso de ajuste de dos pasos para la regresión logística requeriría que utilice los residuos de respuesta de esta variable de respuesta categorizada, sin acceso a la respuesta latente subyacente. Esto me parece un obstáculo importante, y aunque no demuestra imposibilidad, parece poco probable que sea posible ajustar el modelo en dos pasos.
A continuación, le daré una cuenta de lo que se necesitaría para encontrar un proceso de dos pasos que se ajuste a una regresión logística. No estoy seguro de si hay una solución a este problema, o si hay una prueba de imposibilidad, pero el material aquí debería ayudarlo a comprender lo que se requiere.
¿Cómo sería un ajuste de regresión logística de dos pasos? Supongamos que queremos construir un ajuste de dos pasos para un modelo de regresión logística donde los parámetros se estiman mediante la estimación de máxima verosimilitud en cada paso. Queremos que el proceso implique un paso intermedio que se ajuste a los siguientes dos modelos:
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
Estimamos los coeficientes de estos modelos (a través de MLE) y esto produce valores intermedios ajustados . Luego, en el segundo paso, ajustamos el modelo:α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
Como se especifica, el procedimiento tiene una gran cantidad de elementos fijos, pero las funciones de densidad y en estos pasos se dejan sin especificar (aunque deben ser distribuciones de cero significa que no dependen de los datos). Para obtener un método de ajuste de dos pasos bajo estas limitaciones tenemos que elegir y para garantizar que el MLE para en este algoritmo de ajuste del modelo de dos etapas es el mismo que el MLE obtiene a partir del modelo de regresión logística de un solo paso encima.gfgfβZ
Para ver si esto es posible, primero escribimos todos los parámetros estimados del primer paso:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Deje que para que la función log-verosimilitud para el segundo paso sea:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Requerimos que el valor de maximización de esta función sea el MLE del modelo de regresión logística múltiple. En otras palabras, requerimos:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Lo dejo a otros para determinar si hay una solución a este problema, o una prueba de que no hay solución. Sospecho que la "categorización" de la variable de respuesta latente en una regresión logística hará que sea imposible encontrar un proceso de dos pasos.