¿El procedimiento de efectos fijos de Mundlak es aplicable para la regresión logística con maniquíes?

12

Tengo un conjunto de datos con 8000 clústeres y 4 millones de observaciones. Desafortunadamente, mi software estadístico, Stata, funciona bastante lento cuando uso su función de datos de panel para la regresión logística: xtlogitincluso con una submuestra del 10%.

Sin embargo, cuando se utiliza la logitfunción no panel , los resultados aparecen mucho antes. Por lo tanto, puedo beneficiarme de usar logitdatos modificados que tengan en cuenta los efectos fijos.

Creo que este procedimiento se acuñó como el "procedimiento de efectos fijos de Mundlak" (Mundlak, Y. 1978. Agrupación de series temporales y datos de sección transversal. Econometrica, 46 (1), 69-85.)

Encontré una explicación intuitiva de este procedimiento en un artículo de Antonakis, J., Bendahan, S., Jacquart, P. y Lalive, R. (2010). Al hacer afirmaciones causales: una revisión y recomendaciones. The Leadership Quarterly, 21 (6). 1086-1120. Yo cito:

Una forma de evitar el problema de los efectos fijos omitidos y aún incluir variables de Nivel 2 es incluir las medias de agrupación de todas las covariables de Nivel 1 en el modelo estimado (Mundlak, 1978). Las medias de agrupación pueden incluirse como regresores o sustraerse (es decir, centrar la media de agrupación) de la covariable de Nivel 1. Las medias de grupo son invariables dentro del grupo (y varían entre grupos) y permiten una estimación coherente de los parámetros de Nivel 1 como si se hubieran incluido efectos fijos (ver Rabe-Hesketh y Skrondal, 2008).

Por lo tanto, el centrado de clúster parece ideal y práctico para resolver mi problema computacional. Sin embargo, estos documentos parecen estar orientados hacia la regresión lineal (MCO).

¿Es este método de centrado de conglomerados también aplicable para "replicar" efectos fijos de regresión logística binaria?

Una pregunta más técnica que debería dar como resultado la misma respuesta sería: ¿el xtlogit depvar indepvars, feconjunto de datos A es igual al logit depvar indepvarsconjunto de datos B cuando el conjunto de datos B es la versión centrada en el clúster del conjunto de datos A?

Una dificultad adicional que encontré en este centrado de clúster es cómo hacer frente a los maniquíes. Debido a que los dummies son 0 o 1, ¿son idénticos en la regresión de efectos fijos y aleatorios? ¿No deberían estar "centrados"?

— Tom
fuente

9

La primera diferenciación o dentro de transformaciones como la degradación no están disponibles en modelos como logit porque en el caso de modelos no lineales tales trucos no eliminan los efectos fijos no observados. Incluso si tuviera un conjunto de datos más pequeño en el que fuera factible incluir dummies individuales N-1 para estimar los efectos fijos directamente, esto conduciría a estimaciones sesgadas a menos que la dimensión temporal de sus datos sea grande. Por lo tanto, la eliminación de los efectos fijos en el panel logit no se diferencia ni degrada, y solo es posible debido a la forma funcional logit. Si está interesado en los detalles, puede echar un vistazo a estas notas de Söderbom en la página 30 del PDF (explicación de por qué la degradación / primera diferenciación en logit / probit no ayuda) y la página 42 (introducción del estimador logit del panel).

Otro problema es que los xtlogitmodelos logit de panel en general no estiman directamente los efectos fijos que se necesitan para calcular los efectos marginales. Sin ellos, sería muy incómodo interpretar sus coeficientes, lo que podría ser decepcionante después de haber ejecutado el modelo durante horas y horas.

Con un conjunto de datos tan grande y las dificultades conceptuales mencionadas anteriormente de logit del panel FE, me quedaría con el modelo de probabilidad lineal. Espero que esta respuesta no te decepcione, pero hay muchas buenas razones para dar ese consejo: el LPM es mucho más rápido, los coeficientes se pueden interpretar de inmediato (esto se aplica en particular si tienes efectos de interacción en tu modelo porque la interpretación de su coeficientes en los cambios de modelos no lineales!), los efectos fijos se controlan fácilmente y puede ajustar los errores estándar para autocorrelación y agrupaciones sin que los tiempos de estimación aumenten más allá de lo razonable. Espero que esto ayude.

— Andy
fuente

1

No es una solución, pero es una respuesta. Gracias :)

— Tom

1

Pequeño punto: p20 de esas diapositivas es su caso, pero un modelo de corrección de Mundlak, también conocido como 'efectos aleatorios correlacionados' se describe en p47 y parece no tener tales advertencias.

— conjugateprior

1

Creo logit condicional ("clogit" en Stata), es un estimador de panel logit de efecto fijo alternativo.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf

— Francesco
fuente

55

Bienvenido al sitio! Creo que esta no es una respuesta aceptable, ya que la pregunta en realidad es: cómo evitar la regresión logística condicional (efectos fijos) mediante una regresión logística transversal modificada, con el propósito de acelerar la estimación. Como su referencia indica (en la parte superior de la página 3), "podemos usar Statael clogitcomando o el xtlogit, fecomando para hacer un análisis logit de efectos fijos. Ambos dan los mismos resultados. (De hecho, creo que xtlogit, ferealmente llama clogit"). OP ya lo sabía xtlogit, febasado en el penúltimo párrafo.

— Randel

0

Allison ha discutido este problema en Allison, (2009), "Modelos de regresión de efectos fijos", p.32f.

Allison argumenta que no es posible estimar un modelo incondicional con la máxima probabilidad. Esto es así porque los modelos se vuelven sesgados debido al "problema de parámetros incidentales". En cambio, recomienda usar un modelo logit condicional (Chamberlain, 1980). Esto se logra al condicionar la función de probabilidad sobre el número de eventos observados para cada individuo.

— Monstruo de las galletas
fuente