Tengo un conjunto de datos con 8000 clústeres y 4 millones de observaciones. Desafortunadamente, mi software estadístico, Stata, funciona bastante lento cuando uso su función de datos de panel para la regresión logística: xtlogit
incluso con una submuestra del 10%.
Sin embargo, cuando se utiliza la logit
función no panel , los resultados aparecen mucho antes. Por lo tanto, puedo beneficiarme de usar logit
datos modificados que tengan en cuenta los efectos fijos.
Creo que este procedimiento se acuñó como el "procedimiento de efectos fijos de Mundlak" (Mundlak, Y. 1978. Agrupación de series temporales y datos de sección transversal. Econometrica, 46 (1), 69-85.)
Encontré una explicación intuitiva de este procedimiento en un artículo de Antonakis, J., Bendahan, S., Jacquart, P. y Lalive, R. (2010). Al hacer afirmaciones causales: una revisión y recomendaciones. The Leadership Quarterly, 21 (6). 1086-1120. Yo cito:
Una forma de evitar el problema de los efectos fijos omitidos y aún incluir variables de Nivel 2 es incluir las medias de agrupación de todas las covariables de Nivel 1 en el modelo estimado (Mundlak, 1978). Las medias de agrupación pueden incluirse como regresores o sustraerse (es decir, centrar la media de agrupación) de la covariable de Nivel 1. Las medias de grupo son invariables dentro del grupo (y varían entre grupos) y permiten una estimación coherente de los parámetros de Nivel 1 como si se hubieran incluido efectos fijos (ver Rabe-Hesketh y Skrondal, 2008).
Por lo tanto, el centrado de clúster parece ideal y práctico para resolver mi problema computacional. Sin embargo, estos documentos parecen estar orientados hacia la regresión lineal (MCO).
¿Es este método de centrado de conglomerados también aplicable para "replicar" efectos fijos de regresión logística binaria?
Una pregunta más técnica que debería dar como resultado la misma respuesta sería: ¿el xtlogit depvar indepvars, fe
conjunto de datos A es igual al logit depvar indepvars
conjunto de datos B cuando el conjunto de datos B es la versión centrada en el clúster del conjunto de datos A?
Una dificultad adicional que encontré en este centrado de clúster es cómo hacer frente a los maniquíes. Debido a que los dummies son 0 o 1, ¿son idénticos en la regresión de efectos fijos y aleatorios? ¿No deberían estar "centrados"?