Especificación de datos del panel

Estoy tratando de encontrar la mejor especificación para mi conjunto de datos.

Estoy tratando de probar la efectividad de las zonas económicas especiales en Polonia en el significado del crecimiento de la economía en tres modelos similares de datos de panel para variables explicadas: a) tasa de desempleo registrada b) PIB per cápita c) formación bruta de capital fijo per cápita . Los datos son para subregiones NUTS3. Las variables explicativas son: 0-1 para presencia de la ZEE en la subregión en el año algunas de las variables económicas; frecuencia anual, el conjunto de datos es 2004-2012 para 66 subregiones. $t$

He intentado efectos fijos y aleatorios. Por ahora, he elegido FE, por su importancia y signos teóricamente correctos. Pero hay algunos problemas que me impiden darlo por sentado:

¿Cómo probar la autocorrelación y la correlación cruzada?
No tengo idea de cómo probar la distribución del término de error en Stata y, además, si no se distribuye normalmente, ¿debería importarme mucho?
Como entiendo por la literatura, los valores del coeficiente de correlación entre las variables explicativas y el término de error cerca de -1 o 1 no son malos de hecho; en mi caso, es casi -1 como puedes ver.
¿Es apropiado un modelo mixto para mi conjunto de datos?

Adjunto el resultado para el modelo que explica la tasa de desempleo.

Código:

xtreg  st_bezr sse01 wartosc_sr_trw_per_capita zatr_przem_bud podm_gosp_na_10tys_ludn proc_ludn_wiek_prod ludnosc_na_km2, fe

Fixed-effects (within) regression               Number of obs      =       594
Group variable: id                              Number of groups   =        66

R-sq:  within  = 0.4427                         Obs per group: min =         9
       between = 0.3479                                        avg =       9.0
       overall = 0.2365                                        max =         9

                                                F(6,522)           =     69.10
corr(u_i, Xb)  = -0.9961                        Prob > F           =    0.0000

-------------------------------------------------------------------------------------------
                  st_bezr |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
--------------------------+----------------------------------------------------------------
                    sse01 |  -1.406066   .4631984    -3.04   0.003    -2.316028   -.4961045
wartosc_sr_trw_per_capita |  -.0000963   .0000166    -5.79   0.000    -.0001289   -.0000636
           zatr_przem_bud |  -26.11989   4.992198    -5.23   0.000    -35.92716   -16.31263
  podm_gosp_na_10tys_ludn |  -.0201788   .0030788    -6.55   0.000    -.0262273   -.0141304
      proc_ludn_wiek_prod |  -229.1996   16.92631   -13.54   0.000    -262.4516   -195.9475
           ludnosc_na_km2 |   .0790167   .0120865     6.54   0.000     .0552726    .1027609
                    _cons |   161.9786   10.76989    15.04   0.000      140.821    183.1363
--------------------------+----------------------------------------------------------------
                  sigma_u |  53.986519
                  sigma_e |  2.5446248
                      rho |  .99778327   (fraction of variance due to u_i)
-------------------------------------------------------------------------------------------
F test that all u_i=0:     F(65, 522) =    27.09             Prob > F = 0.0000

— charlie9207
fuente

Para los comandos Stata en esta respuesta, permítanme recopilar sus variables en un local:
local xlist sse01 wartosc_sr_trw_per_capita zatr_przem_bud podm_gosp_na_10tys_ludn proc_ludn_wiek_prod ludnosc_na_km2
Entonces, ahora siempre puede llamar a todas las variables con `xlist '

1) Hay dos comandos que puede usar después de su regresión de efectos fijos.

xttest2realiza una prueba Breusch-Pagan LM con la hipótesis nula de no dependencia entre los residuos. Esta es una prueba de correlación contemporánea. No rechazar el valor nulo significa que la prueba no detectó ninguna dependencia transversal en sus residuos.
xttest3realiza una versión modificada de la prueba de Wald para detectar heterocedasticidad grupal. La hipótesis nula es la homocedasticidad.

Puede instalar ambos comandos escribiendo ssc instal xttest2y ssc instal xttest3. Si detecta correlaciones entre sus residuos, puede corregir esto con la opción robusta:
xtreg st_bezr 'xlist', fe robust

Para probar la autocorrelación, puede aplicar una prueba de multiplicador de Lagrange mediante xtserial:
xtserial st_bezr 'xlist'
La hipótesis nula no es una correlación en serie. Para corregir tanto la correlación serial como la heterocedasticidad, puede usar la opción de clúster con su variable de identificación:
xtreg st_bezr 'xlist', fe cluster(id)

2) Para la prueba de normalidad para los residuos: puede obtener los residuos mediante el comando de predicción predict res, edespués de su regresión de efectos fijos. Para la inspección visual puede usar:

kdensity res, normal (traza la distribución de los residuos y la compara con una normal)
pnorm res (traza un diagrama de probabilidad normal estandarizado)
qnorm res (traza los cuantiles de los residuos contra los cuantiles de una distribución normal)

Con pnorm puede ver si no hay normalidad en el medio de la distribución y qnorm le muestra cualquier no normalidad en las colas. Se puede obtener una prueba formal por swilk res. La hipótesis nula es que los residuos se distribuyen normalmente. En general, la no normalidad no es una gran preocupación, pero es importante para la inferencia. Puede corregir esto nuevamente con la opción robusta.

3) Tener corr(u_i, Xb) = -0.9961significa que los efectos fijos están fuertemente correlacionados con sus variables explicativas, por lo que lo hizo bien al controlar estos efectos fijos. Una fuerte correlación de este tipo generalmente indica que los OLS agrupados o los efectos aleatorios no serán adecuados para su propósito porque ambos modelos suponen que la correlación entre $u_i$ y $X\beta$ es cero

4) Generalmente sí, pero depende de lo que quiera estimar o de cómo puede tratar sus datos, es decir, si sus variables son variables aleatorias o no. Aquí hay una excelente explicación de la diferencia entre los efectos mixtos y los modelos de datos de panel de @mpiktas que seguramente lo ayudarán.

— Andy
fuente