¿Qué es una diferencia en el estimador de
diferencias? En general, estamos interesados en estimar el efecto de un tratamiento (p. Ej., Estado de la unión, medicación, etc.) en un resultado Y i (p. Ej. Salarios, salud, etc.) como en
Y i t = α i + λ t + ρ D i t + X ′ i t β + ϵ i t
donde αreyoYyo
Yit=αi+λt+ρDit+X′itβ+ϵit
son efectos fijos individuales (características de los individuos que no cambian con el tiempo),
λ t son efectos fijos en el tiempo,
X i t son covariables que varían en el tiempo, como la edad de los individuos, y
ϵ i t es un término de error. Los individuos y el tiempo están indexados por
i y
t , respectivamente. Si existe una correlación entre los efectos fijos y
D i t , la estimación de esta regresión a través de OLS estará sesgada dado que los efectos fijos no están controlados. Este es el
sesgo variable omitidotípico.
αiλtXitϵititDit
t=1,2s=A,B
ρ=(E[Yist|s=A,t=2]−E[Yist|s=A,t=1])−(E[Yist|s=B,t=2]−E[Yist|s=B,t=1])
Gráficamente esto se vería así:
AB
- para controlar las covariables
- para obtener errores estándar para el efecto del tratamiento para ver si es significativo
treatiAtimett=2
Yit=β1+β2(treati)+β3(timet)+ρ(treati⋅timet)+ϵit
Tit
Yit=β1γs+β2λt+ρTit+ϵit
γsλt
E(Y0it|i,t)=αi+λtE(Y0it|s,t)=γs+λts
¿Podemos confiar en la diferencia en las diferencias?
El supuesto más importante en DiD es el supuesto de tendencias paralelas (ver la figura anterior). ¡Nunca confíe en un estudio que no muestre gráficamente estas tendencias! Los documentos en la década de 1990 podrían haberse salido con la suya, pero hoy en día nuestra comprensión de DiD es mucho mejor. Si no hay un gráfico convincente que muestre las tendencias paralelas en los resultados previos al tratamiento para los grupos de tratamiento y control, tenga cuidado. Si se cumple el supuesto de tendencias paralelas y podemos descartar de manera creíble cualquier otro cambio de variación temporal que pueda confundir el tratamiento, entonces DiD es un método confiable.
Se debe aplicar otra palabra de precaución cuando se trata del tratamiento de errores estándar. Con muchos años de datos, necesita ajustar los errores estándar para la autocorrelación. En el pasado, esto se ha descuidado, pero desde Bertrand et al. (2004) "¿Cuánto debemos confiar en las estimaciones de diferencias en diferencias?" Sabemos que esto es un problema. En el documento proporcionan varios remedios para tratar la autocorrelación. Lo más fácil es agrupar en el identificador de panel individual que permite la correlación arbitraria de los residuos entre series de tiempo individuales. Esto corrige tanto la autocorrelación como la heterocedasticidad.
Para más referencias vea estas notas de Waldinger y Pischke .