Puntaje de propensión que coincide con los datos del panel

13

Tengo un conjunto de datos longitudinales de individuos y algunos de ellos estaban sujetos a un tratamiento y otros no. Todos los individuos están en la muestra desde el nacimiento hasta los 18 años y el tratamiento ocurre a alguna edad entre ese rango. La edad del tratamiento puede variar según los casos. Utilizando la coincidencia de puntaje de propensión, me gustaría unir las unidades tratadas y de control en parejas con la coincidencia exacta en el año de nacimiento, de modo que pueda rastrear cada pareja desde su nacimiento hasta la edad de 18 años. En total, hay alrededor de 150 individuos tratados y 4000 no tratados. Después de la correspondencia, la idea es utilizar una estrategia de diferencia en diferencias para estimar el efecto del tratamiento.

El problema que enfrento en este momento es hacer la correspondencia con los datos del panel. Estoy usando el psmatch2comando de Stata y hago coincidir las características individuales y del hogar con el puntaje de propensión. En general, con los datos del panel habrá diferentes coincidencias óptimas para cada edad. Como ejemplo: si se trata A, B y C son controles, y todos ellos nacieron en 1980, entonces A y B pueden coincidir en 1980 a los 0 años, mientras que A y C se emparejan en 1981 a los 1 años, y así sucesivamente. . También A puede coincidir con sus propios valores de pretratamiento de años anteriores.

Para solucionar este problema, tomé el promedio de todas las variables que varían con el tiempo, de modo que el emparejamiento puede identificar a las personas que en promedio son las más similares durante la duración de la muestra y hago el emparejamiento por separado para cada grupo de edad de 0 a 18 años. Desafortunadamente, esto aún coincide con una unidad de control diferente para cada unidad tratada por grupo de edad.

Si alguien pudiera dirigirme hacia un método para hacer emparejamiento por pares con datos de panel en Stata, esto sería muy apreciado.

stata panel-data propensity-scores

— Andy
fuente

9

Básicamente, debe crear un conjunto de datos de formato ancho con todas las características relevantes para el procedimiento de coincidencia, realizar la coincidencia en este conjunto de datos de sección transversal y luego usar la ID para identificar el par coincidente en el conjunto de datos del panel. Aquí hay algunos detalles más:

Úselo reshapepara crear un conjunto de datos de formato ancho. Formatee las variables de pretratamiento de la forma en que desea usarlas en el procedimiento de coincidencia. Puede tomar el promedio de sus variables si tiene múltiples observaciones para un individuo, pero también puede encontrar otras formas (también puede mantener múltiples observaciones de las mismas variables como salud1, salud2 y usarlas todas en la correspondencia ) El objetivo es tener un conjunto de datos con una observación por persona .
Con este conjunto de datos, realice el procedimiento de coincidencia con psmatch2.
Combine la información sobre los casos coincidentes con el conjunto de datos original. Descarte los casos que no coincidan, etc. No estoy seguro acerca de los detalles aquí porque realmente no conozco el estado y psmatch2creo que usted entiende la idea.

Con estos pasos, puede hacer coincidir los casos en función de toda la información previa al tratamiento y solo tiene una coincidencia por unidad de tratamiento.

— Greg
fuente

3

Realmente no sé por qué esta publicación fue rechazada porque esta respuesta realmente ayuda. Lo votaré de nuevo. Gracias Greg!

— Andy

5

No hay forma de hacerlo en Stata o en cualquier otro software que conozca.

Si está tratando de parchear un estimador de coincidencia sesgado con técnicas de datos de panel, este es un enfoque que puede funcionar. Si puede suponer que la coincidencia se ocupa de algunos, pero no de todos, el sesgo de selección, pero que el sesgo permanece en gran medida constante a lo largo del tiempo, puede eliminar la parte del sesgo invariante en el tiempo construyendo estimaciones de coincidencia separadas en cada período y tomando la diferencia.

$t$ $t'$ $Y_0$

mi [Y_{0 0 t} El | X, re = 1] - mi [Y_{0 0 t} El | X, re = 0 0] = mi [Y_{0 0 t^{'}} El | X, re = 1] - mi [Y_{0 0 t^{'}} El | X, re = 0 0] = si yo un s,

$\begin{equation} E[Y_{0t} \vert X, D=1]-E[Y_{0t} \vert X, D=0]=E[Y_{0t'} \vert X, D=1]-E[Y_{0t'} \vert X, D=0]=Bias, \end{equation}$

Δ_{t^{'}}^{M} = Δ^{T T} + B i a s

$\Delta^{M}_{t'}=\Delta^{TT}+Bias$

Δ_{t}^{M} = B i a s

$\Delta^{M}_{t}=Bias$

Δ_{t^{'}}^{M} - Δ_{t}^{M} = Δ^{T T}

$\Delta^{M}_{t'}-\Delta^{M}_{t}=\Delta^{TT}$

Heckman, Ichimura, Smith y Todd 1998 Econometrica y Eichler y Lechner 2002 Labor Economics son ejemplos de este enfoque. Por otro lado, 150 observaciones tratadas pueden no ser suficientes para que este enfoque funcione.

— Dimitriy V. Masterov
fuente

1

Debería ser posible unir individuos en pares para los datos del panel porque estos dos documentos ( paper1 , papel2 ) también lo hacen. Lamentablemente, los autores no dicen exactamente cómo lo hicieron. La idea que está describiendo con Heckman et al (1998) es exactamente la razón para usar Diff-in-Diff después de la coincidencia por pares.

— Andy

No está claro para mí que estén haciendo coincidir los paneles, pero tienes razón en que los procedimientos son vagos. Los autores escribieron pscore, lo que indica cierta disposición a ayudar a los demás. Quizás un correo electrónico para ellos aclarará las cosas. Informe lo que dicen. Es una pregunta importante.

— Dimitriy V. Masterov

0

Pasos:

Como Greg lo ha mencionado en detalle, puede utilizar un conjunto de datos de sección transversal, ya sea en medios de pretratamiento o en un período de pretratamiento específico para generar la coincidencia.
Usando todo el panel, asigna variables indicadoras para
a. tratado individualmente
b. Período tratado, este último es igual a cero tan pronto como se produce el tratamiento para el individuo tratado.

Dado que el momento en el que el período de tratamiento trata de 0 a 1 varía de una persona a otra y nunca se convierte en 1 para los no tratados, debe asignar el mismo punto de partida de la coincidencia tratada a la coincidencia no tratada. Esto es intuitivo, pero todavía me gustaría ver una buena referencia que justifique este enfoque que no he encontrado hasta ahora.

La configuración de regresión sería:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

donde el término de interacción te da el efecto del tratamiento.

— Matías
fuente

-2

¿Consideró usar el comando nnmatch ?

Uso este comando y es bastante completo. Tiene en cuenta diferentes algoritmos de coincidencia y también casos, en los que el puntaje de propensión es el mismo para algunos individuos del grupo de control. Por supuesto, el tratamiento de este caso depende del algoritmo de coincidencia, si toma k-vecino más cercano o kernel o lo que sea.

— Stat Tistician
fuente

En el artículo al que hizo referencia, no veo ninguna mención a los datos del panel. ¿Ha utilizado eso para los datos del panel? Si es así, sea específico y proporcione un código para responder la pregunta de OP.

— Métricas

La coincidencia exacta es más fácil, pero en general nnmatch es más complicado ya que no almacena ID coincidentes dentro del conjunto de datos actual, sino en uno separado. Terminaré con un conjunto de datos para cada grupo de edad que debe combinarse con los datos originales. La fusión en este caso no funciona porque las características coincidentes no identifican de forma exclusiva a los individuos en los datos originales. Así que desafortunadamente esto no proporciona una solución.

— Andy