¿Qué podemos decir sobre los modelos de datos de observación en ausencia de instrumentos?

10

En el pasado, me han hecho una serie de preguntas relacionadas con artículos publicados en varias áreas donde se usan regresiones (y modelos relacionados, como modelos de panel o GLM) en datos de observación (es decir, datos no producidos por un experimento controlado , en muchos casos, pero no siempre, datos observados a lo largo del tiempo) pero donde no se intenta introducir variables instrumentales.

En respuesta, hice una serie de críticas (como describir problemas con sesgo cuando pueden faltar variables importantes), pero dado que otras personas aquí sin duda estarán mucho más informadas que yo sobre este tema, pensé en preguntar:

¿Cuáles son los principales problemas / consecuencias de tratar de llegar a conclusiones sobre las relaciones (particularmente, pero no limitadas a conclusiones causales) en tales situaciones?
¿Se puede hacer algo útil con estudios que se ajusten a tales modelos en ausencia de instrumentos?
¿Cuáles son algunas buenas referencias (libros o documentos) sobre los problemas con tal modelado (preferiblemente con una clara motivación no técnica de las consecuencias, ya que generalmente las personas que preguntan tienen una variedad de antecedentes, algunos sin muchas estadísticas) a los que las personas pueden referirse al criticar ¿un papel? La discusión de precauciones / problemas con los instrumentos también sería útil.

(Las referencias básicas sobre variables instrumentales están aquí , aunque si tiene alguna que agregar allí, eso también sería útil).

Los punteros a buenos ejemplos prácticos de búsqueda y uso de instrumentos serían una ventaja, pero no son fundamentales para esta pregunta.

[Probablemente apunte a otros a cualquier buena respuesta aquí a medida que me surjan esas preguntas. Puedo agregar uno o dos ejemplos a medida que los obtengo.]

— Glen_b -Reinstate a Monica
fuente

8

Entonces, la gran mayoría de mi campo (aunque no es la parte en la que trabajo más) se ocupa solo de esto: la adaptación de los modelos de tipo GLM a los datos de observación. En su mayor parte, las variables instrumentales son una rareza, ya sea por falta de familiaridad con la técnica o, lo que es más importante, por la falta de un buen instrumento. Para abordar sus preguntas en orden:

El problema principal es, por supuesto, algún tipo de confusión residual por una variable no observada que está asociada tanto con la exposición como con el resultado de interés. La versión en lenguaje sencillo es que su respuesta puede ser incorrecta, pero no necesariamente sabe cómo o por qué. Las decisiones tomadas sobre esa información (como si se usa o no un tratamiento en particular, si la cosa X en el ambiente es peligrosa, etc.) son decisiones que se toman con la información incorrecta.
Yo afirmaría que la respuesta a esto es sí porque, en su mayor parte, estos estudios están tratando de llegar a algo donde no hay necesariamente un buen instrumento, o donde la aleatorización es imposible. Entonces, cuando se trata de eso, la alternativa es "Solo adivina". Estos modelos son, por lo menos, una formalización de nuestros pensamientos y un intento sólido de acercarnos a la respuesta, y son más fáciles de abordar.

Por ejemplo, puede preguntar qué tan grave debería ser el sesgo para cambiar cualitativamente su respuesta (es decir, "Sí, X es malo para usted ...") y evaluar si cree que es razonable o no que haya un factor desconocido. de esa fuerza al acecho fuera de sus datos.

Por ejemplo, el hallazgo de que la infección por VPH está extremadamente asociada con el cáncer de cuello uterino es un hallazgo importante, y la fuerza de un factor no medido que sesgaría todo el camino hacia el nulo tendría que ser asombrosamente fuerte.

Además, debe tenerse en cuenta que un instrumento no soluciona esto: solo funcionan en ausencia de algunas asociaciones no medidas, e incluso los ensayos aleatorios sufren problemas (abandono diferencial entre el tratamiento y los controles, cualquier cambio de comportamiento después de la aleatorización, generalización a lo real población objetivo) que también se pasa por alto un poco.

Rothman, Groenlandia y Lash escribieron la última edición de Epidemiología moderna, que es esencialmente un libro dedicado a tratar de hacer esto de la mejor manera posible.

— Fomite
fuente

8

En contraste con el punto de vista del epidemiólogo que muestra Fomite, las variables instrumentales son un juego de herramientas esencial en economía que se enseña desde el principio. La razón de esto es que hay un gran enfoque en tratar de responder preguntas causales en la investigación económica hoy en día, que llega a un punto en el que las meras correlaciones incluso se consideran poco interesantes. La principal limitación es que la economía es un campo en el que es inherentemente difícil realizar experimentos aleatorios. Si quiero saber cuál es el efecto de una muerte temprana de los padres en los resultados educativos a largo plazo de un niño, la mayoría de las personas se opondrían a hacerlo a través de un control aleatorio, y con razón. Este folleto de un curso del MIT describe en la página 3-5 qué otros problemas existen con los experimentos.

Para abordar cada punto a su vez:

$x\%$ ), por lo que estiman una ecuación de demanda y olvidan o ignoran por completo el hecho de que la demanda y la oferta se determinan simultáneamente, y que una afecta a la otra. Por lo tanto, las consecuencias dependen mucho más de la conciencia del investigador / analista de datos con respecto a las limitaciones de los datos en lugar de los datos en sí, pero las consecuencias resultantes pueden variar desde algo trivial hasta una extensión donde afectan negativamente la vida de las personas.
$D_i$ puede calcular el efecto de este tratamiento, hacer lo mismo para los no observables y preguntar qué tan grande debe ser el cambio en los no observables para explicar el efecto del tratamiento observado. Si el cambio no observado debe ser muy grande, entonces podemos confiar un poco más en nuestros hallazgos. La referencia para esto es Altonji, Elder y Taber (2000) .
Probablemente cualquier economista aplicado recomendaría Angrist y Pischke (2009) "Econometría en su mayoría inofensiva". Aunque este libro está dirigido principalmente a estudiantes e investigadores graduados, es posible omitir las partes de matemáticas y obtener la intuición que también se explica muy bien. Primero presentan la idea de un entorno experimental, luego tienden a OLS y sus limitaciones con respecto a la endogeneidad de las variables omitidas, simultaneidad, selección, etc. y luego discuten ampliamente las variables instrumentales con una buena parte de ejemplos de la literatura aplicada. También discuten problemas con variables instrumentales como instrumentos débiles o el uso de demasiados. Angrist y Krueger (2001) también brindan una visión general no técnica de variables instrumentales y posibles dificultades, y también tienen una tabla que resume varios estudios y sus instrumentos.

Probablemente todo esto fue mucho más largo de lo que debería ser una respuesta típica aquí, pero la pregunta es muy amplia. Solo me gustaría destacar que las variables instrumentales (que a menudo son difíciles de encontrar) no son la única bala en nuestro bolsillo. Existen otros métodos no experimentales para descubrir los efectos causales de los datos de observación, como la diferencia en las diferencias, los diseños de regresión discontinua, la correspondencia o la regresión de efectos fijos (si nuestros factores de confusión son invariables en el tiempo). Todo esto se discute en Angrist y Pischke (2009) y en el folleto vinculado al principio.

— Andy
fuente