¿Qué teorías de la causalidad debo saber?

¿Qué enfoques teóricos de la causalidad debería conocer como estadístico / econométrico aplicado?

Conozco el (un poquito)

Modelo causal de Neyman-Rubin (y Roy , Haavelmo , etc.)
El trabajo de Pearl sobre la causalidad
Causalidad de Granger (aunque menos orientada al tratamiento)

¿Qué conceptos extraño o debo tener en cuenta?

Relacionado: ¿Qué teorías son bases para la causalidad en el aprendizaje automático?

He leído estas preguntas interesantes y las respuestas ( 1 , 2 , 3 ) pero creo que es una pregunta diferente. Y me sorprendió mucho ver que la "causalidad", por ejemplo, no se menciona en Elementos del aprendizaje estadístico .

— Arne Jonas Warnke
fuente

Echa un vistazo a la revisión de Andrew Gelman de varios trabajos sobre causalidad en AJS: Gelman, A. (2011). Causalidad y aprendizaje estadístico. American Journal of Sociology, 117 (3), 955-966. doi: 10.1086 / 662659 . Es una breve descripción de la causalidad en la ciencia social con referencias específicas a los trabajos de Rubin y Pearl, así como algunos otros. Un buen lugar para buscar las referencias.

— paqmo

Para empezar, los métodos de (John Stuart) Mill. en.wikipedia.org/wiki/Mill's_Methods

— noumenal

Vea mi comentario bajo la respuesta aceptada con respecto a la posible interpretación errónea de la causalidad de Granger allí.

— Richard Hardy

Hablando estrictamente, la "causalidad de Granger" no tiene nada que ver con la causalidad. Se trata de capacidad predictiva / precedencia temporal, desea verificar si una serie de tiempo es útil para predecir otra serie de tiempo --- es adecuada para afirmaciones como "generalmente A sucede antes de que ocurra B" o "saber que A me ayuda a predecir que B ocurrirá, pero no al revés "(incluso después de considerar toda la información pasada sobre $B$ ). La elección de este nombre fue muy desafortunada, y es la causa de varios conceptos erróneos.

Si bien es casi indiscutible que una causa tiene que preceder a su efecto a tiempo, para sacar conclusiones causales con precedencia en el tiempo, aún debe alegar la ausencia de confusión, entre otras fuentes de asociaciones espurias.

Ahora, con respecto a los Resultados Potenciales (Neyman-Rubin) versus Gráficos Causales / Modelado de Ecuaciones Estructurales (Perla), diría que este es un falso dilema y debes aprender ambos.

Primero, es importante notar que estos no son puntos de vista opuestos sobre la causalidad . Como dice Pearl, existe una jerarquía con respecto a las tareas de inferencia (causal):

Predicción observacional
Predicción bajo intervención
Contrafactuales

Para la primera tarea solo necesita conocer la distribución conjunta de las variables observadas. Para la segunda tarea, necesita conocer la distribución conjunta y la estructura causal. Para la última tarea, de contrafácticos, necesitará más información sobre las formas funcionales de su modelo de ecuación estructural.

Entonces, cuando se habla de contrafactuals, hay una equivalencia formal entre ambas perspectivas . La diferencia es que los resultados potenciales toman las declaraciones contrafácticas como primitivas y, en los DAG, las contrafactuales parecen derivar de las ecuaciones estructurales. Sin embargo, puede preguntar, si son "equivalentes", ¿por qué molestarse en aprender ambos? Porque hay diferencias en términos de "facilidad" para expresar y derivar cosas.

Por ejemplo, trate de expresar el concepto de M-Bias utilizando solo resultados potenciales --- Nunca he visto uno bueno. De hecho, mi experiencia hasta ahora es que los investigadores que nunca estudiaron gráficos ni siquiera lo saben. Además, emitir los supuestos sustantivos de su modelo en lenguaje gráfico hará que sea computacionalmente más fácil derivar sus implicaciones comprobables empíricas y responder preguntas de identificabilidad. Por otro lado, a veces a las personas les resultará más fácil pensar primero directamente sobre los contrafactuales mismos, y combinar esto con supuestos paramétricos para responder consultas muy específicas.

Hay mucho más que se podría decir, pero el punto aquí es que debes aprender a "hablar ambos idiomas". Para obtener referencias, puede consultar cómo comenzar aquí.

— Carlos Cinelli
fuente

¿Podría dar un ejemplo de algo que sea fácil de expresar en términos de PO, pero no en DAG?

— Guilherme Duarte

@GuilhermeDuarte cantidades de mediación que involucran contrafactuales anidados, por ejemplo

— Carlos Cinelli

A \overset{G r a n g e r}{\to} B

$A\xrightarrow{Granger} B$

A

$A$

B

$B$

B

$B$

@ Richard Hardy Creo que tienes razón, quizás un gallo perfecto que canta siempre una hora antes del amanecer podría tener un poder predictivo más allá de un modelo lineal de series de tiempo del amanecer (ya que el amanecer no es exactamente el mismo todos los días), pero con un modelo perfecto probablemente no agrega nada.

— Carlos Cinelli

Creo que la causalidad de Granger no sugiere usar modelos predictivos inferiores con solo el historial de B para justificar la necesidad de una variable adicional A y, por lo tanto, la causalidad de Granger. Por el contrario, lo ideal sería apuntar a un modelo tan bueno como sea posible utilizando el propio historial de B y luego ver si agregar A (en alguna forma) ayuda a predecir B. Y, por supuesto, "un gallo perfecto" es un concepto bastante utópico. Dado esto, creo que editar la respuesta para reflejar esto podría ser una buena idea.

— Richard Hardy