¿Cuáles son las ventajas y desventajas de emplear LASSO para el análisis causal?

El aprendizaje estadístico y sus resultados están actualmente presentes en las ciencias sociales. Hace un par de meses, Guido Imbens dijo: "LASSO es el nuevo OLS".

Estudié Machine Learning un poco y sé que su objetivo principal es la predicción. También estoy de acuerdo con la distinción de Leo Breiman entre dos culturas de la estadística. Entonces, desde mi punto de vista, la causalidad se opone a la predicción hasta cierto punto.

Teniendo en cuenta que las ciencias suelen tratar de identificar y comprender las relaciones causales, ¿es útil el aprendizaje automático para este objetivo? En particular, ¿cuáles son las ventajas de LASSO para el análisis causal?

¿Hay investigadores (y documentos) que aborden esas preguntas?

machine-learning lasso causality

— Guilherme Duarte
fuente

Bueno, OLS no producirá estimaciones de efectos causales muy a menudo, por lo que si LASSO reemplaza a OLS, no tiene la "carga" de descubrir relaciones causales. Dicho esto, eche un vistazo a esta página para obtener una investigación reciente en econometría sobre los efectos causales y los métodos escasos: mit.edu/~vchern

— Christoph Hanck

Para mí, la distinción más natural aquí sería la de Shmueli ( "Explicar o predecir" , 2010) en lugar de la de Breiman, pero quizás la distinción de Breiman también está bien.

— Richard Hardy

@ChristophHanck. Pues tienes razón. Pero el punto es: OLS se ha empleado para estimar mucho los efectos causales. Por ejemplo, 'Econometría principalmente inofensiva' aborda varios temas relacionados con esto. Por lo tanto, si es posible con OLS, ¿por qué no con LASSO? De todos modos, gracias por la referencia.

— Guilherme Duarte

@ Richard Hardy Tienes toda la razón. Conozco este artículo Acabo de mencionar a Breiman, porque pensé que sería más fácil de explicar.

— Guilherme Duarte

No estoy en desacuerdo allí: en los casos en que OLS se puede usar para estimar efectos casuales, no veo por qué el lazo no debería ser también aplicable

— Christoph Hanck

No los conozco a todos, estoy seguro, así que espero que a nadie le importe si hacemos este estilo wiki.

Sin embargo, uno importante es que el LASSO está sesgado (fuente, Wasserman en la conferencia, lo siento), lo que, aunque es aceptable en la predicción, es un problema en la inferencia causal. Si desea causalidad, probablemente lo desee para Science, por lo que no solo está tratando de estimar los parámetros más útiles (que curiosamente predicen bien), está tratando de estimar los parámetros VERDADERO (!).

— one_observation
fuente

¡Buena respuesta! En realidad, si tiene un sesgo, es un gran problema para las estimaciones causales. Pero quizás LASSO podría emplearse preliminarmente en un procedimiento más completo para evaluar la causalidad.

— Guilherme Duarte

¡Quizás! Es por eso que estoy ansioso por que otras personas

— intervengan

@GuilhermeDuarte, es el error general lo que importa, no el sesgo. Bajo pérdida cuadrada nos preocupamos por MSE, y eso es igual a sesgo

^{2}

$^2$ + Varianza. Lasso puede ofrecer una buena compensación con un MSE relativamente pequeño a pesar de algún sesgo y, como tal, debería ser más útil para el análisis causal que la estimación imparcial con un MSE alto. El verdadero problema con el lazo es que es difícil obtener intervalos de confianza; Actualmente es un área de investigación activa.

— Richard Hardy

@RichardHardy lo siento, ¿quieres decir que cuando nos preocupamos por la causalidad, no deberíamos preocuparnos por el sesgo, sino por el MSE? Esto no está del todo claro para mí

— Guilherme Duarte

@GuilhermeDuarte, al igual que en la predicción, en causalidad necesitamos estimaciones precisas de los coeficientes del modelo. La precisión se puede medir en términos de error absoluto, error al cuadrado, etc., pero no sesgo. Por ejemplo, puede tener un sesgo bajo y un error de estimación alta al mismo tiempo. Entonces, al observar el sesgo, pensaría que está bien, pero eso sería engañoso ya que el error de estimación (absoluto, cuadrado o el que sea) es alto. Es el error de estimación, no el sesgo, lo que importa cuando se consideran los tamaños del efecto, la significación estadística, etc. en la inferencia causal.

— Richard Hardy