¿El aprendizaje automático es menos útil para comprender la causalidad y, por lo tanto, es menos interesante para las ciencias sociales?

42

Comprendo la diferencia entre el aprendizaje automático / otras técnicas predictivas estadísticas versus el tipo de estadísticas que usan los científicos sociales (por ejemplo, economistas) es que los economistas parecen muy interesados en comprender el efecto de una o varias variables, tanto en términos de magnitud y detectar si la relación es causal. Por esto, terminas preocupándote por métodos experimentales y cuasiexperimentales, etc.

El aprendizaje automático o el modelado estadístico que es predictivo a menudo descuida por completo este aspecto y, en muchos casos, no le da un grado específico en el que una variable afecta el resultado (logit y probit parecen hacer ambas cosas).

Una pregunta relacionada es ¿hasta qué punto los modelos económicos o de comportamiento inspirados teóricamente tienen una ventaja sobre los modelos teóricos cuando predicen nuevos dominios? ¿Qué diría un experto en aprendizaje automático o un estadístico orientado a la predicción a la crítica de que sin un modelo económico, no sería posible predecir correctamente nuevas muestras donde las covariables fueran muy diferentes?

Me alegraría mucho escuchar la opinión de la gente sobre esto desde todas las perspectivas.

machine-learning econometrics

— d_a_c321
fuente

Pregunta. ¿Querías escribir 'modelos ateóricos'? Y si es así, ¿qué quieres decir con eso? ¿O acabas de decir "teórico"?

— Faheem Mitha

2

¿Quizás estás mirando modelos generativos versus modelos discriminativos? Machine Learning se inclina hacia modelos y técnicas discriminatorias.

— Wayne

@FaheemMitha: 'atlético': sin teoría.

— naught101

32

En mi humilde opinión, no existen diferencias formales que distingan el aprendizaje automático y las estadísticas en el nivel fundamental de ajuste de los modelos a los datos. Puede haber diferencias culturales en la elección de modelos, los objetivos de ajustar modelos a los datos y, en cierta medida, ampliar las interpretaciones.

En los ejemplos típicos que puedo pensar siempre tenemos

una colección de modelos para para algún conjunto de índices , $M_i$ $i \in I$ $I$
y para cada un componente desconocido (los parámetros, pueden ser de dimensión infinita) del modelo . $i$ $\theta_i$ $M_i$

Montaje a los datos es casi siempre un problema de optimización matemática que consiste en la búsqueda de la mejor opción del componente desconocido hacer ajusta a los datos medidos por alguna función favorita. $M_i$ $\theta_i$ $M_i$

La selección entre los modelos es menos estándar, y hay una gama de técnicas disponibles. Si el objetivo del ajuste del modelo es puramente predictivo, la selección del modelo se realiza con el intento de obtener un buen rendimiento predictivo, mientras que si el objetivo principal es interpretar los modelos resultantes, se pueden seleccionar modelos más fácilmente interpretables sobre otros modelos, incluso si su Se espera que el poder predictivo sea peor. $M_i$

Lo que podría llamarse selección de modelo estadístico de la vieja escuela se basa en pruebas estadísticas tal vez combinadas con estrategias de selección por pasos, mientras que la selección del modelo de aprendizaje automático generalmente se centra en el error de generalización esperado, que a menudo se estima mediante validación cruzada. Sin embargo, los desarrollos actuales y la comprensión de la selección de modelos parecen converger hacia un terreno más común, véase, por ejemplo, Selección de modelos y Promedio de modelos .

Inferir causalidad de modelos

El quid de la cuestión es cómo podemos interpretar un modelo. Si los datos obtenidos provienen de un experimento cuidadosamente diseñado y el modelo es adecuado, es posible que podamos interpretar el efecto de un cambio de una variable en el modelo como un efecto causal, y si repetimos el experimento e intervenimos en esta variable en particular podemos esperar observar el efecto estimado. Sin embargo, si los datos son observacionales, no podemos esperar que los efectos estimados en el modelo correspondan a los efectos de intervención observables. Esto requerirá suposiciones adicionales independientemente de si el modelo es un "modelo de aprendizaje automático" o un "modelo estadístico clásico".

Puede ser que las personas capacitadas en el uso de modelos estadísticos clásicos con un enfoque en estimaciones de parámetros univariantes e interpretaciones del tamaño del efecto tengan la impresión de que una interpretación causal es más válida en este marco que en un marco de aprendizaje automático. Yo diría que no lo es.

El área de la inferencia causal en las estadísticas no elimina realmente el problema, pero sí hace explícitos los supuestos sobre los que las conclusiones causales descansan. Se les conoce como supuestos no comprobables . El artículo Inferencia causal en estadística: una descripción general de Judea Pearl es un buen artículo para leer. Una contribución importante de la inferencia causal es la recopilación de métodos para la estimación de los efectos causales bajo supuestos en los que en realidad hay factores de confusión no observados, lo que de otro modo es una preocupación importante. Consulte la Sección 3.3 en el documento de Pearl anterior. Se puede encontrar un ejemplo más avanzado en el documento Modelos estructurales marginales e inferencia causal en epidemiología .

Es una cuestión de tema si se cumplen los supuestos no comprobables. Precisamente no son verificables porque no podemos probarlos con los datos. Para justificar los supuestos se requieren otros argumentos.

Como un ejemplo de dónde se encuentra el aprendizaje automático y la inferencia causal, las ideas de la estimación de máxima verosimilitud dirigida, tal como se presentan en Aprendizaje dirigido de máxima verosimilitud por Mark van der Laan y Daniel Rubin, generalmente explotan las técnicas de aprendizaje automático para la estimación no paramétrica seguida de la "orientación" "hacia un parámetro de interés. Este último podría muy bien ser un parámetro con una interpretación causal. La idea en Super Learneres confiar en gran medida en las técnicas de aprendizaje automático para estimar los parámetros de interés. Es un punto importante de Mark van der Laan (comunicación personal) que los modelos estadísticos clásicos, simples e "interpretables" a menudo están equivocados, lo que lleva a estimadores sesgados y a una evaluación demasiado optimista de la incertidumbre de las estimaciones.

— NRH
fuente

Gracias por esta increíble respuesta ... Espero poder seguir todos los enlaces que proporcionó. Una pregunta persistente que tengo es sobre las técnicas. ¿Existe el aprendizaje automático análogo de algo así como variables instrumentales para datos de observación? Además, en el caso de la aleatorización de una variable, ¿cuál sería la alternativa de aprendizaje automático en relación con una simple prueba t de diferencias entre tratamientos? ¿Se necesita una técnica de respuesta de aprendizaje automático, qué ventaja tendría?

— d_a_c321

@dchandler, mi experiencia con variables instrumentales es muy limitada, pero nuevamente no veo ninguna razón formal para distinguir entre el aprendizaje automático y la metodología estadística para el ajuste del modelo , por lo tanto, podría incluir variables instrumentales si eso sirve para algo. Me parece que el tema más interesante relacionado con la causalidad es el efecto de la intervención. Esto es básicamente una cuestión de predicciones, pero quizás no bajo la distribución de los datos de observación.

— NRH

@dchandler, para la segunda pregunta, no lo plantearía así como una relación uno a uno de métodos en aprendizaje automático y métodos en estadística. Se calcula una prueba para responder la pregunta: ¿Hay evidencia en los datos para rechazar la hipótesis nula de que las medias son iguales? Podemos tener una larga discusión sobre si esto es interesante, e incluso si la prueba y el valor correspondiente proporcionan una buena respuesta, pero no creo que tenga sentido preguntar si existe una alternativa de aprendizaje automático.

t

$t$

t

$t$

p

$p$

— NRH

Sin embargo, después de hacer la intervención, ¿qué tipo de estadísticas emplearía el aprendizaje automático? Las estadísticas básicas del diseño experimental son generalmente fáciles para el cerebro (comparar medias a través de una prueba t). En econometría, con más suposiciones, puede intentar recuperar diferentes cuantiles o la distribución de los efectos del tratamiento. ¿Qué haría un análisis de aprendizaje automático más allá de comparar medios?

— d_a_c321

Lo que es absolutamente mortal es calcular algo, lo que no es tan fácil es justificar los supuestos requeridos. El enfoque TMLE de Mark se basa en la estimación de los tamaños del efecto (parámetros de interés, en general, tal vez efectos de intervención, tal vez efectos de observación) y proporciona intervalos de confianza honestos con supuestos de modelo menos restrictivos. El ajuste de modelo flexible con selección de modelo basada en validación cruzada se utiliza para evitar un modelo paramétrico restrictivo e incorrecto.

— NRH

10

Existe un conjunto (bastante limitado) de herramientas estadísticas para la llamada "inferencia causal". Estos están diseñados para evaluar realmente las relaciones causales y se ha demostrado que lo hacen correctamente. Excelente, pero no para los mansos de corazón (o el cerebro, para el caso).

Aparte de eso, en muchos casos, la capacidad de implicar causalidad es mucho más una consecuencia de su diseño que de las técnicas disponibles: si tiene control sobre "todas" las variables en su experimento, y ve que algo sucede cada vez que usted ( solo) cambiar una variable, es razonable llamar a lo que sucede como una 'consecuencia' de lo que cambia (desafortunadamente, en investigaciones reales, estos casos extremos rara vez ocurren). Otro razonamiento intuitivo pero sólido se basa en el tiempo: si cambia aleatoriamente (pero de manera controlada) una variable y otra cambia al día siguiente, la causalidad también está a la vuelta de la esquina.

Todo mi segundo párrafo esencialmente funciona independientemente de los métodos que use para encontrar qué variables cambiaron en qué condiciones, por lo que al menos en teoría no hay ninguna razón por la cual Machine Learning (ML) sería peor que los métodos basados en estadísticas.

Descargo de responsabilidad : siguiente párrafo muy subjetivo

Sin embargo, en mi experiencia, con demasiada frecuencia las técnicas de ML simplemente se sueltan en una gran cantidad de datos sin tener en cuenta de dónde provienen los datos o cómo se recopilaron (es decir, sin tener en cuenta el diseño). En esos casos, siempre se produce un resultado, pero será extremadamente difícil decir algo útil sobre la causalidad. esta voluntadsea exactamente igual cuando se ejecute algún método estadísticamente sólido sobre esos mismos datos. Sin embargo, las personas con una sólida formación en estadísticas están capacitadas para ser críticas con estos asuntos y, si todo va bien, evitarán estos escollos. Quizás es simplemente la mentalidad de los primeros (pero descuidados) adoptantes de técnicas de ML (generalmente no los desarrolladores de nuevas técnicas sino aquellos ansiosos por 'probar' algunos resultados con ellos en su campo de interés) lo que le ha dado a ML su mala reputación en este aspecto. cuenta. (nota que estoy no diciendo estadísticas es mejor que ML, o que todas las personas que hacen ML son descuidado y haciendo esas estadísticas no lo son)

— Nick Sabbe
fuente

Muchas gracias por la respuesta. Realmente me gusta su explicación de cómo la causalidad es más una consecuencia del diseño que las técnicas. Una pregunta que tengo sobre las técnicas es si hay algo así como variables instrumentales para el aprendizaje automático. Además, en el caso de la aleatorización de una variable, ¿cuál sería la alternativa de aprendizaje automático en relación con una simple prueba t de diferencias entre tratamientos?

— d_a_c321

9

Mi opinión es que los modelos utilizados en economía y otras ciencias sociales son útiles solo en la medida en que tienen poder predictivo en el mundo real: un modelo que no predice el mundo real es solo una matemática inteligente. Un dicho mío favorito para mis colegas es que "los datos son el rey".

Me parece que su pregunta plantea dos críticas a un enfoque predictivo. Primero, usted señala que los modelos producidos por las técnicas de aprendizaje automático pueden no ser interpretables . En segundo lugar, sugiere que los métodos utilizados por las ciencias sociales son más útiles para descubrir relaciones causales que el aprendizaje automático.

Para abordar el primer punto, ofrecería el siguiente contraargumento. La moda actual en el aprendizaje automático favorece los métodos (como SVM y NN) que no son del todo fáciles de entender para un laico. Esto no significa que todas las técnicas de aprendizaje automático tengan esta propiedad. Por ejemplo, el venerable árbol de decisión C4.5 todavía se usa ampliamente 20 años después de alcanzar la etapa final de su desarrollo, y produce como resultado una serie de reglas de clasificación. Yo diría que tales reglas se prestan mejor a la interpretación que conceptos como el odds ratio de registro, pero esa es una afirmación subjetiva. En cualquier caso, tales modelos son interpretables.

Al abordar el segundo punto, admitiré que si entrena un modelo de aprendizaje automático en un entorno y lo prueba en otro, es probable que falle, sin embargo, no hay razón para suponer a priori que esto no es también cierto para un modelo más convencional: si construye su modelo bajo un conjunto de supuestos y luego lo evalúa bajo otro, obtendrá malos resultados. Para cooptar una frase de la programación de computadoras: "basura, basura" se aplica igualmente bien tanto al aprendizaje automático como a los modelos diseñados.

— John Doucette
fuente

9

No. La inferencia causal es un área activa de investigación en el aprendizaje automático, por ejemplo, vea las actas de este taller y este . Sin embargo, quisiera señalar que incluso si la inferencia causal o la interpretación del modelo es su interés principal, sigue siendo una buena idea intentar un enfoque opaco puramente predictivo en paralelo, para que sepa si hay una penalización de rendimiento significativa al insistir en Un modelo interpretable.

— Dikran Marsupial
fuente

1

interoperable? Posiblemente te refieres a interpretable?

— Faheem Mitha

4

No repetiré los muy buenos puntos que ya se hicieron en otras respuestas, pero me gustaría agregar una perspectiva algo diferente. Lo que digo aquí es algo filosófico, no necesariamente extraído de la experiencia profesional, sino de una formación mixta en ciencias físicas, teoría de sistemas complejos y aprendizaje automático (y, debo admitirlo, en gran medida estadísticas de pregrado).

Una diferencia sustancial entre el aprendizaje automático y los enfoques estadísticos clásicos (que yo sepa) está en el conjunto de supuestos que se hacen. En la estadística clásica, muchos supuestos sobre los procesos y distribuciones subyacentes son fijos y tienden a darse por sentados. Sin embargo, en el aprendizaje automático, estos supuestos se eligen explícitamente para cada modelo, lo que da como resultado un conjunto mucho más amplio de posibilidades y quizás una mayor conciencia de los supuestos que se están haciendo.

Estamos viendo cada vez más que los sistemas en el mundo que nos rodea se comportan de manera compleja y no lineal, y que muchos procesos no obedecen a supuestos de normalidad, etc., típicamente presentes en las estadísticas clásicas. Yo diría que, debido a la flexibilidad y variedad de supuestos del modelo, los enfoques de aprendizaje automático a menudo conducirán a un modelo más robusto en tales casos.

Existen fuertes suposiciones del modelo incorporadas en frases como "magnitud del efecto", "relación causal" y "grado en que una variable afecta el resultado". En un sistema complejo (como una economía), estos supuestos solo serán válidos dentro de una determinada ventana de posibles estados del sistema. Con algunos procesos y observables, esta ventana puede ser grande y conducir a modelos relativamente robustos. Con otros puede ser pequeño o incluso vacío. Quizás el mayor peligro es el término medio: puede parecer que un modelo está funcionando, pero cuando el sistema cambia, falla de manera repentina y sorprendente.

El aprendizaje automático no es la panacea. Más bien, lo veo como una búsqueda de nuevas formas de obtener significado a partir de nuestras observaciones, buscando nuevos paradigmas que son necesarios si queremos lidiar efectivamente con la complejidad que estamos comenzando a percibir en el mundo que nos rodea.

— drevicko
fuente