En mi humilde opinión, no existen diferencias formales que distingan el aprendizaje automático y las estadísticas en el nivel fundamental de ajuste de los modelos a los datos. Puede haber diferencias culturales en la elección de modelos, los objetivos de ajustar modelos a los datos y, en cierta medida, ampliar las interpretaciones.
En los ejemplos típicos que puedo pensar siempre tenemos
- una colección de modelos para para algún conjunto de índices ,Mii∈II
- y para cada un componente desconocido (los parámetros, pueden ser de dimensión infinita) del modelo .iθiMi
Montaje a los datos es casi siempre un problema de optimización matemática que consiste en la búsqueda de la mejor opción del componente desconocido hacer ajusta a los datos medidos por alguna función favorita.MiθiMi
La selección entre los modelos es menos estándar, y hay una gama de técnicas disponibles. Si el objetivo del ajuste del modelo es puramente predictivo, la selección del modelo se realiza con el intento de obtener un buen rendimiento predictivo, mientras que si el objetivo principal es interpretar los modelos resultantes, se pueden seleccionar modelos más fácilmente interpretables sobre otros modelos, incluso si su Se espera que el poder predictivo sea peor.Mi
Lo que podría llamarse selección de modelo estadístico de la vieja escuela se basa en pruebas estadísticas tal vez combinadas con estrategias de selección por pasos, mientras que la selección del modelo de aprendizaje automático generalmente se centra en el error de generalización esperado, que a menudo se estima mediante validación cruzada. Sin embargo, los desarrollos actuales y la comprensión de la selección de modelos parecen converger hacia un terreno más común, véase, por ejemplo, Selección de modelos y Promedio de modelos .
Inferir causalidad de modelos
El quid de la cuestión es cómo podemos interpretar un modelo. Si los datos obtenidos provienen de un experimento cuidadosamente diseñado y el modelo es adecuado, es posible que podamos interpretar el efecto de un cambio de una variable en el modelo como un efecto causal, y si repetimos el experimento e intervenimos en esta variable en particular podemos esperar observar el efecto estimado. Sin embargo, si los datos son observacionales, no podemos esperar que los efectos estimados en el modelo correspondan a los efectos de intervención observables. Esto requerirá suposiciones adicionales independientemente de si el modelo es un "modelo de aprendizaje automático" o un "modelo estadístico clásico".
Puede ser que las personas capacitadas en el uso de modelos estadísticos clásicos con un enfoque en estimaciones de parámetros univariantes e interpretaciones del tamaño del efecto tengan la impresión de que una interpretación causal es más válida en este marco que en un marco de aprendizaje automático. Yo diría que no lo es.
El área de la inferencia causal en las estadísticas no elimina realmente el problema, pero sí hace explícitos los supuestos sobre los que las conclusiones causales descansan. Se les conoce como supuestos no comprobables . El artículo Inferencia causal en estadística: una descripción general de Judea Pearl es un buen artículo para leer. Una contribución importante de la inferencia causal es la recopilación de métodos para la estimación de los efectos causales bajo supuestos en los que en realidad hay factores de confusión no observados, lo que de otro modo es una preocupación importante. Consulte la Sección 3.3 en el documento de Pearl anterior. Se puede encontrar un ejemplo más avanzado en el documento Modelos estructurales marginales e inferencia causal en epidemiología .
Es una cuestión de tema si se cumplen los supuestos no comprobables. Precisamente no son verificables porque no podemos probarlos con los datos. Para justificar los supuestos se requieren otros argumentos.
Como un ejemplo de dónde se encuentra el aprendizaje automático y la inferencia causal, las ideas de la estimación de máxima verosimilitud dirigida, tal como se presentan en Aprendizaje dirigido de máxima verosimilitud por Mark van der Laan y Daniel Rubin, generalmente explotan las técnicas de aprendizaje automático para la estimación no paramétrica seguida de la "orientación" "hacia un parámetro de interés. Este último podría muy bien ser un parámetro con una interpretación causal. La idea en Super Learneres confiar en gran medida en las técnicas de aprendizaje automático para estimar los parámetros de interés. Es un punto importante de Mark van der Laan (comunicación personal) que los modelos estadísticos clásicos, simples e "interpretables" a menudo están equivocados, lo que lleva a estimadores sesgados y a una evaluación demasiado optimista de la incertidumbre de las estimaciones.