Mi pregunta proviene del siguiente hecho. He estado leyendo publicaciones, blogs, conferencias, así como libros sobre aprendizaje automático. Mi impresión es que los profesionales del aprendizaje automático parecen ser indiferentes a muchas cosas que les interesan a los estadísticos / econométricos. En particular, los profesionales del aprendizaje automático enfatizan la precisión de la predicción sobre la inferencia.
Uno de esos ejemplos ocurrió cuando estaba tomando el aprendizaje automático de Andrew Ng en Coursera. Cuando habla del modelo lineal simple, no menciona nada acerca de la propiedad AZUL de los estimadores, ni de cómo la heterocedasticidad "invalidaría" el intervalo de confianza. En cambio, se enfoca en la implementación de descenso de gradiente y el concepto de validación cruzada / curva ROC. Estos temas no fueron cubiertos en mis clases de econometría / estadística.
Otro ejemplo ocurrió cuando participé en las competencias de Kaggle. Estaba leyendo el código y los pensamientos de otras personas. Una gran parte de los participantes simplemente arroja todo a SVM / bosque aleatorio / XGBoost.
Otro ejemplo más es acerca de la selección de modelos por pasos. Esta técnica es ampliamente utilizada, al menos en línea y en Kaggle. Muchos libros de texto clásicos de aprendizaje automático también lo cubren, como Introducción al aprendizaje estadístico. Sin embargo, de acuerdo con esta respuesta (que es bastante convincente), la selección de modelos por pasos enfrenta muchos problemas, especialmente cuando se trata de "descubrir el modelo verdadero". Parece ser que solo hay dos posibilidades: o los profesionales del aprendizaje automático no conocen el problema paso a paso, o lo saben pero no les importa.
Asi que aqui están mis preguntas:
- ¿Es cierto que (en general) los profesionales del aprendizaje automático se centran en la predicción y, por lo tanto, no les importan muchas cosas que les interesan a los estadísticos / economistas?
- Si es cierto, ¿cuál es la razón detrás de esto? ¿Es porque la inferencia es más difícil en algún sentido?
- Hay toneladas de materiales sobre aprendizaje automático (o predicción) en línea. Sin embargo, si estoy interesado en aprender a hacer inferencia, ¿cuáles son algunos recursos en línea que puedo consultar?
Actualización : Acabo de darme cuenta de que la palabra "inferencia" podría significar muchas cosas. Lo que quise decir con "inferencia" se refiere a preguntas como
Dado que "todos los modelos están equivocados", ¿qué tan "equivocado" está nuestro modelo del modelo verdadero?
Dada la información de una muestra, ¿qué podemos decir sobre la población y qué tan seguros podemos decir eso?
Debido a mi conocimiento estadístico muy limitado, ni siquiera estoy seguro de si esas preguntas caen en el ámbito de las estadísticas o no. Pero esos son los tipos de preguntas que a los profesionales del aprendizaje automático no parecen importarles. ¿Quizás a los estadísticos tampoco les importa? No lo sé.
fortunes
paquete en CRAN. Esto solo para decir que no está solo con la Impresión, que el rigor matemático no siempre es la principal preocupación en el aprendizaje automático.