Con respecto a la predicción, las estadísticas y las ciencias del aprendizaje automático comenzaron a resolver principalmente el mismo problema desde diferentes perspectivas.
Básicamente, la estadística supone que los datos fueron producidos por un modelo estocástico dado. Entonces, desde una perspectiva estadística, se asume un modelo y, dado varios supuestos, se tratan los errores y se infieren los parámetros del modelo y otras preguntas.
El aprendizaje automático proviene de una perspectiva informática. Los modelos son algorítmicos y generalmente se requieren muy pocas suposiciones con respecto a los datos. Trabajamos con hipótesis de espacio y sesgo de aprendizaje. La mejor exposición del aprendizaje automático que encontré está contenida en el libro de Tom Mitchell llamado Machine Learning .
Para una idea más exhaustiva y completa sobre las dos culturas, puede leer el documento de Leo Breiman llamado Modelización estadística: las dos culturas
Sin embargo, lo que debe agregarse es que incluso si las dos ciencias comenzaron con perspectivas diferentes, ahora ambas comparten una buena cantidad de conocimientos y técnicas comunes. Por qué, porque los problemas eran los mismos, pero las herramientas eran diferentes. Así que ahora el aprendizaje automático se trata principalmente desde una perspectiva estadística (consulte el libro de Hastie, Tibshirani, Friedman Los elementos del aprendizaje estadístico desde el punto de vista del aprendizaje automático con un tratamiento estadístico, y quizás el libro de Kevin P. Murphy Machine Learning: A perspectiva probabilística , por nombrar solo algunos de los mejores libros disponibles en la actualidad).
Incluso la historia del desarrollo de este campo muestra los beneficios de esta fusión de perspectivas. Describiré dos eventos.
El primero es la creación de árboles CART, que fue creado por Breiman con una sólida base estadística. Aproximadamente al mismo tiempo, Quinlan desarrolló ID3, C45, See5, y así sucesivamente, un conjunto de árbol de decisiones con más experiencia en informática. Ahora, tanto estas familias de árboles como los métodos de conjunto como el embolsado y los bosques se vuelven bastante similares.
La segunda historia es sobre impulsar. Inicialmente fueron desarrollados por Freund y Shapire cuando descubrieron AdaBoost. Las opciones para diseñar AdaBoost se realizaron principalmente desde una perspectiva computacional. Incluso los autores no entendieron bien por qué funciona. Solo 5 años después, Breiman (¡otra vez!) Describió el modelo adaboost desde una perspectiva estadística y dio una explicación de por qué funciona. Desde entonces, varios científicos eminentes, con ambos tipos de antecedentes, desarrollaron aún más esas ideas que condujeron a una gran cantidad de algoritmos de refuerzo, como el aumento logístico, el aumento de gradiente, el aumento suave, etc. Ahora es difícil pensar en impulsar sin un fondo estadístico sólido.
Modelos lineales generalizados es un desarrollo estadístico. Sin embargo, los nuevos tratamientos bayesianos ponen este algoritmo también en el patio de juegos de aprendizaje automático. Así que creo que ambas afirmaciones podrían ser correctas, ya que la interpretación y el tratamiento de cómo funciona podrían ser diferentes.