Lamentablemente, la diferencia entre estas áreas es en gran medida donde se enseñan: las estadísticas se basan en departamentos de matemáticas, ai, aprendizaje automático en departamentos de informática y la minería de datos es más aplicada (utilizada por departamentos comerciales o de marketing, desarrollada por compañías de software) .
En primer lugar, la IA (aunque podría significar cualquier sistema inteligente) ha significado tradicionalmente enfoques basados en la lógica (por ejemplo, sistemas expertos) en lugar de una estimación estadística. La estadística, basada en departamentos de matemáticas, ha tenido una muy buena comprensión teórica, junto con una sólida experiencia aplicada en ciencias experimentales, donde existe un modelo científico claro, y se necesitan estadísticas para tratar con los limitados datos experimentales disponibles. El enfoque a menudo ha sido exprimir la máxima información de conjuntos de datos muy pequeños. Además, existe un sesgo hacia las pruebas matemáticas: no será publicado a menos que pueda probar cosas sobre su enfoque. Esto ha tendido a significar que las estadísticas han quedado rezagadas en el uso de computadoras para automatizar el análisis. De nuevo, La falta de conocimiento de programación ha impedido que los estadísticos trabajen en problemas a gran escala donde los problemas de computación se vuelven importantes (considere GPU y sistemas distribuidos como hadoop). Creo que áreas como la bioinformática ahora han movido las estadísticas más en esta dirección. Finalmente, diría que los estadísticos son un grupo más escéptico: no afirman que descubras el conocimiento con las estadísticas, sino que un científico plantea una hipótesis, y el trabajo del estadístico es verificar que la hipótesis esté respaldada por los datos. El aprendizaje automático se enseña en los departamentos de CS, que desafortunadamente no enseñan las matemáticas apropiadas: el cálculo multivariable, la probabilidad, las estadísticas y la optimización no son comunes ... uno tiene conceptos vagos 'glamorosos' como aprender de ejemplos ...Elementos de aprendizaje estadístico página 30. Esto tiende a significar que hay muy poca comprensión teórica y una explosión de algoritmos, ya que los investigadores siempre pueden encontrar algunos conjuntos de datos en los que su algoritmo sea mejor. Así que hay grandes fases de exageración a medida que los investigadores de ML persiguen el siguiente gran avance: redes neuronales, aprendizaje profundo, etc. Desafortunadamente, hay mucho más dinero en los departamentos de CS (piense en Google, Microsoft, junto con el "aprendizaje" más comercializable). los estadísticos más escépticos son ignorados. Finalmente, existe una inclinación empirista: básicamente, existe una creencia subyacente de que si arroja suficientes datos al algoritmo 'aprenderá' las predicciones correctas. Si bien estoy predispuesto contra ML, hay una idea fundamental en ML que los estadísticos han ignorado: que las computadoras pueden revolucionar la aplicación de estadísticas.
Hay dos formas: a) automatizar la aplicación de pruebas y modelos estándar. Por ejemplo, ejecutar una batería de modelos (regresión lineal, bosques aleatorios, etc. probar diferentes combinaciones de entradas, configuraciones de parámetros, etc.). Esto realmente no ha sucedido, aunque sospecho que los competidores en kaggle desarrollan sus propias técnicas de automatización. b) aplicar modelos estadísticos estándar a grandes datos: piense, por ejemplo, en Google Translate, sistemas de recomendación, etc. (nadie afirma que, por ejemplo, las personas traducen o recomiendan de esa manera ... pero es una herramienta útil). Los modelos estadísticos subyacentes son sencillos, pero existen enormes problemas computacionales al aplicar estos métodos a miles de millones de puntos de datos.
La minería de datos es la culminación de esta filosofía ... desarrollar formas automatizadas de extraer conocimiento de los datos. Sin embargo, tiene un enfoque más práctico: esencialmente se aplica a los datos de comportamiento, donde no existe una teoría científica general (marketing, detección de fraude, spam, etc.) y el objetivo es automatizar el análisis de grandes volúmenes de datos: sin duda El equipo de estadísticos podría producir mejores análisis con el tiempo suficiente, pero es más rentable usar una computadora. Además, como explica D. Hand, es el análisis de datos secundarios: datos que se registran de todos modos en lugar de datos que se han recopilado explícitamente para responder una pregunta científica en un diseño experimental sólido. Estadísticas de minería de datos y más, D Hand
Entonces, resumiría que la IA tradicional se basa en la lógica más que en la estadística, el aprendizaje automático es estadística sin teoría y las estadísticas son 'estadísticas sin computadoras', y la minería de datos es el desarrollo de herramientas automatizadas para el análisis estadístico con mínima intervención del usuario.