¿Cuál es la diferencia entre minería de datos, estadísticas, aprendizaje automático e inteligencia artificial?

208

¿Sería exacto decir que son 4 campos que intentan resolver problemas muy similares pero con enfoques diferentes? ¿Qué tienen exactamente en común y en qué difieren? Si hay algún tipo de jerarquía entre ellos, ¿cuál sería?

Se han hecho preguntas similares anteriormente, pero aún no lo entiendo:

machine-learning data-mining

— Olivier Lalonde
fuente

109

Hay una superposición considerable entre estos, pero se pueden hacer algunas distinciones. Necesariamente, tendré que simplificar en exceso algunas cosas o dar poca importancia a otras, pero haré todo lo posible para dar una idea de estas áreas.

En primer lugar, la inteligencia artificial es bastante distinta del resto. AI es el estudio de cómo crear agentes inteligentes. En la práctica, es cómo programar una computadora para que se comporte y realice una tarea como lo haría un agente inteligente (por ejemplo, una persona). Esto no tiene que implicar el aprendizaje o la inducción, solo puede ser una forma de 'construir una mejor trampa para ratones'. Por ejemplo, las aplicaciones de IA han incluido programas para monitorear y controlar procesos en curso (por ejemplo, aumentar el aspecto A si parece demasiado bajo). Tenga en cuenta que AI puede incluir casi cualquier cosa que haga una máquina, siempre que no lo haga 'estúpidamente'.

Sin embargo, en la práctica, la mayoría de las tareas que requieren inteligencia requieren la capacidad de inducir nuevos conocimientos a partir de las experiencias. Por lo tanto, un área grande dentro de AI es el aprendizaje automático . Se dice que un programa de computadora aprende alguna tarea de la experiencia si su desempeño en la tarea mejora con la experiencia, de acuerdo con alguna medida de desempeño. El aprendizaje automático implica el estudio de algoritmos que pueden extraer información automáticamente (es decir, sin orientación humana en línea). Es cierto que algunos de estos procedimientos incluyen ideas derivadas directamente de estadísticas clásicas o inspiradas en ellas, pero no tienenser. De manera similar a la IA, el aprendizaje automático es muy amplio y puede incluir casi todo, siempre que tenga algún componente inductivo. Un ejemplo de algoritmo de aprendizaje automático podría ser un filtro de Kalman.

La minería de datos es un área que ha tomado gran parte de su inspiración y técnicas del aprendizaje automático (y algunas, también, de las estadísticas), pero tiene diferentes fines . La minería de datos es realizada por una persona , en una situación específica, en un conjunto de datos en particular, con un objetivo en mente. Por lo general, esta persona quiere aprovechar el poder de las diversas técnicas de reconocimiento de patrones que se han desarrollado en el aprendizaje automático. Muy a menudo, el conjunto de datos es masivo , complicado y / o puede tener problemas especiales(como que hay más variables que observaciones). Por lo general, el objetivo es descubrir / generar algunas ideas preliminares en un área donde realmente había poco conocimiento de antemano, o ser capaz de predecir con precisión las futuras observaciones. Además, los procedimientos de minería de datos pueden ser 'no supervisados' (no sabemos la respuesta - descubrimiento) o 'supervisados' (sabemos la respuesta - predicción). Tenga en cuenta que el objetivo generalmente no es desarrollar una comprensión más sofisticada del proceso subyacente de generación de datos. Las técnicas comunes de minería de datos incluirían análisis de conglomerados, árboles de clasificación y regresión y redes neuronales.

Supongo que no necesito decir mucho para explicar qué estadísticas hay en este sitio, pero quizás pueda decir algunas cosas. La estadística clásica (aquí quiero decir tanto frecuentista como bayesiana) es un subtema dentro de las matemáticas. Lo considero en gran medida la intersección de lo que sabemos sobre probabilidad y lo que sabemos sobre optimización. Aunque la estadística matemática puede estudiarse simplemente como un objeto de investigación platónico, se entiende principalmente como más práctica y aplicada en carácter que otras áreas matemáticas más raras. Como tal (y notablemente en contraste con la minería de datos anterior), se emplea principalmente para comprender mejor algún proceso particular de generación de datos. Por lo tanto, generalmente comienza con un modelo formalmente especificado, y de esto se derivan procedimientos para extraer con precisión ese modelo de instancias ruidosas (es decir, estimación, optimizando alguna función de pérdida) y poder distinguirlo de otras posibilidades (es decir, inferencias basadas en propiedades conocidas de distribuciones de muestreo). La técnica estadística prototípica es la regresión.

— gung
fuente

1

Estoy de acuerdo con la mayor parte de la publicación, pero diría que la IA la mayor parte del tiempo no intenta crear agentes inteligentes (¿qué es la inteligencia, de todos modos?), Sino agentes racionales. Por racional se entiende "óptimo dado el conocimiento disponible sobre el mundo". Aunque es cierto que el objetivo final es algo así como un solucionador de problemas generales.

— kutschkem

3

lo siento, todavía no entiendo la diferencia entre la minería de datos y el aprendizaje automático. por lo que veo, minería de datos = aprendizaje no supervisado del aprendizaje automático. ¿No está el aprendizaje automático sin supervisión sobre el descubrimiento de nuevas ideas?

— dtc

Un usuario anónimo sugirió esta publicación de blog para una tabla que desglosa las diferencias entre la minería de datos y el aprendizaje automático sobre una base de parámetros.

— gung

1

Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.¿Es seguro decir que una red neuronal es un ejemplo de una herramienta de aprendizaje automático utilizada en la minería de datos, en comparación con un análisis de clúster que es un algoritmo no diseñado para el aprendizaje automático utilizado para la minería de datos?

— t0mgs

En realidad, todo es bastante confuso, @ TomGranot-Scalosub. Yo diría que las redes neuronales son definitivamente ML, y ciertamente el análisis de conglomerados y CART son estudiados por investigadores de ML. Trato de hacer las ideas algo más claras y distintas, pero en realidad no hay una línea clara entre estas categorías.

— gung

41

Muchas de las otras respuestas han cubierto los puntos principales, pero usted solicitó una jerarquía si existe y la forma en que la veo, aunque cada una de ellas es una disciplina en sí misma, hay una jerarquía que nadie parece haber mencionado todavía, ya que cada una se basa en El anterior.

Las estadísticas son solo números y cuantifican los datos. Existen muchas herramientas para encontrar propiedades relevantes de los datos, pero esto está bastante cerca de las matemáticas puras.

La minería de datos se trata de usar estadísticas , así como otros métodos de programación para encontrar patrones ocultos en los datos para que pueda explicar algún fenómeno. La minería de datos crea una intuición sobre lo que realmente está sucediendo en algunos datos y todavía es poco más hacia las matemáticas que la programación, pero usa ambos.

Machine Learning utiliza técnicas de minería de datos y otros algoritmos de aprendizaje para construir modelos de lo que está sucediendo detrás de algunos datos para que pueda predecir resultados futuros. La matemática es la base de muchos de los algoritmos, pero esto es más hacia la programación.

La Inteligencia Artificial utiliza modelos construidos por Machine Learning y otras formas de razonar sobre el mundo y dar lugar a un comportamiento inteligente , ya sea jugar un juego o conducir un robot / automóvil. La Inteligencia Artificial tiene un objetivo que alcanzar al predecir cómo las acciones afectarán el modelo del mundo y elige las acciones que mejor logren ese objetivo. Muy basado en la programación.

En breve

Estadísticas cuantifica números
La minería de datos explica patrones
Machine Learning predice con modelos
La inteligencia artificial se comporta y razona

Ahora que se dice esto, habrá algunos problemas de IA que caen solo en la IA y de manera similar para los otros campos, pero la mayoría de los problemas interesantes hoy en día (autos autónomos, por ejemplo) podrían llamarse fácil y correctamente. Espero que esto aclare la relación entre ellos por la que preguntaste.

— 3 revoluciones
fuente

¿Alguna vez has usado WEKA o RapidMiner? Por ejemplo, EM está dentro de la minería de datos y aplica un modelo. Aparte de eso, revisa la definición dada por Mariana Soffer y compárala con tu respuesta. Hace un par de años leí a Bishop y Russell / Norvig, pero hasta donde recuerdo la definición. por mariana más suave es más adecuado. Por cierto, la minería de datos es ("solo") el paso principal previo al descubrimiento del conocimiento. la minería de datos solo está tomando datos, y luego información, cuando se usa un algoritmo con parámetros adecuados. La minería de datos no puede explicar los patrones.

— mnemónico

No, @mnemonic, esta definición de la IA es mucho más acorde con Russell y Norvig que el de mariana, que está bastante anticuado

— nealmcb

2

Creo que la descripción de las estadísticas es pobre; cuantificar los números es la estadística que informa el departamento nacional de estadística, pero esto no es lo mismo que la ciencia estadística que crea modelos para los datos, estima sus parámetros y hace inferencia. Además, la relación entre la minería de datos y el aprendizaje automático está al revés; la ciencia de datos utiliza técnicas de aprendizaje automático, no al revés. Vea la respuesta de Ken van Haren también.

— Richard Hardy

25

Las estadísticas se refieren a modelos probabilísticos, específicamente a la inferencia en estos modelos utilizando datos.
El aprendizaje automático se refiere a la predicción de un resultado particular dados algunos datos. Casi cualquier método razonable de aprendizaje automático puede formularse como un modelo probabilístico formal, por lo que, en este sentido, el aprendizaje automático es muy similar a la estadística, pero difiere en que generalmente no le importan las estimaciones de parámetros (solo predicción) y se enfoca en eficiencia computacional y grandes conjuntos de datos.
Data Mining es (según tengo entendido) el aprendizaje automático aplicado. Se centra más en los aspectos prácticos de la implementación de algoritmos de aprendizaje automático en grandes conjuntos de datos. Es muy similar al aprendizaje automático.
La inteligencia artificial es cualquier cosa relacionada con la inteligencia (alguna definición arbitraria de) en las computadoras. Entonces, incluye muchas cosas.

En general, los modelos probabilísticos (y, por lo tanto, las estadísticas) han demostrado ser la forma más efectiva de estructurar formalmente el conocimiento y la comprensión en una máquina, hasta el punto de que los otros tres (AI, ML y DM) son hoy en su mayoría subcampos de estadística. No es la primera disciplina en convertirse en un brazo oculto de las estadísticas ... (Economía, psicología, bioinformática, etc.)

— Ken Van Haren
fuente

55

@Ken: sería incorrecto describir la psicología económica o la inteligencia artificial como brazos sombra de las estadísticas, incluso si las estadísticas se usan mucho dentro de cada una para analizar muchos de los problemas en los que estos campos están interesados. No querría sugerir que la medicina es un brazo sombra de estadísticas, incluso si la mayoría de las conclusiones médicas dependen en gran medida del análisis de datos.

— mpacer

@Ken: esta es una gran respuesta, pero podría describir con más detalle en qué consisten las otras cosas en la IA. Por ejemplo, históricamente la IA también ha incluido grandes cantidades de análisis de modelos no probabilísticos (por ejemplo, sistemas de producción, autómatas celulares, etc., por ejemplo, ver Newell y Simon 1972). Por supuesto, todos estos modelos son casos limitantes de algún modelo probabilístico, pero no se analizaron de esa manera hasta mucho más tarde.

— mpacer

44

La minería de datos va más allá del aprendizaje automático, ya que en realidad implica cómo se almacenan e indexan los datos para que los algoritmos sean mucho más rápidos. Se puede caracterizar por tomar métodos principalmente de IA, ML y estadísticas y combinarlos con técnicas de diseño y gestión de datos eficientes e inteligentes. Cuando no implica la gestión de datos, a menudo puede llamarlo "aprendizaje automático". Sin embargo, hay algunas tareas, en particular "sin supervisión", donde no hay "aprendizaje" involucrado, pero tampoco hay gestión de datos, estos todavía se llaman "minería de datos" (agrupación, detección de valores atípicos).

— Anony-Mousse

21

Podemos decir que todos están relacionados, pero son cosas diferentes. Aunque puede tener cosas en común entre ellas, como las estadísticas y la minería de datos, utiliza métodos de agrupación.
Déjame intentar definir brevemente cada uno:

La estadística es una disciplina muy antigua basada principalmente en métodos matemáticos clásicos, que se puede utilizar con el mismo propósito que la minería de datos que a veces es clasificar y agrupar cosas.
La minería de datos consiste en construir modelos para detectar los patrones que nos permiten clasificar o predecir situaciones dada una cantidad de hechos o factores.
La inteligencia artificial (ver Marvin Minsky *) es la disciplina que trata de emular cómo funciona el cerebro con métodos de programación, por ejemplo, la construcción de un programa que juega al ajedrez.
El aprendizaje automático es la tarea de construir conocimiento y almacenarlo de alguna forma en la computadora; esa forma puede ser de modelos matemáticos, algoritmos, etc. Cualquier cosa que pueda ayudar a detectar patrones.

— mariana más suave
fuente

2

No, la mayoría de la IA moderna no sigue ese enfoque temprano de "emular el cerebro". Se centra en la creación de "agentes racionales" que actúan en un entorno para maximizar la utilidad y está más estrechamente relacionado con el aprendizaje automático. Ver el libro de Russell y Norvig.

— nealmcb 01 de

1

No veo la diferencia entre ML y minería de datos en su definición

— Martin Thoma

16

Estoy más familiarizado con el aprendizaje automático (eje de minería de datos), así que me concentraré en eso:

El aprendizaje automático tiende a interesarse en la inferencia en situaciones no estándar, por ejemplo, datos no iid, aprendizaje activo, aprendizaje semi-supervisado, aprendizaje con datos estructurados (por ejemplo, cadenas o gráficos). ML también tiende a interesarse en los límites teóricos sobre lo que se puede aprender, que a menudo forma la base de los algoritmos utilizados (por ejemplo, la máquina de vectores de soporte). ML tiende a ser de naturaleza bayesiana.

La minería de datos está interesada en encontrar patrones en datos que aún no conoce. No estoy seguro de que sea significativamente diferente del análisis exploratorio de datos en estadísticas, mientras que en el aprendizaje automático generalmente hay un problema mejor definido para resolver.

ML tiende a estar más interesado en conjuntos de datos pequeños donde el problema es el ajuste excesivo y la minería de datos tiende a interesarse en conjuntos de datos a gran escala donde el problema está relacionado con la cantidad de datos.

Las estadísticas y el aprendizaje automático proporcionan muchas de las herramientas básicas utilizadas por los mineros de datos.

— Dikran Marsupial
fuente

No estoy de acuerdo con "ML tiende a estar más interesado en pequeños conjuntos de datos".

— Martin Thoma

la minería de datos se vuelve mucho más difícil con pequeños conjuntos de datos, ya que aumenta la posibilidad de encontrar una asociación espuria (y aumenta la dificultad de detectarla). Con pequeños conjuntos de datos, las inferencias que hacen la menor cantidad posible de opciones tienden a ser mucho más seguras.

— Dikran Marsupial

13

Aquí está mi opinión al respecto. Comencemos con las dos categorías muy amplias:

cualquier cosa que incluso pretenda ser inteligente es inteligencia artificial (incluidos ML y DM).
todo lo que resume los datos son estadísticas , aunque generalmente solo aplica esto a métodos que prestan atención a la validez de los resultados (a menudo utilizados en ML y DM)

Tanto ML como DM son generalmente ambos, AI y estadísticas, ya que generalmente involucran métodos básicos de ambos. Estas son algunas de las diferencias:

en el aprendizaje automático , tiene un objetivo bien definido (generalmente predicción )
en la minería de datos , esencialmente tienes el objetivo " algo que no sabía antes "

Además, la minería de datos generalmente implica mucha más administración de datos , es decir, cómo organizar los datos en estructuras de índices y bases de datos eficientes.

Desafortunadamente, no son tan fáciles de separar. Por ejemplo, existe un "aprendizaje no supervisado", que a menudo está más estrechamente relacionado con DM que con ML, ya que no puede optimizar hacia la meta. Por otro lado, los métodos de DM son difíciles de evaluar (¿cómo calificas algo que no sabes?) Y a menudo se evalúan en las mismas tareas que el aprendizaje automático, al omitir cierta información. Sin embargo, esto generalmente hará que parezca que funcionan peor que los métodos de aprendizaje automático que pueden optimizar hacia el objetivo de evaluación real.

Además, a menudo se usan en combinaciones. Por ejemplo, se usa un método de minería de datos (por ejemplo, agrupamiento o detección de valores atípicos no supervisados) para preprocesar los datos, luego el método de aprendizaje automático se aplica a los datos preprocesados para capacitar a mejores clasificadores.

El aprendizaje automático suele ser mucho más fácil de evaluar: hay un objetivo como la puntuación o la predicción de clase. Puede calcular la precisión y la recuperación. En la minería de datos, la mayoría de las evaluaciones se realizan omitiendo cierta información (como las etiquetas de clase) y luego probando si su método descubrió la misma estructura. Esto es ingenuo en el sentido, ya que supone que las etiquetas de clase codifican la estructura de los datos por completo; en realidad castigas el algoritmo de minería de datos que descubre algo nuevo en tus datos. Otra forma de evaluarlo indirectamente es cómo la estructura descubierta mejora el rendimiento del algoritmo de ML real (por ejemplo, al particionar datos o eliminar valores atípicos). Aún así, esta evaluación se basa en la reproducción de los resultados existentes, que en realidad no es el objetivo de la minería de datos ...

— Anony-Mousse
fuente

1

Tu respuesta es muy perspicaz. Aprecio especialmente el último párrafo, sobre las diferencias en la evaluación del desempeño de ML y la evaluación del desempeño de DM.

— justis

8

Añadiría algunas observaciones a lo que se ha dicho ...

AI es un término muy amplio para todo lo que tiene que ver con máquinas que realizan actividades de razonamiento o de apariencia sensible, que van desde planificar una tarea o cooperar con otras entidades, hasta aprender a operar las extremidades para caminar. Una definición concisa es que la IA está relacionada con la computadora y aún no sabemos cómo hacerlo bien. (Una vez que sabemos cómo hacerlo bien, generalmente recibe su propio nombre y ya no es "AI").

Tengo la impresión, al contrario de Wikipedia, de que el reconocimiento de patrones y el aprendizaje automático son el mismo campo, pero el primero lo practican personas de informática, mientras que el segundo lo practican estadísticos e ingenieros. (Muchos campos técnicos son descubiertos una y otra vez por diferentes subgrupos, que a menudo aportan su propia jerga y mentalidad a la mesa).

La minería de datos, en mi opinión de todos modos, toma Machine Learning / Pattern Recognition (las técnicas que funcionan con los datos) y los envuelve en bases de datos, infraestructura y técnicas de validación / limpieza de datos.

— Wayne
fuente

66

El aprendizaje automático y el reconocimiento de patrones no son lo mismo, el aprendizaje automático también está interesado en cosas como la regresión y la inferencia causal, etc. El reconocimiento de patrones es solo uno de los problemas de interés en el aprendizaje automático. La mayoría de las personas de aprendizaje automático que conozco están en departamentos de informática.

— Dikran Marsupial

2

@Dikran De acuerdo, pero ML y PR a menudo tienen un alias y se presentan bajo temas similares de análisis de datos. Mi libro preferido es el reconocimiento de patrones y el aprendizaje automático , de Christophe M Bishop. Aquí hay una revisión de John MainDonald en JSS, j.mp/etg3w1 .

— chl

También siento que la palabra "aprendizaje automático" es mucho más común que "reconocimiento de patrones" en el mundo CS.

— bayerj

También sienta aquí que ML es más un término CS.

— Karl Morrison

3

Lamentablemente, la diferencia entre estas áreas es en gran medida donde se enseñan: las estadísticas se basan en departamentos de matemáticas, ai, aprendizaje automático en departamentos de informática y la minería de datos es más aplicada (utilizada por departamentos comerciales o de marketing, desarrollada por compañías de software) .

En primer lugar, la IA (aunque podría significar cualquier sistema inteligente) ha significado tradicionalmente enfoques basados en la lógica (por ejemplo, sistemas expertos) en lugar de una estimación estadística. La estadística, basada en departamentos de matemáticas, ha tenido una muy buena comprensión teórica, junto con una sólida experiencia aplicada en ciencias experimentales, donde existe un modelo científico claro, y se necesitan estadísticas para tratar con los limitados datos experimentales disponibles. El enfoque a menudo ha sido exprimir la máxima información de conjuntos de datos muy pequeños. Además, existe un sesgo hacia las pruebas matemáticas: no será publicado a menos que pueda probar cosas sobre su enfoque. Esto ha tendido a significar que las estadísticas han quedado rezagadas en el uso de computadoras para automatizar el análisis. De nuevo, La falta de conocimiento de programación ha impedido que los estadísticos trabajen en problemas a gran escala donde los problemas de computación se vuelven importantes (considere GPU y sistemas distribuidos como hadoop). Creo que áreas como la bioinformática ahora han movido las estadísticas más en esta dirección. Finalmente, diría que los estadísticos son un grupo más escéptico: no afirman que descubras el conocimiento con las estadísticas, sino que un científico plantea una hipótesis, y el trabajo del estadístico es verificar que la hipótesis esté respaldada por los datos. El aprendizaje automático se enseña en los departamentos de CS, que desafortunadamente no enseñan las matemáticas apropiadas: el cálculo multivariable, la probabilidad, las estadísticas y la optimización no son comunes ... uno tiene conceptos vagos 'glamorosos' como aprender de ejemplos ...Elementos de aprendizaje estadístico página 30. Esto tiende a significar que hay muy poca comprensión teórica y una explosión de algoritmos, ya que los investigadores siempre pueden encontrar algunos conjuntos de datos en los que su algoritmo sea mejor. Así que hay grandes fases de exageración a medida que los investigadores de ML persiguen el siguiente gran avance: redes neuronales, aprendizaje profundo, etc. Desafortunadamente, hay mucho más dinero en los departamentos de CS (piense en Google, Microsoft, junto con el "aprendizaje" más comercializable). los estadísticos más escépticos son ignorados. Finalmente, existe una inclinación empirista: básicamente, existe una creencia subyacente de que si arroja suficientes datos al algoritmo 'aprenderá' las predicciones correctas. Si bien estoy predispuesto contra ML, hay una idea fundamental en ML que los estadísticos han ignorado: que las computadoras pueden revolucionar la aplicación de estadísticas.

Hay dos formas: a) automatizar la aplicación de pruebas y modelos estándar. Por ejemplo, ejecutar una batería de modelos (regresión lineal, bosques aleatorios, etc. probar diferentes combinaciones de entradas, configuraciones de parámetros, etc.). Esto realmente no ha sucedido, aunque sospecho que los competidores en kaggle desarrollan sus propias técnicas de automatización. b) aplicar modelos estadísticos estándar a grandes datos: piense, por ejemplo, en Google Translate, sistemas de recomendación, etc. (nadie afirma que, por ejemplo, las personas traducen o recomiendan de esa manera ... pero es una herramienta útil). Los modelos estadísticos subyacentes son sencillos, pero existen enormes problemas computacionales al aplicar estos métodos a miles de millones de puntos de datos.

La minería de datos es la culminación de esta filosofía ... desarrollar formas automatizadas de extraer conocimiento de los datos. Sin embargo, tiene un enfoque más práctico: esencialmente se aplica a los datos de comportamiento, donde no existe una teoría científica general (marketing, detección de fraude, spam, etc.) y el objetivo es automatizar el análisis de grandes volúmenes de datos: sin duda El equipo de estadísticos podría producir mejores análisis con el tiempo suficiente, pero es más rentable usar una computadora. Además, como explica D. Hand, es el análisis de datos secundarios: datos que se registran de todos modos en lugar de datos que se han recopilado explícitamente para responder una pregunta científica en un diseño experimental sólido. Estadísticas de minería de datos y más, D Hand

Entonces, resumiría que la IA tradicional se basa en la lógica más que en la estadística, el aprendizaje automático es estadística sin teoría y las estadísticas son 'estadísticas sin computadoras', y la minería de datos es el desarrollo de herramientas automatizadas para el análisis estadístico con mínima intervención del usuario.

— seanv507
fuente

Esta respuesta divaga mucho, por lo que es difícil de seguir y es innecesariamente larga, pero realmente da en el blanco de que las diferencias tienen más que ver con tradiciones y énfasis disciplinarios que con cualquier otra cosa.

— Tripartio

1

La minería de datos consiste en descubrir patrones ocultos o conocimiento desconocido, que las personas pueden utilizar para la toma de decisiones.

El aprendizaje automático se trata de aprender un modelo para clasificar nuevos objetos.

— Razan Paul
fuente

¿El aprendizaje automático es solo sobre clasificación? ¿No se puede utilizar el aprendizaje automático para cumplir otros objetivos?

— gung

@gung Absolutamente no. El aprendizaje de refuerzo es, en mi humilde opinión, el subcampo más característico de ML y no diría que se basa en la clasificación sino en el logro de objetivos.

— nbro

@nbro, se suponía que ese comentario era una pista para que el OP reconsiderara cuán estrechamente definían ML.

— Gung

0

En mi opinión, la inteligencia artificial podría considerarse como el "superconjunto" de campos como el aprendizaje automático, la minería de datos, el reconocimiento de patrones, etc.

Estadísticas, es un campo de las matemáticas que incluye todos los modelos matemáticos, técnicas y teoremas que se utilizan en la IA.
El aprendizaje automático es un campo de IA que incluye todos los algoritmos que aplican los modelos estadísticos mencionados anteriormente y da sentido a los datos, es decir, análisis predictivos como la agrupación y la clasificación.
La minería de datos es la ciencia que utiliza todas las técnicas anteriores (aprendizaje automático principalmente) para extraer patrones útiles e importantes de los datos. La minería de datos generalmente tiene que ver con la extracción de información útil de conjuntos de datos masivos, es decir, Big Data.

— IrishDog
fuente

-1

¿Qué tal: enseñar máquinas para aprender

Reconocer patrones significativos en los datos: minería de datos

Predecir el resultado de patrones conocidos: ML

Encuentre nuevas funciones para reasignar datos sin procesar: AI

Este cerebro de pájaro realmente necesita definiciones simples.

— Joel Malard
fuente

-1

A menudo, la minería de datos intenta "predecir" algunos datos futuros o "explicar" por qué sucede algo.

Las estadísticas se usan más para validar la hipótesis en mis ojos. Pero esta es una discusión subjetiva.

Una diferencia obvia entre los estadísticos y los mineros de datos se puede encontrar en el tipo de estadísticas resumidas que observan.

Las estadísticas a menudo se limitarán a R² y precisión, mientras que los mineros de datos analizarán las curvas AUC, ROC, curvas de elevación, etc. y también podrían preocuparse al emplear una curva de precisión relacionada con los costos.

Los paquetes de minería de datos (por ejemplo, el código abierto Weka), han incorporado técnicas para la selección de entrada, admiten la clasificación de máquinas de vectores, etc., mientras que en su mayor parte están ausentes en paquetes estadísticos como JMP. Hace poco, cuando hice un curso sobre "minería de datos en jmp" de la gente de jmp, y aunque es un paquete visualmente sólido, faltan algunas técnicas esenciales de minería de datos pre / post / mid. La selección de entrada se realizó manualmente, para obtener información sobre los datos, aún en la minería de datos, es solo su intención lanzar algoritmos, de manera inteligente, en datos grandes y ver automáticamente lo que sale. Obviamente, el curso fue impartido por personas de estadísticas, que enfatizaron la mentalidad diferente entre los dos.

— dorien
fuente