Respuestas:
En general, en la clasificación tiene un conjunto de clases predefinidas y desea saber a qué clase pertenece un nuevo objeto.
La agrupación intenta agrupar un conjunto de objetos y determinar si existe alguna relación entre los objetos.
En el contexto del aprendizaje automático, la clasificación es aprendizaje supervisado y la agrupación es aprendizaje no supervisado .
También eche un vistazo a Clasificación y agrupación en Wikipedia.
Si ha hecho esta pregunta a cualquier persona de minería de datos o aprendizaje automático, utilizará el término aprendizaje supervisado y aprendizaje no supervisado para explicarle la diferencia entre la agrupación y la clasificación. Así que déjame explicarte primero sobre la palabra clave supervisado y no supervisado.
Aprendizaje supervisado: suponga que tiene una canasta y está llena de algunas frutas frescas y su tarea es organizar las frutas del mismo tipo en un solo lugar. supongamos que las frutas son manzana, plátano, cereza y uva. así que ya sabe por su trabajo anterior que, la forma de cada fruta, por lo que es fácil organizar el mismo tipo de frutas en un solo lugar. aquí su trabajo anterior se denomina datos capacitados en minería de datos. así que ya aprende las cosas de sus datos entrenados, esto se debe a que tiene una variable de respuesta que le dice que si alguna fruta tiene características similares, es uva, como esa para cada fruta.
Este tipo de datos obtendrá de los datos entrenados. Este tipo de aprendizaje se llama aprendizaje supervisado. Este problema de resolución de tipos se incluye en Clasificación. Así que ya aprendes las cosas para que puedas hacer tu trabajo con confianza.
sin supervisión: suponga que tiene una cesta y está llena de algunas frutas frescas y su tarea es organizar las frutas del mismo tipo en un solo lugar.
Esta vez no sabe nada de esas frutas, es la primera vez que ve estas frutas, entonces, ¿cómo organizará el mismo tipo de frutas?
Lo que harás primero es tomar la fruta y seleccionarás cualquier carácter físico de esa fruta en particular. supongamos que tomaste color.
Luego los organizará según el color, luego los grupos serán algo como esto. GRUPO DE COLOR ROJO: manzanas y cerezas. GRUPO DE COLOR VERDE: plátanos y uvas. así que ahora tomarás otro personaje físico como tamaño, así que ahora los grupos serán algo así. COLOR ROJO Y GRAN TAMAÑO: manzana. COLOR ROJO Y TAMAÑO PEQUEÑO: cereza. COLOR VERDE Y TAMAÑO GRANDE: plátanos. COLOR VERDE Y TAMAÑO PEQUEÑO : uvas. trabajo hecho final feliz.
aquí no aprendiste nada antes, significa que no hay datos del tren y ninguna variable de respuesta. Este tipo de aprendizaje se conoce como aprendizaje no supervisado. la agrupación viene bajo aprendizaje no supervisado.
+ Clasificación: se le dan algunos datos nuevos, debe establecer una nueva etiqueta para ellos.
Por ejemplo, una empresa quiere clasificar a sus posibles clientes. Cuando llega un nuevo cliente, tienen que determinar si se trata de un cliente que va a comprar sus productos o no.
+ Agrupación: se le proporciona un conjunto de transacciones de historial que registraron quién compró qué.
Mediante el uso de técnicas de agrupación, puede determinar la segmentación de sus clientes.
Estoy seguro de que algunos de ustedes han escuchado sobre el aprendizaje automático. Una docena de ustedes podría incluso saber de qué se trata. Y algunos de ustedes también podrían haber trabajado con algoritmos de aprendizaje automático. ¿Ves a dónde va esto? No mucha gente está familiarizada con la tecnología que será absolutamente esencial dentro de 5 años. Siri es aprendizaje automático. Alexa de Amazon es aprendizaje automático. Los sistemas de recomendación de anuncios y artículos de compras son aprendizaje automático. Tratemos de entender el aprendizaje automático con una analogía simple de un niño de 2 años. Solo por diversión, llamémosle Kylo Ren
Supongamos que Kylo Ren vio un elefante. ¿Qué le dirá su cerebro? (Recuerde que tiene una capacidad de pensamiento mínima, incluso si es el sucesor de Vader). Su cerebro le dirá que vio una gran criatura en movimiento que era de color gris. Luego ve un gato, y su cerebro le dice que es una pequeña criatura en movimiento de color dorado. Finalmente, ve un sable de luz a continuación y su cerebro le dice que es un objeto no vivo con el que puede jugar.
Su cerebro en este punto sabe que el sable es diferente del elefante y el gato, porque el sable es algo con lo que jugar y no se mueve solo. Su cerebro puede resolver esto incluso si Kylo no sabe lo que significa móvil. Este fenómeno simple se llama Agrupación.
El aprendizaje automático no es más que la versión matemática de este proceso. Muchas personas que estudian estadísticas se dieron cuenta de que pueden hacer que algunas ecuaciones funcionen de la misma manera que funciona el cerebro. El cerebro puede agrupar objetos similares, el cerebro puede aprender de los errores y el cerebro puede aprender a identificar cosas.
Todo esto se puede representar con estadísticas, y la simulación basada en computadora de este proceso se llama Machine Learning. ¿Por qué necesitamos la simulación basada en computadora? porque las computadoras pueden hacer cálculos pesados más rápido que los cerebros humanos. Me encantaría entrar en la parte matemática / estadística del aprendizaje automático, pero no querrás saltar a eso sin aclarar algunos conceptos primero.
Volvamos a Kylo Ren. Digamos que Kylo levanta el sable y comienza a jugar con él. Accidentalmente golpea a un soldado de asalto y el soldado de asalto se lesiona. No entiende lo que está pasando y continúa jugando. Luego golpea a un gato y el gato se lesiona. Esta vez Kylo está seguro de que ha hecho algo malo e intenta ser algo cuidadoso. Pero debido a sus malas habilidades con el sable, golpea al elefante y está absolutamente seguro de que está en problemas. ¡Se vuelve extremadamente cuidadoso a partir de entonces, y solo golpea a su padre a propósito como vimos en Force Awakens!
Todo este proceso de aprender de su error puede imitarse con ecuaciones, donde la sensación de hacer algo mal está representada por un error o costo. Este proceso de identificar qué no hacer con un sable se llama Clasificación. El agrupamiento y la clasificación son los fundamentos absolutos del aprendizaje automático. Veamos la diferencia entre ellos.
Kylo diferenciaba entre animales y sable de luz porque su cerebro decidió que los sables de luz no pueden moverse solos y, por lo tanto, son diferentes. La decisión se basó únicamente en los objetos presentes (datos) y no se proporcionó ayuda o asesoramiento externo. En contraste con esto, Kylo diferencia la importancia de tener cuidado con el sable de luz al observar primero lo que puede hacer golpear un objeto. La decisión no se basó completamente en el sable, sino en lo que podría hacer a diferentes objetos. En resumen, hubo algo de ayuda aquí.
Debido a esta diferencia en el aprendizaje, la agrupación se denomina método de aprendizaje no supervisado y la clasificación se denomina método de aprendizaje supervisado. Son muy diferentes en el mundo del aprendizaje automático y, a menudo, están dictados por el tipo de datos presentes. Obtener datos etiquetados (o cosas que nos ayudan a aprender, como stormtrooper, elephant y cat en el caso de Kylo) a menudo no es fácil y se vuelve muy complicado cuando los datos a diferenciar son grandes. Por otro lado, aprender sin etiquetas puede tener sus propias desventajas, como no saber cuáles son los títulos de las etiquetas. Si Kylo aprendiera a tener cuidado con el sable sin ningún ejemplo o ayuda, no sabría lo que haría. Simplemente sabría que no se supone que se haga. Es una analogía poco convincente, ¡pero entiendes el punto!
Recién estamos comenzando con Machine Learning. La clasificación en sí misma puede ser la clasificación de números continuos o la clasificación de etiquetas. Por ejemplo, si Kylo tuviera que clasificar la altura de cada soldado de asalto, habría muchas respuestas porque las alturas pueden ser 5.0, 5.01, 5.011, etc. Pero una clasificación simple como los tipos de sables de luz (rojo, azul-verde) Tendría respuestas muy limitadas. De hecho, se pueden representar con números simples. El rojo puede ser 0, el azul puede ser 1 y el verde puede ser 2.
Si conoce matemáticas básicas, sabe que 0,1,2 y 5.1,5.01,5.011 son diferentes y se denominan números discretos y continuos, respectivamente. La clasificación de números discretos se llama Regresión logística, y la clasificación de números continuos se llama Regresión. La regresión logística también se conoce como clasificación categórica, así que no se confunda cuando lea este término en otra parte
Esta fue una introducción muy básica al aprendizaje automático. Me detendré en el lado estadístico en mi próxima publicación. Por favor, avíseme si necesito alguna corrección :)
Segunda parte publicada aquí .
Es la asignación de clases predefinidas a nuevas observaciones , basadas en el aprendizaje de ejemplos.
Es una de las tareas clave en el aprendizaje automático.
Si bien se descarta popularmente como "clasificación no supervisada", es bastante diferente.
A diferencia de lo que le enseñarán muchos estudiantes de máquina, no se trata de asignar "clases" a los objetos, sino de tenerlos predefinidos. Esta es la visión muy limitada de las personas que hicieron demasiada clasificación; Un ejemplo típico de si tienes un martillo (clasificador), todo te parece un clavo (problema de clasificación) . Pero también es la razón por la cual las personas de clasificación no se acostumbran a la agrupación.
En cambio, considérelo como descubrimiento de estructura . La tarea de agrupamiento es encontrar estructura (por ejemplo, grupos) en sus datos que no conocía antes . La agrupación ha sido exitosa si aprendiste algo nuevo. Falló, si solo obtuviste la estructura que ya conocías.
El análisis de conglomerados es una tarea clave de la minería de datos (y el patito feo en el aprendizaje automático, por lo tanto, no escuche a los alumnos que descartan el agrupamiento).
Esto ha sido repetido arriba y abajo en la literatura, pero el aprendizaje no supervisado es muy difícil . No existe, pero es un oxímoron como "inteligencia militar".
O el algoritmo aprende de los ejemplos (luego es "aprendizaje supervisado") o no aprende. Si todos los métodos de agrupamiento son "aprendizaje", entonces calcular el mínimo, máximo y promedio de un conjunto de datos es también "aprendizaje no supervisado". Entonces, cualquier cálculo "aprendió" su salida. Por lo tanto, el término "aprendizaje no supervisado" carece totalmente de sentido , significa todo y nada.
Sin embargo, algunos algoritmos de "aprendizaje no supervisado" entran en la categoría de optimización . Por ejemplo, k-means es una optimización de mínimos cuadrados. Dichos métodos abarcan todas las estadísticas, por lo que no creo que debamos etiquetarlos como "aprendizaje no supervisado", sino que debemos seguir llamándolos "problemas de optimización". Es más preciso y más significativo. Hay muchos algoritmos de agrupación que no implican optimización y que no encajan bien en los paradigmas de aprendizaje automático. Así que deja de apretarlos debajo del paraguas "aprendizaje no supervisado".
Hay algo de "aprendizaje" asociado con la agrupación, pero no es el programa el que aprende. Es el usuario el que debe aprender cosas nuevas sobre su conjunto de datos.
Al agrupar, puede agrupar datos con sus propiedades deseadas, como el número, la forma y otras propiedades de los grupos extraídos. Mientras que, en la clasificación, el número y la forma de los grupos son fijos. La mayoría de los algoritmos de agrupación dan el número de agrupaciones como parámetro. Sin embargo, hay algunos enfoques para averiguar el número apropiado de grupos.
En primer lugar, como muchas respuestas dicen aquí: la clasificación es aprendizaje supervisado y la agrupación no está supervisada. Esto significa:
La clasificación necesita datos etiquetados para que los clasificadores puedan recibir capacitación sobre estos datos, y luego comenzar a clasificar nuevos datos invisibles en función de lo que sabe. El aprendizaje no supervisado como la agrupación no utiliza datos etiquetados, y lo que realmente hace es descubrir estructuras intrínsecas en los datos como grupos.
Otra diferencia entre ambas técnicas (relacionada con la anterior) es el hecho de que la clasificación es una forma de problema de regresión discreta donde el resultado es una variable dependiente categórica. Mientras que la producción de clustering produce un conjunto de subconjuntos llamados grupos. La forma de evaluar estos dos modelos también es diferente por la misma razón: en la clasificación, a menudo hay que verificar la precisión y el recuerdo, cosas como el sobreajuste y la falta de ajuste, etc. Esas cosas le dirán qué tan bueno es el modelo. Pero en la agrupación generalmente necesita la visión y la experiencia de un experto para interpretar lo que encuentra, porque no sabe qué tipo de estructura tiene (tipo de grupo o agrupación). Es por eso que la agrupación pertenece al análisis exploratorio de datos.
Finalmente, diría que las aplicaciones son la principal diferencia entre ambas. La clasificación, como dice la palabra, se usa para discriminar instancias que pertenecen a una clase u otra, por ejemplo, un hombre o una mujer, un gato o un perro, etc. La agrupación se usa a menudo en el diagnóstico de enfermedades médicas, el descubrimiento de patrones, etc.
Clasificación : Predecir resultados en una salida discreta => asignar variables de entrada en categorías discretas
Casos de uso populares:
Clasificación de correo electrónico: spam o no spam
Préstamo sancionado al cliente: Sí, si es capaz de pagarle a EMI el monto del préstamo sancionado. No si no puede
Identificación de células tumorales cancerosas: ¿es crítico o no crítico?
Análisis de sentimientos de los tweets: ¿el tweet es positivo, negativo o neutral?
Clasificación de noticias: clasifique las noticias en una de las clases predefinidas: política, deportes, salud, etc.
Agrupación : es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo (llamado agrupación) sean más similares (en cierto sentido) entre sí que con los de otros grupos (agrupaciones)
Casos de uso populares:
Marketing: descubra segmentos de clientes con fines de marketing
Biología: clasificación entre diferentes especies de plantas y animales.
Bibliotecas: Agrupación de diferentes libros sobre la base de temas e información.
Seguro: reconozca a los clientes, sus políticas e identifique los fraudes
Planificación urbana: haga grupos de casas y estudie sus valores en función de su ubicación geográfica y otros factores.
Estudios de terremotos: identificar zonas peligrosas
Referencias
Clasificación: predice etiquetas de clase categóricas: clasifica datos (construye un modelo) en función de un conjunto de entrenamiento y los valores (etiquetas de clase) en un atributo de etiqueta de clase: utiliza el modelo para clasificar datos nuevos
Clúster: una colección de objetos de datos - Similar entre sí dentro del mismo clúster - Diferente a los objetos en otros clústeres
La agrupación tiene como objetivo encontrar grupos en los datos. "Cluster" es un concepto intuitivo y no tiene una definición matemáticamente rigurosa. Los miembros de un grupo deben ser similares entre sí y diferentes a los miembros de otros grupos. Un algoritmo de agrupamiento opera en un conjunto de datos sin etiqueta Z y produce una partición en él.
Para las clases y las etiquetas de clase, la clase contiene objetos similares, mientras que los objetos de diferentes clases son diferentes. Algunas clases tienen un significado claro, y en el caso más simple son mutuamente excluyentes. Por ejemplo, en la verificación de firma, la firma es genuina o falsificada. La verdadera clase es una de las dos, sin importar que no podamos adivinar correctamente a partir de la observación de una firma en particular.
La agrupación en clúster es un método para agrupar objetos de tal manera que los objetos con características similares se unen y los objetos con características diferentes se separan. Es una técnica común para el análisis de datos estadísticos utilizado en el aprendizaje automático y la minería de datos.
La clasificación es un proceso de categorización donde los objetos son reconocidos, diferenciados y entendidos sobre la base del conjunto de datos de capacitación. La clasificación es una técnica de aprendizaje supervisado donde un conjunto de entrenamiento y observaciones correctamente definidas están disponibles.
Del libro Mahout in Action, y creo que explica muy bien la diferencia:
Los algoritmos de clasificación están relacionados con algoritmos de agrupamiento, pero aún son bastante diferentes, como el algoritmo k-means.
Los algoritmos de clasificación son una forma de aprendizaje supervisado, a diferencia del aprendizaje no supervisado, que ocurre con los algoritmos de agrupamiento.
Un algoritmo de aprendizaje supervisado es uno que recibe ejemplos que contienen el valor deseado de una variable objetivo. Los algoritmos no supervisados no reciben la respuesta deseada, sino que deben encontrar algo plausible por sí mismos.
Un revestimiento para la clasificación:
Clasificación de datos en categorías predefinidas
Un revestimiento para la agrupación:
Agrupando datos en un conjunto de categorías
Diferencia clave:
La clasificación consiste en tomar datos y ponerlos en categorías predefinidas y en Agrupar el conjunto de categorías, en el que desea agrupar los datos, no se conoce de antemano.
Conclusión:
He escrito una larga publicación sobre el mismo tema que puedes encontrar aquí:
Hay dos definiciones en minería de datos "Supervisado" y "No supervisado". Cuando alguien le dice a la computadora, algoritmo, código, ... que esto es como una manzana y que es como una naranja, esto es aprendizaje supervisado y uso de aprendizaje supervisado (como etiquetas para cada muestra en un conjunto de datos) para clasificar el datos, obtendrás clasificación. Pero, por otro lado, si deja que la computadora descubra qué es qué y diferencie entre las características del conjunto de datos dado, de hecho, aprenda sin supervisión, para clasificar el conjunto de datos, esto se llamaría agrupación. En este caso, los datos que se envían al algoritmo no tienen etiquetas y el algoritmo debe encontrar diferentes clases.
El aprendizaje automático o la inteligencia artificial se percibe en gran medida por la tarea que realiza / logra.
En mi opinión, al pensar en Agrupación y Clasificación en la noción de tarea que logran realmente puede ayudar a comprender la diferencia entre los dos.
La agrupación es Agrupar cosas y la Clasificación es, más o menos, etiquetar cosas.
Supongamos que está en un salón de fiestas donde todos los hombres están en trajes y las mujeres en vestidos.
Ahora, le haces algunas preguntas a tu amigo:
Q1: Heyy, ¿puedes ayudarme a agrupar personas?
Las posibles respuestas que tu amigo puede dar son:
1: puede agrupar personas según género, hombre o mujer
2: puede agrupar a las personas en función de su ropa, 1 con trajes y otros con batas
3: puede agrupar personas según el color de sus cabellos
4: Puede agrupar personas según su grupo de edad, etc. etc. etc.
Son numerosas las formas en que tu amigo puede completar esta tarea.
Por supuesto, puede influir en su proceso de toma de decisiones proporcionando aportes adicionales como:
¿Me pueden ayudar a agrupar a estas personas según su género (o grupo de edad, color de cabello o vestido, etc.)
Q2:
Antes de la Q2, debe hacer algunos trabajos previos.
Tienes que enseñar o informar a tu amigo para que pueda tomar una decisión informada. Entonces, digamos que le dijiste a tu amigo que:
Las personas con cabello largo son mujeres.
Las personas con cabello corto son hombres.
Q2 Ahora, usted señala a una persona con cabello largo y le pregunta a su amigo: ¿es un hombre o una mujer?
La única respuesta que puede esperar es: Mujer.
Por supuesto, puede haber hombres con pelos largos y mujeres con pelos cortos en la fiesta. Pero, la respuesta es correcta según el aprendizaje que le brindó a su amigo. Puede mejorar aún más el proceso al enseñar más a su amigo sobre cómo diferenciar entre los dos.
En el ejemplo anterior,
Q1 representa la tarea que Clustering logra.
En Clustering, proporciona los datos (personas) al algoritmo (su amigo) y le pide que agrupe los datos.
Ahora, depende del algoritmo decidir cuál es la mejor manera de agrupar. (Género, color o grupo de edad).
Una vez más, definitivamente puede influir en la decisión tomada por el algoritmo al proporcionar entradas adicionales.
Q2 representa la tarea que logra la Clasificación.
Allí, le da a su algoritmo (su amigo) algunos datos (Personas), llamados datos de Entrenamiento, y le hace saber qué datos corresponden a qué etiqueta (Hombre o Mujer). Luego, señala su algoritmo a ciertos datos, llamados datos de prueba, y le pide que determine si es hombre o mujer. Cuanto mejor sea tu enseñanza, mejor será la predicción.
Y el Pre-trabajo en Q2 o Clasificación no es más que entrenar su modelo para que pueda aprender a diferenciarse. En Clustering o Q1, este trabajo previo es parte de la agrupación.
Espero que esto ayude a alguien.
Gracias
Clasificación : un conjunto de datos puede tener diferentes grupos / clases. rojo, verde y negro. La clasificación intentará encontrar reglas que los dividan en diferentes clases.
Agrupación: si un conjunto de datos no tiene ninguna clase y desea colocarlos en alguna clase / agrupación, debe agruparlos. Los círculos morados de arriba.
Si las reglas de clasificación no son buenas, tendrá una clasificación incorrecta en las pruebas o sus reglas no serán lo suficientemente correctas.
si la agrupación no es buena, tendrá muchos valores atípicos, es decir. los puntos de datos no pueden caer en ningún clúster.
Las diferencias clave entre la clasificación y la agrupación son: La clasificación es el proceso de clasificar los datos con la ayuda de las etiquetas de clase. Por otro lado, la agrupación es similar a la clasificación, pero no hay etiquetas de clase predefinidas. La clasificación está orientada al aprendizaje supervisado. Por el contrario, la agrupación también se conoce como aprendizaje no supervisado. La muestra de entrenamiento se proporciona en el método de clasificación, mientras que en el caso de la agrupación de datos de entrenamiento no se proporciona.
Espero que esto ayude!
Creo que la clasificación es clasificar registros en un conjunto de datos en clases predefinidas o incluso definir clases sobre la marcha. Lo considero un requisito previo para cualquier minería de datos valiosa, me gusta pensarlo en un aprendizaje no supervisado, es decir, uno no sabe lo que está buscando, mientras que la minería de datos y la clasificación sirven como un buen punto de partida
La agrupación en el otro extremo cae bajo el aprendizaje supervisado, es decir, uno sabe qué parámetros buscar, la correlación entre ellos junto con los niveles críticos. Creo que requiere cierta comprensión de las estadísticas y las matemáticas.