Agrupación de formalizaciones distintas de K-means para datos separables


11

Los datos del mundo real a veces tienen una cantidad natural de clústeres (intentar agruparlos en una cantidad de clústeres menor que un poco de magia k causará un aumento dramático del costo de la agrupación). Hoy asistí a una conferencia del Dr. Adam Meyerson y se refirió a ese tipo de datos como "datos separables".

¿Cuáles son algunas formalizaciones de agrupamiento, además de K-means, que podrían ser susceptibles de algoritmos de agrupamiento (aproximaciones o heurísticas) que explotarían la separabilidad natural en los datos?

Respuestas:


11

Un modelo reciente que intenta capturar esa noción es Balcan, Blum y Gupta '09. Proporcionan algoritmos para varios objetivos de agrupamiento cuando los datos satisfacen una cierta suposición: a saber, que si los datos son tales que cualquier aproximación para el objetivo de agrupamiento es ϵ -cerca del agrupamiento óptimo, entonces pueden proporcionar algoritmos eficientes para encontrar casi -conglomeración óptima, incluso para valores de c para los cuales encontrar la aproximación - c es NP-Hard. Esta es una suposición acerca de que los datos son de alguna manera "agradables" o "separables". Lipton tiene una buena publicación de blog sobre esto.cϵcc

αα

Estoy seguro de que hay trabajos anteriores y nociones relevantes anteriores, pero estos son algunos resultados teóricos recientes relacionados con su pregunta.


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.