Buscando datos artificiales en 2D para demostrar las propiedades de los algoritmos de agrupamiento


9

Estoy buscando conjuntos de datos de puntos de datos bidimensionales (cada punto de datos es un vector de dos valores (x, y)) siguiendo diferentes distribuciones y formas. El código para generar tales datos también sería útil. Quiero usarlos para trazar / visualizar cómo funcionan algunos algoritmos de agrupación. Aquí hay unos ejemplos:


Yo voto por cw;)
steffen

Una pregunta similar en líneas específicas de los conjuntos de datos se ha cerrado aquí: stats.stackexchange.com/questions/38928/...
hearse

Para SPSS, he escrito una macro generadora de clúster (visite mi página, consulte "Generar clústeres"). Sin embargo, no produce formas pretenciosas como anillos o espirales.
ttnphns

Respuestas:


11

R viene con muchos conjuntos de datos, y parece que no sería un gran problema reproducir la mayoría de los ejemplos que citó con pocas líneas de código. También puede encontrar útil el paquete mlbench , en particular los conjuntos de datos sintéticos que comienzan con mlbench.*. Algunas ilustraciones se dan a continuación.

ingrese la descripción de la imagen aquí

Encontrará ejemplos adicionales mirando la Vista de tareas del clúster en CRAN. Por ejemplo, el paquete fpc tiene un generador incorporado para conjuntos de datos de referencia agrupados "en forma de cara" ( rFace).

ingrese la descripción de la imagen aquí

Consideraciones similares se aplican a Python, donde encontrará interesantes pruebas de referencia y conjuntos de datos para la agrupación con scikit-learn .

El depósito de aprendizaje automático de UCI también alberga muchos conjuntos de datos , pero es mejor que simule datos usted mismo con el idioma que elija.



2

Este punto de referencia de agrupación de juguetes contiene varios conjuntos de datos en formato ARFF (podrían convertirse fácilmente a CSV), principalmente con etiquetas de verdad básica. El punto de referencia debe validar las propiedades básicas deseadas de los algoritmos de agrupamiento. La mayoría de los conjuntos de datos provienen de los documentos agrupados como:

  • Abedul : Zhang, Tian, ​​Raghu Ramakrishnan y Miron Livny. "BIRCH: un método eficiente de agrupación de datos para bases de datos muy grandes". Registro ACM SIGMOD. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi y Kyuseok Shim. "CURE: un algoritmo de agrupamiento eficiente para grandes bases de datos". Registro ACM SIGMOD. Vol. 27. No. 2. ACM, 1998.
  • Camaleón : Karypis, George, Eui-Hong Han y Vipin Kumar. "Camaleón: agrupamiento jerárquico utilizando modelado dinámico". Computadora 32.8 (1999): 68-75.
  • El conjunto de problemas de agrupación fundamental : Ultsch, A .: Agrupación con SOM: U * C, en proceso. Taller sobre mapas autoorganizados, París, Francia, (2005), pp. 75-82
  • MOCK - Handl, Julia y Joshua Knowles. "Un enfoque evolutivo para la agrupación multiobjetivo". Computación evolutiva, transacciones IEEE en 11.1 (2007): 56-76.
  • Robusto agrupamiento espectral basado en rutas : Chang, Hong y Dit-Yan Yeung. "Robusto agrupamiento espectral basado en rutas". Pattern Recognition 41.1 (2008): 191-203.

datos de karypis datos de cluto


1

ELKI viene con un par de conjuntos de datos (verifique también las pruebas unitarias, contienen muchos más que los del sitio web, junto con la configuración de parámetros).

También incluye un generador de datos bastante flexible.


1

Aquí hay un generador de clúster personalizable. Solo aborda una cierta clase de conjuntos de datos, pero seguramente puede usarse para investigaciones de algoritmos de clúster.

Aquí hay un ejemplo del tipo de clústeres que puede crear:

http://i.stack.imgur.com/vrCG5.png

La afiliación al clúster se guarda en un archivo de texto. El código es de código abierto bajo licencia MIT.


1

Este script de Matlab genera datos en 2D para la agrupación. Acepta varios parámetros para que los datos generados estén dentro de los requisitos del usuario.


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.