Conjuntos de datos clásicos de análisis de red


10

Existen varios conjuntos de datos clásicos para tareas de clasificación / regresión de aprendizaje automático. Los más populares son:

¿Pero alguien conoce conjuntos de datos similares para el análisis de redes / teoría de grafos? Más concreto: estoy buscando conjuntos de datos estándar de oro para comparar / evaluar / aprender:

  1. medidas de centralidad;
  2. algoritmos de agrupamiento en red.

No necesito una gran lista de redes / gráficos disponibles públicamente, sino un par de conjuntos de datos que realmente deben conocerse.

EDITAR:

Es bastante difícil proporcionar características exactas para el "conjunto de datos estándar de oro", pero aquí hay algunas ideas. Creo que el conjunto de datos clásico real debería satisfacer estos criterios:

  • Múltiples referencias en artículos y libros de texto;
  • Inclusión en conocidos paquetes de software de análisis de red;
  • Suficiente tiempo de existencia;
  • Uso en varios cursos sobre análisis gráfico.

Con respecto a mi campo de interés, también necesito clases etiquetadas para vértices y / o "puntuaciones de autoridad" precalculadas (o predefinidas) (es decir, estimaciones de centralidad). Después de hacer esta pregunta, continué buscando, y aquí hay algunos ejemplos adecuados:

  • Club de Karate de Zachary : introducido en 1977, citado más de 1.5k veces (según Google Scholar), los vértices tienen el atributo Facción (que se puede usar para la agrupación).
  • Erdos Collaboration Network : desafortunadamente, no he encontrado esta red en forma de archivo de datos, pero es bastante famosa, y si alguien enriquece la red con los datos de especialización de matemáticos, también podría usarse para probar algoritmos de agrupamiento.

1
Creo que podría mejorar esta pregunta definiendo el "conjunto de datos estándar de oro" de una manera más objetiva. ¿Qué lo hace "imprescindible"? ¿Debería mencionarse en varios libros de texto? ¿Utilizado en varios modelos publicados? Etc. De lo contrario, las respuestas serán subjetivas Y cambiarán a medida que pase el tiempo. Una mala combinación aquí.
Aire

Respuestas:


5

Lo que está buscando se puede encontrar en KONECT (el sitio web está caído porque estoy escribiendo esto, ¡pero debería solucionarlo pronto!). Es casi la recopilación de datos más completa para el análisis de redes. Pero la pregunta es cuál es más estándar de usar.

¡Bueno, no hay una respuesta clara, excepto el Club de Karate de Zachary!

Si hace una revisión de la literatura en algoritmos de Detección de comunidad, verá que casi todos los documentos brillantes utilizan redes diferentes. Mi sugerencia es analizar lo que Andrea Lancichinetti y Santo Fortunato hicieron para comparar gráficos. Propusieron algunos algoritmos de generación de gráficos de referencia, por ejemplo, este .

Espero eso ayude :)


puede localizar esto a través de la máquina wayback, es su mejor amigo web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
albert


1

Lo único que sé son los datos de referencia para las bases de datos de gráficos, como Neo4j.

Puede encontrar enlaces similares a este: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

donde puede encontrar datos para probar el análisis de red y la teoría de grafos.

Además, puedes jugar con la API de Twitter / Facebook para recopilar tus propios datos. Esto también es una sugerencia en caso de que no encuentre los datos que está buscando.


Gracias, pero no es exactamente lo que estoy buscando. Ver actualización para más detalles.
sobach
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.