Conjuntos de datos / API de redes sociales disponibles públicamente


26

Como una extensión de nuestra gran lista de conjuntos de datos disponibles públicamente , me gustaría saber si hay alguna lista de conjuntos de datos de redes sociales / API de rastreo disponibles públicamente. Sería muy bueno si junto con un enlace al conjunto de datos / API, se agregaran características de los datos disponibles. Dicha información debe ser, y no se limita a:

  • el nombre de la red social;
  • qué tipo de información de usuario proporciona (publicaciones, perfil, red de amistad, ...);
  • si permite rastrear su contenido a través de una API (y tasa: 10 / min, 1k / mes, ...);
  • si simplemente proporciona una instantánea de todo el conjunto de datos.

Cualquier sugerencia y otras características que se agreguen son bienvenidas.

Respuestas:


20

Un par de palabras sobre las API de redes sociales. Hace aproximadamente un año escribí una revisión de las API de redes sociales populares para investigadores. Lamentablemente, está en ruso. Aquí hay un resumen:

Twitter ( https://dev.twitter.com/docs/api/1.1 )

  • casi todos los datos sobre tweets / textos y usuarios están disponibles;
  • falta de datos sociodemográficos;
  • gran API de transmisión: útil para el procesamiento de texto en tiempo real;
  • muchos envoltorios para lenguajes de programación;
  • Es posible obtener una estructura de red (conexiones), pero costosa (1 solicitud por 1 minuto).

Facebook ( https://developers.facebook.com/docs/reference/api/ )

  • límites de velocidad: aproximadamente 1 solicitud por segundo;
  • bien documentado, caja de arena presente;
  • API de gráfico FQL (tipo SQL) y «Rest regular»;
  • datos de amistad y características sociodemográficas presentes;
  • una gran cantidad de datos está más allá del horizonte de eventos : solo los datos de amigos y amigos de amigos están más o menos completos, casi nada podría investigarse sobre usuarios aleatorios;
  • algunos errores extraños de la API, y parece que a nadie le importa (por ejemplo, algunas características disponibles a través de FQL, pero no a través del sinónimo Graph API).

Instagram ( http://instagram.com/developer/ )

  • límites de velocidad: 5000 solicitudes por hora;
  • API en tiempo real (como Streaming API para Twitter, pero con fotos): la conexión es un poco complicada: se utilizan devoluciones de llamada;
  • falta de datos sociodemográficos;
  • fotos, filtros de datos disponibles;
  • imperfecciones inesperadas (por ejemplo, es posible recopilar solo 150 comentarios para publicar / foto).

Cuadrangular ( https://developer.foursquare.com/overview/ )

  • límites de velocidad: 5000 solicitudes por hora;
  • reino de datos geosociales :)
  • bastante cerrado de investigaciones debido a problemas de privacidad. Para recopilar datos de checkins, es necesario crear un analizador compuesto que funcione con 4sq, bit.ly y las API de Twitter a la vez;
  • de nuevo: falta de datos sociodemográficos.

Google+ ( https://developers.google.com/+/api/latest/ )

  • aproximadamente 5 solicitudes por segundo (intente verificar);
  • métodos principales: actividades y personas;
  • Al igual que en Facebook, se ocultan muchos datos personales para usuarios aleatorios;
  • falta de datos de conexiones de usuario.

Y fuera de competencia: revisé las redes sociales para lectores rusos, y la red # 1 aquí es vk.com . Está traducido a muchos idiomas, pero es popular solo en Rusia y otros países de la CEI. Enlace de documentos de API: http://vk.com/dev/ . Y desde mi punto de vista, es la mejor opción para la investigación casera de redes sociales. Al menos, en Rusia. Es por eso:

  • límites de velocidad: 3 solicitudes por segundo;
  • texto público y datos de medios disponibles;
  • datos sociodemográficos disponibles: para usuarios aleatorios, el nivel de disponibilidad es del 60-70%
  • las conexiones entre usuarios también están disponibles: casi todos los datos de amistades para usuarios aleatorios están disponibles;
  • algunos métodos especiales: por ejemplo, hay un método para obtener el estado en línea / fuera de línea para el usuario exacto en tiempo real, y uno podría crear un horario para su audiencia.

1
Pura genialidad! En realidad esperaba algo como esto disuelto en muchas respuestas, y llegaste con todo: D Gracias por la respuesta. ¡Buen trabajo! :)
Rubens

1
Dejé atrás el alcance de LinkedIn, YouTube, Secret. Quizás otras redes regionales (QQ?). Y estaría encantado de obtener información sobre ellos.
sobach


6

Puede encontrar una buena lista de conjuntos de datos de redes sociales disponibles públicamente en el sitio web del Proyecto de Análisis de Redes de Stanford:

Conjuntos de datos SNAP

El sitio contiene datos de redes sociales de Internet (Facebook, Twitter, Google Plus), redes de citas para revistas académicas, redes de co-compra de Amazon y varios otros tipos de redes. Tienen gráficos dirigidos, no dirigidos y bipartitos, y todos los conjuntos de datos son instantáneas que se pueden descargar en forma comprimida.


5

Un ejemplo de Alemania: Xing un sitio similar a linkedin pero limitado a países de habla alemana.

Enlace a su central de desarrolladores: https://dev.xing.com/overview

Proporciona acceso a: Perfiles de usuario, Conversaciones entre usuarios (limitado al usuario mismo), Anuncios de trabajo, Contactos y Contactos de Contactos, noticias de la red y alguna API de geolocalización.

Sí, tiene una API, pero no encontré información sobre la tarifa. Pero me parece que cierta información se limita al consentimiento del usuario.


4

Network Repository ( http://networkrepository.com ) tiene toneladas de redes sociales, gráficos web, redes bio y cerebrales, etc. Lo mejor de todo es que también tienen herramientas analíticas visuales interactivas para comparar / explorar las diferentes redes sociales.


2

Puede encontrar una pequeña colección de dichos enlaces aquí . Muchos de ellos son gráficos sociales.


Le agradezco mucho por publicar esta referencia, pero esperaba las respuestas aquí para señalar un conjunto de datos / API disponible públicamente para redes sociales, y también describir lo que proporciona dicha fuente (ya sea la tasa de descarga de publicaciones o qué tipo de información sobre usuarios). Como su respuesta es, supongo que sería muy bienvenido a la lista de conjuntos de datos disponibles públicamente que tenemos.
Rubens

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.