Conjuntos de datos disponibles públicamente

168

Uno de los problemas comunes en la ciencia de datos es reunir datos de varias fuentes en un formato de alguna manera limpio (semi-estructurado) y combinar métricas de varias fuentes para hacer un análisis de nivel superior. Al observar el esfuerzo de otras personas, especialmente otras preguntas en este sitio, parece que muchas personas en este campo están haciendo un trabajo repetitivo. Por ejemplo, analizar tweets, publicaciones de Facebook, artículos de Wikipedia, etc. es parte de muchos problemas de big data.

Se puede acceder a algunos de estos conjuntos de datos mediante las API públicas proporcionadas por el sitio del proveedor, pero por lo general, algunas API o información valiosa faltan y todos tienen que hacer los mismos análisis una y otra vez. Por ejemplo, aunque la agrupación de usuarios puede depender de diferentes casos de uso y la selección de características, tener una agrupación base de usuarios de Twitter / Facebook puede ser útil en muchas aplicaciones de Big Data, que no es proporcionada por la API ni disponible públicamente en conjuntos de datos independientes .

¿Existe algún índice o sitio de alojamiento de conjuntos de datos disponible públicamente que contenga conjuntos de datos valiosos que puedan reutilizarse para resolver otros problemas de big data? Me refiero a algo como GitHub (o un grupo de sitios / conjuntos de datos públicos o al menos una lista completa) para la ciencia de datos. Si no es así, ¿cuáles son las razones para no tener una plataforma para la ciencia de datos? El valor comercial de los datos, necesita actualizar con frecuencia conjuntos de datos, ...? ¿No podemos tener un modelo de código abierto para compartir conjuntos de datos diseñados para científicos de datos?

open-source dataset

— Amir Ali Akbari
fuente

18

Esta pregunta podría ser más apropiada en los datos abiertos dedicados.SE . Dicho esto, cruzo los dedos por dat , que aspira a convertirse en un "Git para datos".

— ojdo

2

@ojdo Gracias, nunca escuché sobre opendata.SE antes, también encontré esta pregunta interesante (y muy similar) allí.

— Amir Ali Akbari

2

Ver quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Piotr Migdal

No he encontrado ningún buen conjunto de datos completo y gratuito para aplicaciones típicas de Business Intelligence. El conjunto de datos de demostración de Microsoft Contoso BI para la industria minorista de la descarga oficial del Centro de descarga de Microsoft funciona con algunos productos de Microsoft (consulte AndyGett en SharePoint y otro software empresarial ), pero no veo ningún volcado de sql o csv, ni ninguna información de licencia .

— nealmcb

1

¿Te has unido al Open Data Stack Exchange? opendata.stackexchange.com

— sss4r

88

De hecho, existe una lista muy razonable de conjuntos de datos disponibles al público, respaldados por diferentes empresas / fuentes.

Algunos de ellos están a continuación:

Conjuntos de datos públicos en Amazon WebServices ;
Repositorio frecuente de implementación de minería de conjuntos de elementos ;
Depósito de aprendizaje automático UCI ;
KDnuggets : una gran lista de muchos repositorios públicos.

Ahora, dos consideraciones sobre su pregunta. Primero, sobre las políticas de intercambio de bases de datos. Por experiencia personal, hay algunas bases de datos que no se pueden poner a disposición del público, ya sea por restricciones de privacidad (como para alguna información de redes sociales) o por información gubernamental (como las bases de datos del sistema de salud).

Otro punto se refiere al uso / aplicación del conjunto de datos. Aunque algunas bases pueden reprocesarse para adaptarse a las necesidades de la aplicación, sería genial tener una buena organización de los conjuntos de datos por propósito. La taxonomía debe incluir análisis de gráficos sociales, minería de conjuntos de elementos, clasificación y muchas otras áreas de investigación que pueda haber.

— Rubens
fuente

64

Actualizar:

Kaggle.com , un hogar de entusiastas modernos de la ciencia de datos y el aprendizaje automático :), abrió su propio repositorio de los conjuntos de datos .

Además de las fuentes enumeradas.

Algunos conjuntos de datos de redes sociales:

Hay muchas fuentes enumeradas en Estadísticas SE:

— IharS
fuente

37

Hay muchos conjuntos de datos disponibles abiertamente, uno que muchas personas suelen pasar por alto es data.gov . Como se mencionó anteriormente, Freebase es genial, también lo son todos los ejemplos publicados por @Rubens

— MCP_infiltrator
fuente

35

Freebase es una base de datos gratuita impulsada por la comunidad que abarca muchos temas interesantes y contiene alrededor de 2,5 mil millones de datos en formato legible por máquina. También es buena API para realizar consultas de datos.

Aquí hay otra lista compilada de conjuntos de datos abiertos: http://www.datapure.co/open-data-sets

— revs Konstantin V. Salikhov
fuente

Freebase se está cerrando y su base de datos se moverá a Wikidata pronto.

— cynddl

31

Los siguientes enlaces están disponibles

— Jakubee
fuente

25

Para los datos de series de tiempo en particular, Quandl es un recurso excelente: un directorio fácilmente navegable de (principalmente) series de tiempo limpias.

Una de sus características más interesantes son los precios de las acciones de datos abiertos , es decir, datos financieros que se pueden editar al estilo wiki, y no están gravados por las licencias.

— azza-bazoo
fuente

20

Enigma es un repositorio de conjuntos de datos públicos disponibles. Su plan gratuito ofrece búsqueda de datos públicos, con 10 mil llamadas API por mes. No se enumeran todas las bases de datos públicas, pero la lista es suficiente para casos comunes.

Lo utilicé para la investigación académica y me ahorró mucho tiempo.

Otra fuente interesante de datos es el proyecto @unitedstates , que contiene datos y herramientas para recopilarlos, sobre los Estados Unidos (miembros del Congreso, formas geográficas ...).

— cynddl
fuente

18

Me gustaría señalar el Censo de datos abiertos . Es una iniciativa de Open Knowledge Foundation basada en contribuciones de defensores de datos abiertos y expertos de todo el mundo.

El valor del Censo de datos abiertos es un esfuerzo abierto, impulsado por la comunidad y sistemático para recopilar y actualizar la base de datos de conjuntos de datos abiertos a nivel mundial en el país y, en algunos casos, como EE. UU., A nivel de la ciudad .

Además, presenta una oportunidad para comparar diferentes países y ciudades en áreas de interés seleccionadas.

— tomaskazemekas
fuente

18

También hay otro recurso provisto por The Guardian, el British Daily en su sitio web. Los conjuntos de datos publicados por Guardian Datablog están todos alojados. Conjuntos de datos relacionados con las cuentas de los clubes de la Premier League de fútbol, la inflación y los detalles del PIB del Reino Unido, los datos de los premios Grammy, etc. Los conjuntos de datos están disponibles en

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Algunos recursos más. Algunos de los conjuntos de datos están en formato R o existen comas R para importar datos directamente a R.

http://www.inside-r.org/howto/finding-data-internet

— binga
fuente

17

Búsqueda personalizada de Google

Puede usar la Búsqueda personalizada de Google para conjuntos de datos:

Búsqueda personalizada de Google: conjuntos de datos

Incluye 230 fuentes y meta-fuentes de conjuntos de datos, incluidos todos los mencionados en esta pregunta. Por favor, siéntase libre de excluir .gov y cualquier otro sitio web de los resultados agregando "-.gov" o "-site.com" a la línea de búsqueda. Otros operadores de búsqueda de Google funcionan.

No dude en ponerse en contacto conmigo si tiene ideas sobre qué sitios web agregar.

IOGDS

El siguiente servicio clasifica más de 1,000,000 de conjuntos de datos públicos:

IOGDS: Búsqueda internacional de conjuntos de datos de gobierno abierto

— Anton Tarasenko
fuente

¿Cuáles son los parámetros para el enlace de búsqueda personalizado que proporcionó? ¿Busca en una lista de sitios web, palabras clave, etc.?

— Amir Ali Akbari

@AmirAliAkbari Busca en fuentes como Data.gov, Quandl y otros grandes almacenes de datos.

— Anton Tarasenko

16

Respuesta tardía, pero aquí hay una lista ecléctica de más de 100 conjuntos de datos interesantes

La publicación del blog es divertida y fácil de leer (no tengo afiliación). Vale la pena escanear y raspar algunos desde la parte superior:

Últimas palabras de cada interno de Texas ejecutado desde 1984
10,000 imágenes anotadas de gatos
2,2 millones de partidas de ajedrez

— philshem
fuente

15

Encontré este enlace en Data Science Central con una lista de conjuntos de datos gratuitos: grandes conjuntos de datos disponibles de forma gratuita

— lafdez
fuente

15

¿Sabía acerca de los puntos de referencia PUMA y las descargas de conjuntos de datos? https://sites.google.com/site/farazahmad/pumadatasets

Incluye lo siguiente:

TeraSort
Wikipedia
Elemento de la lista
Auto-unirse
Lista de adyacencia
Películas-base de datos
Índice clasificado invertido

— algarecu
fuente

15

El Gobierno del Reino Unido proporciona una excelente fuente de datos no personales recopilados en todos los departamentos gubernamentales: http://data.gov.uk

— Federer
fuente

14

Soy nuevo en este foro. Tocando tarde esta pregunta. He estado manteniendo (soy cofundador de) un catálogo de portales de datos disponibles públicamente. Ahora hay más de 1000 en la lista y cubren portales a nivel internacional, federal, estatal, municipal y académico en todo el mundo.

http://www.opengeocode.org/opendata/

— Andrew - OpenGeoCode
fuente

14

Me sorprende que uno no haya mencionado esto, ya que parece bastante obvio: http://www.kaggle.com tiene constantemente conjuntos de datos nuevos y muy interesantes. La información se considera un activo, por lo que a menudo las empresas no quieren divulgar esos datos (más las preocupaciones de privacidad). Kaggle le brinda datos y esperan que resuelva los problemas comerciales con ellos a cambio.

— RAM
fuente

14

Conjuntos de datos

Torrents Académicos
Quora
hadoopilluminated.com
data.gov
Quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
Bases de datos descargables de GeoLite Legacy
Respuesta de los grandes conjuntos de datos de Quora
Conjuntos públicos de Big Data
Portal de datos de Houston
Fuentes de datos de Kaggle
Un catálogo profundo de variación genética humana
Una base de datos curada por la comunidad de personas, lugares y cosas bien conocidas.
Datos públicos de Google
Datos del Banco Mundial
Datos de taxi de Nueva York
Open Data Philly Conectando personas con datos para Filadelfia
Repositorio de red Un repositorio de datos interactivo con más de 600 redes en más de 20 colecciones; de redes sociales a gran escala, gráficos web, redes biológicas, redes de comunicación y tecnológicas, etc.
Una lista de fuentes útiles Una publicación de blog incluye muchas bases de datos de conjuntos de datos

Conjuntos de Datos De impresionante-datascience

— chenrui333
fuente

1

¿Puede proporcionarnos alguna información sobre ambos conjuntos de datos / enlaces? De hecho, esto aliviará la carga de quienes buscan tipos específicos de conjuntos de datos. Echa un vistazo a otras publicaciones para ver qué tipo de información faltan tus referencias.

— Rubens

11

Como mencionó, la API es la parte difícil, no los datos. Quandl parece resolver este problema al proporcionar más de 10 millones de conjuntos de datos disponibles públicamente en una API RESTful fácil. Si la programación no es su fuerte, hay una herramienta gratuita para facilitar la carga de datos en Excel. Además, si lo hace disfrutar de la programación, hay varias bibliotecas nativas en R, Python, Java y más .

— Brian Risk
fuente

11

Para agregar a una lista posiblemente interminable:

como mencionó cyndd, hay Wikidata ,

y para conocimiento estructurado curado, Wolfram Alpha .

— image_doctor
fuente

11

Encontré esta colección en Github. La colección también está categorizada.

https://github.com/caesar0301/awesome-public-datasets

Y por la parte sobre

¿No puede un modelo de código abierto para compartir conjuntos de datos ideado para científicos de datos?

puede consultar la guía grupal Leek para compartir datos

— Shagun Sodhani
fuente

10

No todos los datos del gobierno figuran en data.gov: la Fundación Sunlight reunió un conjunto de hojas de cálculo en febrero que describen los conjuntos de datos disponibles.

— Steve Kallestad
fuente

9

Otra fuente de datos que no vi en la lista es el Proyecto GDELT . Desde el sitio:

El Proyecto GDELT monitorea las transmisiones, publicaciones impresas y web de todo el mundo desde casi todos los rincones de cada país en más de 100 idiomas e identifica a las personas, ubicaciones, organizaciones, recuentos, temas, fuentes y eventos que impulsan a nuestra sociedad global cada segundo de cada día, creando una plataforma abierta y gratuita para la informática en todo el mundo.

— dvdnglnd
fuente

8

Este subreddit enumera muchos conjuntos de datos conocidos

Conjuntos de datos de Reddit

Hay muchas solicitudes de conjunto de datos en ese subreddit, varias de las cuales han sido respondidas.

— Algún chico
fuente

6

Creé un repositorio github para esto. Los conjuntos de datos no son grandes, pero son ejemplos mínimos destinados a practicar y explorar técnicas de modelado predictivo que luego pueden extenderse a grandes conjuntos de datos.

Biblia de problemas de aprendizaje automático (MLPB)

Lo bueno / único de este repositorio es que cada problema está etiquetado con etiquetas como [multiclase], [datos no balanceados], [regresión], etc., lo que facilita encontrar ciertos tipos de problemas / conjuntos de datos.

— Ben
fuente

6

Eurostats http://ec.europa.eu/eurostat y el Banco Central Europeo https://www.ecb.europa.eu/stats/html/index.en.html proporcionan una gran variedad de conjuntos de datos que uso con bastante frecuencia en mi Proyectos de trabajo.

— Juha
fuente

6

Además de todos estos conjuntos de datos, si está interesado en datos relacionados con la India. El sitio público oficial del gobierno indio es

https://data.gov.in/

Proporciona conjuntos de datos de diferentes departamentos del gobierno indio que se pueden usar bien para el análisis de Big Data y el aprendizaje automático.

— Gaurav
fuente

4

Yahoo acaba de lanzar un gran conjunto de datos para la comunidad de investigación. ¡Disfrútala!

— Kasra Manshaei
fuente

4

Simplemente cargamos el paquete MASS en R y accedemos a múltiples marcos de datos o conjuntos de datos.

install.packages ("MASS") requiere ("MASS")

— dileep balineni
fuente

3

3 conjuntos de datos de https://www.jc-bingo.com/about

visitor-assets.csv Intereses de visitantes agregados compilados en base a registros de acceso web de 1 semana. Incluye la dirección IP del visitante, la cadena de agente de usuario, el país del visitante, los idiomas y los temas a los que se accede. 19,926 registros, 2.9 Mb.
user-agents.csv Agentes de usuarios visitantes reales ordenados por popularidad. 4.826 registros, 716 Kb.
bots.csv Direcciones IP de robot y cadenas de agente de usuario extraídas de los registros de acceso web. 1.293 registros, 122 Kb.

— Yuri
fuente

3

Obviamente, existe un gran conjunto de bases de datos públicas.

Uno aún no mencionado, es de la FAO (Organización de las Naciones Unidas para la Agricultura y la Alimentación), accesible en:

http://www.fao.org/faostat/

Contiene datos sobre la producción de alimentos para países de todo el mundo.

— setempler
fuente