Uno de los problemas comunes en la ciencia de datos es reunir datos de varias fuentes en un formato de alguna manera limpio (semi-estructurado) y combinar métricas de varias fuentes para hacer un análisis de nivel superior. Al observar el esfuerzo de otras personas, especialmente otras preguntas en este sitio, parece que muchas personas en este campo están haciendo un trabajo repetitivo. Por ejemplo, analizar tweets, publicaciones de Facebook, artículos de Wikipedia, etc. es parte de muchos problemas de big data.
Se puede acceder a algunos de estos conjuntos de datos mediante las API públicas proporcionadas por el sitio del proveedor, pero por lo general, algunas API o información valiosa faltan y todos tienen que hacer los mismos análisis una y otra vez. Por ejemplo, aunque la agrupación de usuarios puede depender de diferentes casos de uso y la selección de características, tener una agrupación base de usuarios de Twitter / Facebook puede ser útil en muchas aplicaciones de Big Data, que no es proporcionada por la API ni disponible públicamente en conjuntos de datos independientes .
¿Existe algún índice o sitio de alojamiento de conjuntos de datos disponible públicamente que contenga conjuntos de datos valiosos que puedan reutilizarse para resolver otros problemas de big data? Me refiero a algo como GitHub (o un grupo de sitios / conjuntos de datos públicos o al menos una lista completa) para la ciencia de datos. Si no es así, ¿cuáles son las razones para no tener una plataforma para la ciencia de datos? El valor comercial de los datos, necesita actualizar con frecuencia conjuntos de datos, ...? ¿No podemos tener un modelo de código abierto para compartir conjuntos de datos diseñados para científicos de datos?