¿Dónde puedo encontrar conjuntos de datos útiles para probar mis propias implementaciones de Machine Learning? [cerrado]

Actualmente estoy tratando de implementar algunos algoritmos de Machine Learning por mi cuenta. Muchos de ellos tienen la desagradable propiedad de ser difíciles de depurar, algunos errores no hacen que el programa se bloquee, sino que funcionan de la manera no deseada y los algoritmos solo dan resultados más débiles.

Me gustaría tener alguna forma de aumentar mi confianza en la implementación, por ejemplo, si tuviera algunos conjuntos de datos pequeños, con información adicional "Algoritmos X funcionó para las iteraciones Y y obtuve resultados Z en este conjunto de datos", eso sería realmente útil. ¿Alguien ha oído hablar de tales conjuntos de datos?

dataset

— sjm.majewski
fuente

¿Qué investigación has hecho al investigar esta pregunta? A primera vista, uno pensaría que la literatura que está utilizando para encontrar estos algoritmos estaría repleta de conjuntos de datos de muestra.

— whuber

Bueno, conozco ML principalmente del curso universitario, Coursea, videos de conferencias en Internet y algunos documentos que he leído sobre temas específicos. Sé que hay muchos conjuntos de datos de muestra en todas partes, pero estoy buscando algunos con información sobre cómo los diferentes algoritmos de ML se desempeñaron en ellos, para poder validar mis propias implementaciones.

— sjm.majewski

Recientemente hubo un buen documento en ICML sobre el problema con los conjuntos de datos estandarizados: que le impide pensar demasiado sobre los problemas del mundo real y el desorden que implican los problemas del mundo real. Personalmente, cuando comencé a usar datos del mundo real, mi habilidad como practicante floreció. Así que, aunque no te desanimaría de usar cosas como UCI como trampolín o prueba, ¡no pierdas de vista el premio!

— Patrick Caldon el

Debe especificar qué tipo de aprendizaje automático está haciendo. Los conjuntos de datos de clasificación binaria son diferentes de los conjuntos de datos de aproximación de funciones (regresión).

— Douglas Zare

stackoverflow.com/questions/3272806/…

— Abhishek Gupta

Respuestas:

Desde el repositorio de UC Irvine Machine Learning :

Actualmente mantenemos 223 conjuntos de datos como un servicio para la comunidad de aprendizaje automático. Puede ver todos los conjuntos de datos a través de nuestra interfaz de búsqueda. Nuestro antiguo sitio web aún está disponible para aquellos que prefieren el formato anterior. ... Si desea donar un conjunto de datos, consulte nuestra política de donación. ... También hemos configurado un sitio espejo para el repositorio.

Además, el siguiente conjunto de datos MIAS ha sido ampliamente utilizado y estudiado:

Al comparar un algoritmo, es recomendable utilizar una base de datos de prueba estándar (conjunto de datos) para que los investigadores puedan comparar directamente los resultados. La mayoría de las bases de datos mamográficas no están disponibles públicamente. Las bases de datos de acceso más fácil y, por lo tanto, las bases de datos más utilizadas son la base de datos de la Sociedad de Análisis de Imagen de Mamografía (MIAS) y la Base de datos digital para mamografía de detección (DDSM). Además, actualmente hay pocos proyectos que desarrollen nuevas bases de datos de imágenes mamográficas, así como varios proyectos antiguos.

— deepML
fuente

+1 Si continúa encontrando más fuentes, no dude en aumentar esta respuesta.

— whuber

El repositorio UCI mencionado por Bashar es probablemente el más grande, sin embargo, quería agregar un par de colecciones más pequeñas que encontré:

Conjuntos de datos de la biblioteca Mulan Java
Conjuntos de datos del laboratorio Auton de la Facultad de Informática de la Universidad Carnegie Mellon
Conjuntos de datos utilizados en los elementos del libro de aprendizaje estadístico
Varios conjuntos de datos de competiciones de la Copa KDD
Conjuntos de datos en el Departamento de Estadística , Universidad de Munich

— sebp
fuente