Primero, recomendaría comenzar con los datos de muestra que se proporcionan con el software. La mayoría de las distribuciones de software incluyen datos de ejemplo que puede utilizar para familiarizarse con el algoritmo sin tener que lidiar con los tipos de datos y luchar con los datos en el formato correcto para el algoritmo. Incluso si está creando un algoritmo desde cero, puede comenzar con la muestra de una implementación similar y comparar el rendimiento.
En segundo lugar, recomendaría experimentar con conjuntos de datos sintéticos para tener una idea de cómo funciona el algoritmo cuando se sabe cómo se generaron los datos y la relación señal / ruido.
En R, puede enumerar todos los conjuntos de datos en los paquetes instalados actualmente con este comando:
data(package = installed.packages()[, 1])
El paquete R mlbench tiene conjuntos de datos reales y puede generar conjuntos de datos sintéticos que son útiles para estudiar el rendimiento del algoritmo.
El scikit-learn de Python tiene datos de muestra y también genera conjuntos de datos sintéticos / de juguete.
SAS tiene un conjunto de datos de capacitación disponible para descargar y los datos de muestra de SPSS se instalan con el software en C: \ Archivos de programa \ IBM \ SPSS \ Statistics \ 22 \ Samples
Por último, miraría los datos en la naturaleza. Compararía el rendimiento de diferentes algoritmos y parámetros de ajuste en conjuntos de datos reales. Esto generalmente requiere mucho más trabajo porque rara vez encontrará conjuntos de datos con tipos y estructuras de datos que pueda colocar directamente en sus algoritmos.
Para datos en estado salvaje, recomendaría:
Archivo de conjunto de datos de reddit
Lista de KDnugget