¿Cuántos ejemplos de entrenamiento son muy pocos cuando se entrena una red neuronal?

Soy un principiante tratando de armar mi primer proyecto. Tenía en mente un proyecto de clasificación de canciones, pero dado que etiquetaría manualmente, solo podía reunir alrededor de 1000 canciones o 60 horas de música.

Estaría clasificando con varias clases, por lo que es posible que una clase tenga tan solo 50-100 canciones en el conjunto de entrenamiento, ¡esto parece muy poco! ¿Existe una regla general para la cantidad de datos que se necesitan para entrenar una red neuronal para que funcione?

Editar: Estaba pensando en usar un LSTM de vainilla. Las características de entrada tendrán dimensión 39, dimensión de salida 6, mi primer intento de dimensión de capa oculta sería 100.

neural-networks

— Arrey
fuente

Esto no es realmente responsable porque no todas las tareas son fáciles, y diferentes arquitecturas de red y selecciones de hiperparámetros mejorarán / dañarán diferentes modelos de diferentes maneras.

— Sycorax dice Reinstate Monica el

Como mínimo, debe especificar la estructura de su red y cuántos enlaces habrá para capacitar.

— gung - Restablece a Monica

Realmente depende de su conjunto de datos y arquitectura de red. Una regla general que he leído (2) fueron unos pocos miles de muestras por clase para que la red neuronal comenzara a funcionar muy bien.

En la práctica, la gente trata de ver. No es raro encontrar estudios que muestren resultados decentes con un conjunto de entrenamiento de menos de 1000 muestras.

Una buena manera de evaluar aproximadamente hasta qué punto podría ser beneficioso tener más muestras de entrenamiento es trazar el rendimiento de la red neuronal en función del tamaño del conjunto de entrenamiento, por ejemplo, de (1):

(1) Dernoncourt, Franck, Ji Young Lee, Ozlem Uzuner y Peter Szolovits. " Desidentificación de notas de pacientes con redes neuronales recurrentes Desidentificación " arXiv preprint arXiv: 1606.03475 (2016).
(2) Cireşan, Dan C., Ueli Meier y Jürgen Schmidhuber. "Transferir el aprendizaje de caracteres latinos y chinos con redes neuronales profundas". En The 2012 International Joint Conference on Neural Networks (IJCNN), págs. 1-6. IEEE, 2012. https://scholar.google.com/scholar?cluster=7452424507909578812&hl=es&as_sdt=0,22 ; http://people.idsia.ch/~ciresan/data/ijcnn2012_v9.pdf :

Para tareas de clasificación con unos pocos miles de muestras por clase , el beneficio de la capacitación previa (sin supervisión o supervisada) no es fácil de demostrar.

— Franck Dernoncourt
fuente