¿Por qué el aprendizaje profundo no funciona bien con una pequeña cantidad de datos?

Soy nuevo en el aprendizaje profundo, por lo que esta podría ser una pregunta trivial. Pero me pregunto por qué el aprendizaje profundo (o red neuronal) no funciona muy bien en datos pequeños etiquetados. Cualesquiera que sean los trabajos de investigación que he leído, sus conjuntos de datos son enormes. Intuitivamente, eso no es sorprendente porque nuestro cerebro tarda mucho tiempo en entrenarse. Pero, ¿hay alguna prueba matemática o razón por la cual la red neuronal no funciona bien en tales casos?

neural-networks deep-learning

— bluechill
fuente

Las redes neuronales utilizadas en los modelos típicos de aprendizaje profundo tienen una gran cantidad de nodos con muchas capas y, por lo tanto, muchos parámetros que deben estimarse. Esto requiere muchos datos. Una red neuronal pequeña (con menos capas y menos parámetros libres) se puede entrenar con éxito con un pequeño conjunto de datos, pero esto generalmente no se describiría como "aprendizaje profundo".

— dcorney
fuente

+1. La complejidad del modelo siempre debe crecer lentamente con el tamaño de la muestra, y el aprendizaje profundo es un modelo bastante complejo, lo que implica que generalmente no funcionará bien para tamaños de muestra pequeños. Los Elementos del aprendizaje estadístico ( disponibles para descargar de forma gratuita ) discuten esto, muy recomendable.

— Stephan Kolassa

Gracias. ¿Significa eso que si todavía trato de aprender un modelo usando datos pequeños, voy a sobreajustar el modelo?

— bluechill

Es más probable que se sobreajuste si tiene una pequeña cantidad de datos en relación con el número de parámetros en su modelo; esto es cierto para cualquier modelo. Puede agregar regularizadores (por ejemplo, penalizar grandes pesos, agregar ruido a los datos de entrada, abandonar unidades ocultas, etc.) a su modelo para ayudar a evitar esto, pero es una especie de arte en lugar de una ciencia en este momento.

— lmjohns3