Soy nuevo en el aprendizaje profundo, por lo que esta podría ser una pregunta trivial. Pero me pregunto por qué el aprendizaje profundo (o red neuronal) no funciona muy bien en datos pequeños etiquetados. Cualesquiera que sean los trabajos de investigación que he leído, sus conjuntos de datos son enormes. Intuitivamente, eso no es sorprendente porque nuestro cerebro tarda mucho tiempo en entrenarse. Pero, ¿hay alguna prueba matemática o razón por la cual la red neuronal no funciona bien en tales casos?