Advierto contra esperar un gran parecido entre las redes neuronales biológicas y artificiales. Creo que el nombre de "redes neuronales" es un poco peligroso, porque engaña a las personas para que esperen que los procesos neurológicos y el aprendizaje automático sean los mismos. Las diferencias entre las redes neuronales biológicas y artificiales superan las similitudes.
Como ejemplo de cómo esto puede salir mal, también puede cambiar el razonamiento en la publicación original. Puede entrenar una red neuronal para aprender a reconocer los automóviles en una tarde, siempre que tenga una computadora razonablemente rápida y cierta cantidad de datos de entrenamiento. Puede hacer de esto una tarea binaria (automóvil / no automóvil) o una tarea de varias clases (automóvil / tranvía / bicicleta / avión / barco) y aún así tener confianza en un alto nivel de éxito.
Por el contrario, no esperaría que un niño pueda escoger un automóvil el día, o incluso la semana, después de que nazca, incluso después de haber visto "tantos ejemplos de entrenamiento". Obviamente, algo es diferente entre un niño de dos años y un bebé que explica la diferencia en la capacidad de aprendizaje, mientras que una red neuronal de clasificación de imágenes vainilla es perfectamente capaz de recoger la clasificación de objetos inmediatamente después del "nacimiento". Creo que hay dos diferencias importantes: (1) los volúmenes relativos de datos de entrenamiento disponibles y (2) un mecanismo de autoaprendizaje que se desarrolla con el tiempo debido a los abundantes datos de entrenamiento.
La publicación original expone dos preguntas. El título y el cuerpo de la pregunta preguntan por qué las redes neuronales necesitan "tantos ejemplos". En relación con la experiencia de un niño, las redes neuronales entrenadas utilizando puntos de referencia de imágenes comunes tienen relativamente pocos datos.
Reformularé la pregunta en el título para
"¿Cómo se compara y contrasta el entrenamiento de una red neuronal para un punto de referencia de imagen común con la experiencia de aprendizaje de un niño?"
En aras de la comparación, consideraré los datos CIFAR-10 porque es un punto de referencia de imagen común. La parte etiquetada se compone de 10 clases de imágenes con 6000 imágenes por clase. Cada imagen es de 32x32 píxeles. Si de alguna manera apiló las imágenes etiquetadas de CIFAR-10 e hizo un video estándar de 48 fps, tendría unos 20 minutos de metraje.
Un niño de 2 años que observa el mundo durante 12 horas diarias tiene aproximadamente 263000 minutos (más de 4000 horas) de observaciones directas del mundo, incluidas las opiniones de los adultos (etiquetas). (Estas son solo cifras aproximadas: no sé cuántos minutos ha pasado un niño típico de dos años observando el mundo). Además, el niño estará expuesto a muchos, muchos objetos más allá de las 10 clases que comprenden CIFAR- 10)
Así que hay algunas cosas en juego. Una es que el niño está expuesto a más datos en general y a una fuente de datos más diversa que el modelo CIFAR-10. La diversidad de datos y el volumen de datos están bien reconocidos como requisitos previos para modelos robustos en general. A la luz de esto, no parece sorprendente que una red neuronal sea peor en esta tarea que el niño, porque una red neuronal entrenada en CIFAR-10 está hambrienta de datos de entrenamiento en comparación con el niño de dos años. La resolución de imagen disponible para un niño es mejor que las imágenes CIFAR-10 de 32x32, por lo que el niño puede aprender información sobre los detalles finos de los objetos.
La comparación de CIFAR-10 a dos años no es perfecta porque el modelo CIFAR-10 probablemente se entrenará con múltiples pases sobre las mismas imágenes estáticas, mientras que el niño verá, usando visión binocular, cómo se organizan los objetos en tres -dimensional mientras se mueve y con diferentes condiciones de iluminación y perspectivas sobre los mismos objetos.
La anécdota sobre el hijo de OP implica una segunda pregunta,
"¿Cómo pueden las redes neuronales convertirse en autodidactas?"
Un niño está dotado de cierto talento para la autoaprendizaje, de modo que se pueden agregar nuevas categorías de objetos a lo largo del tiempo sin tener que comenzar desde cero.
El comentario de OP sobre el aprendizaje por transferencia menciona un tipo de adaptación del modelo en el contexto de aprendizaje automático.
En los comentarios, otros usuarios han señalado que el aprendizaje de un solo disparo * es otra área de investigación de aprendizaje automático.
Además, el aprendizaje por refuerzo aborda los modelos de autoaprendizaje desde una perspectiva diferente, esencialmente permitiendo a los robots realizar experimentos de prueba y error para encontrar estrategias óptimas para resolver problemas específicos (por ejemplo, jugar al ajedrez).
Probablemente sea cierto que estos tres paradigmas de aprendizaje automático están relacionados con la mejora de la forma en que las máquinas se adaptan a las nuevas tareas de visión por computadora. Adaptar rápidamente los modelos de aprendizaje automático a nuevas tareas es un área activa de investigación. Sin embargo, debido a que los objetivos prácticos de estos proyectos (identificar nuevas instancias de malware, reconocer impostores en fotos de pasaportes, indexar Internet) y los criterios para el éxito difieren de los objetivos de un niño que aprende sobre el mundo, y el hecho de que uno se hace en Si una computadora usa matemáticas y la otra está hecha de material orgánico usando química, las comparaciones directas entre ambas seguirán siendo complejas.
Por otro lado, sería interesante estudiar cómo dar la vuelta al problema CIFAR-10 y entrenar una red neuronal para reconocer 6000 objetos de 10 ejemplos de cada uno. Pero incluso esto no sería una comparación justa con un niño de 2 años, porque todavía habría una gran discrepancia en el volumen total, la diversidad y la resolución de los datos de capacitación.
* Actualmente no tenemos etiquetas para el aprendizaje de un disparo o el aprendizaje de pocos disparos.