¿Qué componentes modificables de un sistema de aprendizaje son responsables de su éxito o fracaso? ¿Qué cambios a ellos mejoran el rendimiento? Este ha sido llamado el problema fundamental de asignación de crédito (Minsky, 1963). Existen métodos generales de asignación de créditos para los solucionadores de problemas universales que son óptimos en el tiempo en varios sentidos teóricos (Sec. 6.8). Sin embargo, la presente encuesta se centrará en el subcampo más estrecho, pero ahora comercialmente importante, de aprendizaje profundo (DL) en redes neuronales artificiales (NN).
Una red neuronal estándar (NN) consta de muchos procesadores simples y conectados llamados neuronas, cada uno de los cuales produce una secuencia de activaciones de valor real. Las neuronas de entrada se activan a través de sensores que perciben el entorno, otras neuronas se activan a través de conexiones ponderadas de neuronas previamente activas (detalles en la sección 2). Algunas neuronas pueden influir en el medio ambiente al desencadenar acciones. El aprendizaje o la asignación de crédito se trata de encontrar pesos que hagan que el NN exhiba el comportamiento deseado, como conducir un automóvil. Dependiendo del problema y de cómo están conectadas las neuronas, tal comportamiento puede requerir largas cadenas causales de etapas computacionales (Sec. 3), donde cada etapa transforma (a menudo de manera no lineal) la activación agregada de la red. Deep Learning se trata de asignar créditos con precisión en muchas de esas etapas.
Los modelos poco profundos tipo NN con pocas etapas de este tipo han existido durante muchas décadas, si no siglos (Sección 5.1). Los modelos con varias capas sucesivas de neuronas no lineales se remontan al menos a la década de 1960 (Sec. 5.3) y 1970 (Sec. 5.5). En las décadas de 1960 y 1970, se desarrolló un método eficiente de descenso de gradiente para el aprendizaje supervisado (SL) basado en el maestro en redes discretas y diferenciables de profundidad arbitraria llamada backpropagation (BP), y se aplicó a las NN en 1981 (Sec. 5.5). Sin embargo, a fines de los años ochenta se descubrió que la capacitación basada en BP de NN profundos con muchas capas era difícil en la práctica (sección 5.6) y se había convertido en un tema de investigación explícito a principios de la década de 1990 (sección 5.9). DL se volvió prácticamente factible hasta cierto punto a través de la ayuda de aprendizaje no supervisado (UL), por ejemplo, Sec. 5.10 (1991), sec. 5.15 (2006). Las décadas de 1990 y 2000 también vieron muchas mejoras de DL puramente supervisada (Sec. 5). En el nuevo milenio, las NN profundas finalmente han atraído la atención generalizada, principalmente al superar los métodos alternativos de aprendizaje automático, como las máquinas kernel (Vapnik, 1995; Scholkopf et al., 1998) en numerosas aplicaciones importantes. De hecho, desde 2009, las NN profundas supervisadas han ganado muchas competiciones internacionales oficiales de reconocimiento de patrones (por ejemplo, Sec. 5.17, 5.19, 5.21, 5.22), logrando los primeros resultados de reconocimiento visual de patrones sobrehumanos en dominios limitados (Sec. 5.19, 2011). Las NN profundas también se han vuelto relevantes para el campo más general del aprendizaje de refuerzo (RL) donde no hay un maestro supervisor (Sec. 6). principalmente superando a los métodos alternativos de aprendizaje automático, como las máquinas kernel (Vapnik, 1995; Scholkopf et al., 1998) en numerosas aplicaciones importantes. De hecho, desde 2009, las NN profundas supervisadas han ganado muchas competiciones internacionales oficiales de reconocimiento de patrones (por ejemplo, Sec. 5.17, 5.19, 5.21, 5.22), logrando los primeros resultados de reconocimiento visual de patrones sobrehumanos en dominios limitados (Sec. 5.19, 2011). Las NN profundas también se han vuelto relevantes para el campo más general del aprendizaje de refuerzo (RL) donde no hay un maestro supervisor (Sec. 6). principalmente superando a los métodos alternativos de aprendizaje automático, como las máquinas kernel (Vapnik, 1995; Scholkopf et al., 1998) en numerosas aplicaciones importantes. De hecho, desde 2009, las NN profundas supervisadas han ganado muchas competiciones internacionales oficiales de reconocimiento de patrones (por ejemplo, Sec. 5.17, 5.19, 5.21, 5.22), logrando los primeros resultados de reconocimiento visual de patrones sobrehumanos en dominios limitados (Sec. 5.19, 2011). Las NN profundas también se han vuelto relevantes para el campo más general del aprendizaje de refuerzo (RL) donde no hay un maestro supervisor (Sec. 6). lograr el primer reconocimiento de patrón visual sobrehumano da como resultado dominios limitados (Sec. 5.19, 2011). Las NN profundas también se han vuelto relevantes para el campo más general del aprendizaje de refuerzo (RL) donde no hay un maestro supervisor (Sec. 6). lograr el primer reconocimiento de patrón visual sobrehumano da como resultado dominios limitados (Sec. 5.19, 2011). Las NN profundas también se han vuelto relevantes para el campo más general del aprendizaje de refuerzo (RL) donde no hay un maestro supervisor (Sec. 6).
Por otro lado, no estoy seguro de que sea necesariamente rentable intentar construir una taxonomía de cubos mutuamente excluyentes para las estrategias de aprendizaje automático. Creo que podemos decir que hay perspectivas desde las cuales los modelos pueden verse como redes neuronales. No creo que esa perspectiva sea necesariamente la mejor o útil en todos los contextos. Por ejemplo, todavía planeo referirme a bosques aleatorios y árboles impulsados por gradientes como "conjuntos de árboles" en lugar de abstraer sus distinciones y llamarlos "árboles de redes neuronales". Además, Schmidhuber distingue las NN de las máquinas del núcleo, a pesar de que las máquinas del núcleo tienen algunas conexiones con las NN, cuando escribe "En el nuevo milenio, las NN profundas finalmente han atraído la atención generalizada, principalmente superando los métodos alternativos de aprendizaje automático, como las máquinas kernel ... en numerosas aplicaciones importantes. "