Estaba escuchando una charla y vi esta diapositiva:
Que tan cierto es
Estaba escuchando una charla y vi esta diapositiva:
Que tan cierto es
Respuestas:
Estaba navegando por AI StackExchange y me encontré con una pregunta muy similar: ¿Qué distingue el "Aprendizaje profundo" de otras redes neuronales?
Como AI StackExchange se cerrará mañana (nuevamente), copiaré las dos respuestas principales aquí (contribuciones de usuarios con licencia bajo cc by-sa 3.0 con atribución requerida):
Autor: mommi84less
Dos documentos de 2006 bien citados devolvieron el interés de la investigación al aprendizaje profundo. En "Un algoritmo de aprendizaje rápido para redes de creencias profundas" , los autores definen una red de creencias profundas como:
[...] redes de creencias densamente conectadas que tienen muchas capas ocultas.
Encontramos casi la misma descripción para redes profundas en " Greedy Layer-Wise Training of Deep Networks" :
Las redes neuronales profundas de capas múltiples tienen muchos niveles de no linealidades [...]
Luego, en la encuesta "Aprendizaje de representación: una revisión y nuevas perspectivas" , el aprendizaje profundo se utiliza para abarcar todas las técnicas (ver también esta charla ) y se define como:
[...] construyendo múltiples niveles de representación o aprendiendo una jerarquía de características.
El adjetivo "profundo" fue utilizado por los autores anteriores para resaltar el uso de múltiples capas ocultas no lineales .
Autor: lejlot
Solo para agregar a la respuesta @ mommi84.
El aprendizaje profundo no se limita a las redes neuronales. Este es un concepto más amplio que solo los DBN de Hinton, etc. El aprendizaje profundo se trata de
construyendo múltiples niveles de representación o aprendiendo una jerarquía de características.
Por lo tanto, es un nombre para algoritmos de aprendizaje de representación jerárquica . Hay modelos profundas basado en modelos ocultos de Markov, condicional Random Fields, Máquinas de vectores de soporte, etc. Lo único punto en común es, que en lugar de (popular en los años 90) de ingeniería característica , donde los investigadores estaban tratando de crear un conjunto de características, que es el mejor para resolver algún problema de clasificación: estas máquinas pueden resolver su propia representación a partir de datos sin procesar. En particular, aplicados al reconocimiento de imágenes (imágenes en bruto) producen una representación de varios niveles que consiste en píxeles, luego líneas, luego rasgos faciales (si estamos trabajando con rostros) como narices, ojos y, finalmente, caras generalizadas. Si se aplica al procesamiento del lenguaje natural, construyen un modelo de lenguaje que conecta palabras en fragmentos, fragmentos en oraciones, etc.
Otra diapositiva interesante:
Se dice que la deserción, de Hinton en 2006, es la mayor mejora en el aprendizaje profundo de los últimos 10 años, ya que reduce mucho el sobreajuste.
Esta es ciertamente una pregunta que provocará controversia.
Cuando las redes neuronales se usan en el aprendizaje profundo, generalmente se entrenan de formas que no se usaban en la década de 1980. En particular, se afirma que las estrategias que pre-entrenan a las capas individuales de la red neuronal para reconocer características en diferentes niveles hacen que sea más fácil entrenar redes con varias capas. Ese es ciertamente un nuevo desarrollo desde la década de 1980.
La clave es la palabra "profundo" en el aprendizaje profundo. Alguien (olvidó la referencia) en los años 80 demostró que todas las funciones no lineales podían ser aproximadas por una red neuronal de capa única con, por supuesto, un número suficientemente grande de unidades ocultas. Creo que este resultado probablemente desanimó a las personas a buscar una red más profunda en la era anterior.
Pero la profundidad de la red es lo que resultó ser el elemento crucial en la representación jerárquica que impulsa el éxito de muchas de las aplicaciones actuales.
No exactamente, el ANN comienza en los años 50. Echa un vistazo a una de las diapositivas de las estrellas de rock de ML Yann LeCun para una introducción auténtica y completa. http://www.cs.nyu.edu/~yann/talks/lecun-ranzato-icml2013.pdf