Los principales beneficios supuestos:
(1) No es necesario realizar funciones de ingeniería manual para problemas de aprendizaje no lineales (ahorre tiempo y se pueda ampliar al futuro, ya que algunos consideran que la ingeniería manual es una curita a corto plazo)
(2) Las características aprendidas a veces son mejores que las mejores características diseñadas a mano, y pueden ser tan complejas (visión por computadora, por ejemplo, características de cara) que tomaría demasiado tiempo humano diseñarlas.
(3) Puede usar datos sin etiquetar para entrenar previamente la red. Supongamos que tenemos 1000000 imágenes sin etiquetar y 1000 imágenes etiquetadas. Ahora podemos mejorar drásticamente un algoritmo de aprendizaje supervisado mediante la capacitación previa en las imágenes no etiquetadas 1000000 con aprendizaje profundo. Además, en algunos dominios tenemos tantos datos sin etiquetar, pero los datos etiquetados son difíciles de encontrar. Un algoritmo que puede usar estos datos sin etiquetar para mejorar la clasificación es valioso.
(4) Empíricamente, rompió muchos puntos de referencia que solo veían mejoras incrementales hasta la introducción de métodos de aprendizaje profundo.
(5) El mismo algoritmo funciona en múltiples áreas con entradas sin procesar (quizás con preprocesamiento menor).
(6) Sigue mejorando a medida que se envían más datos a la red (suponiendo distribuciones estacionarias, etc.).