Respuestas:
En general, uno puede pensar en dos tipos de resultados de dureza en el aprendizaje automático: la dureza teórica de la información en el contexto del aprendizaje estadístico (es decir, dar un límite inferior al número mínimo de ejemplos necesarios para aprender) y la dureza algorítmica (es decir, una mala elección algorítmica significa que la optimización se vuelve imposible).
En el contexto del aprendizaje profundo, discutir la dureza es complicado, ya que en realidad sabemos muy poco en términos de por qué el aprendizaje teórico profundo funciona. (Recuerde: El problema de optimización resuelto en el aprendizaje profundo es el de minimizar una función altamente convexa de alta dimensión, y se sabe que es NP-hard en general, es decir, no hay garantías de que alcancen el mínimo global. Y, sin embargo, en la práctica, los profesionales han usado variantes de SGD para resolver muchos problemas muy bien. Ha habido algunos avances recientes en dar una respuesta justificable de por qué esto es así, pero esto está fuera del alcance de su pregunta).
Un buen ejemplo para la dureza algorítmica en el aprendizaje profundo es tratar de aprender problemas en los que el gradiente no es informativo. El aprendizaje profundo actualmente usa alguna forma de SGD para actualizar los pesos de la red. por ejemplo, mini-lotes GD calcula el gradiente de la función de costo sobre una muestra aleatoria de ejemplos wrt a los parámetros :
En otras palabras, la optimización de DL está tratando de optimizar globalmente una función mediante el uso de información de gradiente local ; Esto sugiere que si un problema de aprendizaje se caracteriza por gradientes no informativos, entonces ninguna arquitectura de aprendizaje profundo podrá aprenderlo.
Aprender paridades aleatorias es el siguiente problema de aprendizaje:
Después de elegir un vector , el objetivo es entrenar un mapeo predictor to , donde es uniforme repartido. En otras palabras, estamos tratando de aprender un mapeo que determine si el número de 1 en un determinado subconjunto de coordenadas de (indicado por ) es par o impar.
En "Fallos del aprendizaje profundo basado en gradientes" ( Shamir, 2017 ), los autores demuestran que este problema (y, en general, cada función lineal compuesta por una periódica ) sufre de gradientes no informativos, lo que dificulta el problema de optimización .
También demuestran esto empíricamente, midiendo la precisión en función del número de iteraciones de entrenamiento, para varias dimensiones de entrada.
La red utilizada aquí es una capa completamente conectada de ancho con activaciones ReLU, y una capa de salida completamente conectada con activación lineal y una sola unidad. (El ancho se elige para garantizar que la función de paridad requerida sea efectivamente realizada por dicha red)
P: ¿Por qué la paridad de aprendizaje solo se vuelve difícil alrededor de ?
Falla cuando no impones la estructura correcta al problema. Las redes neuronales convolucionales funcionan porque suponen que los píxeles cercanos entre sí están relacionados, por lo que tiene sentido aplicar convoluciones espaciales a sus características. Y al hacerlo, ha reducido drásticamente el espacio de búsqueda de hipótesis, lo que significa que es más probable que el aprendizaje profundo llegue a una solución óptima.
Si aplica el aprendizaje profundo a un problema en el que las características no son susceptibles a convoluciones espaciales / temporales, entonces el aprendizaje profundo fallará, porque no tiene sentido resumir ciertas características y aplicar funciones a la suma, que es lo que las redes neuronales lo hacen.
Si alguien puede pensar en un ejemplo de dónde el aprendizaje profundo se ha aplicado con éxito a datos que no son imágenes o audio (o datos espaciales / temporales), estaría encantado de retractar esta respuesta.