Resultados teóricos detrás de las redes neuronales artificiales


13

Acabo de cubrir Redes Neuronales Artificiales en el curso de Aprendizaje Automático de Coursera y me gustaría saber más teoría detrás de ellos. La motivación de que imitan la biología me parece un tanto insatisfactoria.

En la superficie, parece que en cada nivel reemplazamos las covariables con una combinación lineal de ellas. Al hacerlo repetidamente, permitimos el ajuste de modelos no lineales. Esto plantea la pregunta: ¿por qué a veces se prefieren las redes neuronales a simplemente ajustar un modelo no lineal?

En términos más generales, me gustaría saber cómo las redes neuronales artificiales se ajustan al marco de inferencia bayesiano que se describe en detalle en el libro de ET Jaynes "Teoría de la probabilidad: la lógica de la ciencia". O, para decirlo simplemente, ¿por qué funcionan las redes neuronales artificiales cuando funcionan? Y, por supuesto, el hecho de que hagan predicciones exitosas implica que siguen el marco antes mencionado.

Respuestas:


16

Aquí hay una cita de " A Backward Look to the Future ", de ET Jaynes.

Nuevas adhockeries

En los últimos años, el hábito ortodoxo de inventar dispositivos intuitivos en lugar de apelar a los principios teóricos conectados se ha extendido a nuevos problemas de una manera que hace parecer al principio que se han creado varios nuevos campos de la ciencia. Sin embargo, a todos les preocupa el razonamiento a partir de información incompleta; y creemos que tenemos teoremas que establecen que la teoría de la probabilidad como lógica es el medio general para tratar todos esos problemas. Observamos tres ejemplos.

Los conjuntos difusos son, obviamente, para cualquier persona entrenada en inferencia bayesiana, aproximaciones crudas a las probabilidades previas bayesianas. Fueron creados solo porque sus practicantes persistieron en pensar en la probabilidad en términos de una "aleatoriedad" supuestamente existente en la Naturaleza pero nunca bien definida; y así concluyó que la teoría de probabilidad no es aplicable a tales problemas. Tan pronto como uno reconoce la probabilidad como la forma general de especificar información incompleta , desaparece la razón para introducir Conjuntos difusos.

Del mismo modo, gran parte de la Inteligencia Artificial (IA) es una colección de dispositivos intuitivos para razonar a partir de información incompleta que, como los más antiguos de las estadísticas ortodoxas, son aproximaciones a los métodos bayesianos y pueden utilizarse en una clase restringida de problemas; pero que arrojan conclusiones absurdas cuando intentamos aplicarlas a problemas fuera de esa clase. Nuevamente, sus practicantes están atrapados en esto solo porque continúan pensando que la probabilidad representa una "aleatoriedad" física en lugar de información incompleta. En la inferencia bayesiana, todos esos resultados están contenidos automáticamente, y bastante trivialmente, sin ninguna limitación a una clase restringida de problemas.

El gran desarrollo nuevo es Neural Nets, lo que significa un sistema de algoritmos con la maravillosa propiedad nueva de que son, como el cerebro humano, adaptativos para que puedan aprender de los errores del pasado y corregirse automáticamente (¡GUAU! ¡Qué gran idea!) . De hecho, no nos sorprende ver que las redes neuronales son realmente muy útiles en muchas aplicaciones; más que Fuzzy Sets o AI. Sin embargo, las redes neuronales actuales tienen dos defectos prácticos; (a) Producen una salida determinada por la entrada actual más la información de capacitación pasada. Esta salida es realmente una estimaciónde la respuesta adecuada, basada en toda la información disponible, pero no da indicios de su precisión, por lo que no nos dice qué tan cerca estamos de la meta (es decir, cuánto más entrenamiento se necesita); (b) Cuando se requiere una respuesta no lineal, se recurre a una función no lineal "sigmoide" estándar almacenada internamente, que con varias amplificaciones y mezclas lineales se puede hacer para aproximar, hasta cierto punto, la verdadera función no lineal. (Nota: énfasis mío).

Pero, ¿realmente necesitamos señalar que (1) Cualquier procedimiento que sea adaptativo es, por definición, un medio de tener en cuenta información incompleta; (2) El teorema de Bayes es precisamente la madre de todos los procedimientos adaptativos; la regla general para actualizar cualquier estado de conocimiento para tener en cuenta la nueva información; (3) Cuando estos problemas se formulan en términos bayesianos, un solo cálculo produce automáticamente la mejor estimación y su precisión; (4) Si se requiere la no linealidad, el teorema de Bayes genera automáticamente la función no lineal exacta solicitada por el problema, en lugar de intentar construir una aproximación a ella mediante otro dispositivo ad hoc .

En otras palabras, sostenemos que estos no son campos nuevos en absoluto; solo falsos comienzos. Si uno formula todos estos problemas con la receta Bayesiana estándar, automáticamente tiene todos sus resultados útiles en forma mejorada. Las dificultades que las personas parecen tener para comprender esto son ejemplos del mismo fracaso para conceptualizar la relación entre las matemáticas abstractas y el mundo real. Tan pronto como reconocemos que las probabilidades no describen la realidad, solo nuestra información sobre la realidad, las puertas están completamente abiertas a la solución óptima de los problemas de razonamiento a partir de esa información.

Algunos comentarios:

  1. El punto (a) ignora los desarrollos en las redes neuronales bayesianas, que comenzaron a fines de los ochenta y principios de los noventa (pero tenga en cuenta que el artículo de Jaynes fue escrito en 1993). Echa un vistazo a esta publicación . Además, considere leer la hermosa tesis doctoral de Yarin Gal y ver esta gran presentación de Zoubin Ghahramani.

  2. No veo cómo el punto (b) podría ser una "deficiencia". De hecho, es la esencia de por qué las redes neuronales pueden aproximarse bien a una gran clase de funciones. Observe que las arquitecturas exitosas recientes se movieron de activaciones sigmoideas a ReLU en las capas internas, favoreciendo la "profundidad" sobre la "amplitud". Los teoremas de aproximación han sido probados recientemente para redes ReLU.


2
+1 Nada es más satisfactorio que saber exactamente dónde se puede encontrar la referencia precisa para una respuesta.
Sycorax dice Reinstate Monica el

55
Dado que los dispositivos ad hoc demostraron que funcionan en muchas situaciones, sería productivo mostrar (o refutar) que simplemente encajan en el marco bayesiano y, por lo tanto, obtener una comprensión más profunda de las adhockeries, que están tan ampliamente implementadas. dias. Este es el tipo de trabajo que me interesa.
Tom Artiom Fiodorov

1

En primer lugar, no apilamos funciones lineales entre sí para obtener una función no lineal. Hay una razón clara por la cual los NN podrían nunca funcionar así: apilar funciones lineales entre sí produciría nuevamente una función lineal.

¡Lo que hace que los NN no sean lineales es la función de activación que viene detrás de la función lineal! Sin embargo, en principio tiene razón: simplemente apilamos muchas regresiones logísticas (¡aunque no lineales!) Entre sí y ... tadaa: obtenemos algo bueno de eso ... ¿es justo? Resulta que (desde un punto de vista teórico) en realidad es justo. Peor aún: utilizando el famoso y conocido Teorema de Stone-Weierstrass , simplemente demostramos que las redes neuronales con una sola capa oculta y sin función de salida en el nodo final son suficientes para aproximar cualquier función continua (y créanme, las funciones continuas pueden ser feas bestias, mira la "escalera del diablo": https://en.wikipedia.org/wiki/Cantor_distribution) en intervalos de la forma (NNs con una sola capa oculta y sin función de salida en el nodo final son funciones exactas de la forma donde es el tamaño de la capa oculta, es decir, polinomios en funciones logísticas y, por definición, forman un álgebra). Es decir, "por construcción", las NN son muy expresivas.[a,b]x↦=b+a1ϕ1(x)+...+alϕl(x)l

¿Por qué usamos NN profundos entonces? La razón es que el teorema de SW anterior solo garantiza que hay un tamaño de capa suficientemente grande para que podamos acercarnos a nuestra función objetivo (con suerte continua). Sin embargo, el tamaño de capa necesario puede ser tan grande que ninguna computadora pueda manejar matrices de peso de ese tamaño. Las NN con más capas ocultas parecen ser un buen compromiso entre 'precisión' y computabilidad. No conozco ningún resultado teórico que apunte en la dirección de 'cuánto' crece la expresividad de las NN cuando se colocan más capas ocultas en comparación con el solo aumento del tamaño de la capa oculta única, pero tal vez hay algunos recursos en la web ...

¿Podemos realmente entender las NN profundas? Preguntas de ejemplo: ¿Por qué exactamente el NN predice que este caso sea VERDADERO mientras que este otro caso similar es FALSO? ¿Por qué exactamente califica a este cliente más valioso que el otro? Realmente no lo creo. Viene con la complejidad del modelo que ya no se puede explicar razonablemente bien ... Solo escucho que todavía es un área activa de investigación, pero no conozco ningún recurso ...

¿Qué hace que las NN sean tan únicas entre todos los modelos? La verdadera razón por la que usamos tanto NN en estos días se debe a las siguientes dos razones:

  1. Vienen con una propiedad natural de 'transmisión'.
  2. Podemos aumentarlos al máximo en muchas direcciones.

Por 1. Quiero decir que dado un conjunto de entrenamiento , un NN que fue entrenado en este conjunto y algunas nuevas muestras de entrenamiento , podemos incluir fácilmente estas muestras de entrenamiento en el NN simplemente continuando el algoritmo de descenso de gradiente / backprop mientras solo seleccionando lotes de para el entrenamiento. Toda el área de aprendizaje de refuerzo (utilizada para ganar juegos como Tic Tac Toe, Pong , Chess, Go, muchos juegos diferentes de Atari con un solo modelo , etc.) se basa en esta propiedad. La gente ha intentado infundir esta propiedad de transmisión a otros modelos (por ejemplo, Gradient Boosting) pero no es tan natural y no es tan computacionalmente barata como en la configuración de NN.TfTTT

Por 2. Quiero decir que las personas han capacitado a las NN para hacer las cosas más extrañas, pero en principio simplemente usaron el mismo marco: apilar funciones fluidas entre sí y luego dejar que la computadora (es decir, PyTorch / Tensorflow) haga los cálculos sucios para usted como la computación la derivada de la función de pérdida wrt los pesos. Un ejemplo sería este artículodonde la gente ha utilizado el enfoque RL y también ha mejorado la arquitectura de la NN para aprender el lenguaje complejo de las sustancias químicas al enseñarle cómo operar en una pila de memoria (!). Trate de hacerlo con un aumento de gradiente ;-) La razón por la que deben hacerlo es que el lenguaje de los productos químicos es al menos tan 'difícil de aprender' como el lenguaje de paréntesis (es decir, cada paréntesis de apertura tiene un cierre más adelante en la palabra ) porque el lenguaje SMILES que las personas usan para describir moléculas contiene los símbolos '(' y ')'. De la informática teórica (jerarquía de Chomsky) se sabe que no se puede describir este lenguaje con un autómata regular, pero se necesita un autómata de bajada (es decir, un autómata con memoria de pila). Esa fue la motivación para ellos (supongo) para enseñar esta cosa rara a la NN.


-1

"¿Por qué funciona cuando funciona?"

n

Por lo tanto, todo el aprendizaje automático es similarmente ad hoc.

El aprendizaje automático es similar a la alquimia: hay muchas recetas enigmáticas, aplica una y puede obtener oro. Si no, simplemente aplique otra receta.

Nadie hace la pregunta que usted hizo, al menos no en las publicaciones que conozco.

Además de esto, hay una teoría del aprendizaje estadístico. La teoría del aprendizaje estadístico supone que el tamaño del conjunto de entrenamiento es infinito. La mayoría de los resultados que conozco tienen la forma: "bajo ciertas condiciones, si tienes un conjunto de entrenamiento lo suficientemente grande, puedes obtener el mejor resultado posible con este procedimiento". Las estimaciones de lo que es "lo suficientemente grande" están más allá de la imaginación.

Por supuesto, el problema es que el tamaño del conjunto de entrenamiento no va a ninguna parte, y mucho menos al infinito.

Entonces, creo que es un buen momento para (1) hacer esta pregunta, (2) desarrollar un aparato matemático para responder la pregunta sobre todos los posibles algoritmos de aprendizaje automático y (3) responder esta pregunta.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.