¿Las redes neuronales modulares son más efectivas que las redes grandes y monolíticas en cualquier tarea?

16

Las redes neuronales modulares / múltiples (MNN) giran en torno al entrenamiento de redes más pequeñas e independientes que pueden alimentarse entre sí o en otra red superior.

En principio, la organización jerárquica podría permitirnos dar sentido a espacios problemáticos más complejos y alcanzar una mayor funcionalidad, pero parece difícil encontrar ejemplos de investigaciones concretas realizadas en el pasado sobre esto. He encontrado algunas fuentes:

https://en.wikipedia.org/wiki/Modular_neural_network

https://www.teco.edu/~albrecht/neuro/html/node32.html

https://vtechworks.lib.vt.edu/bitstream/handle/10919/27998/etd.pdf?sequence=1&isAllowed=y

Algunas preguntas concretas que tengo:

¿Ha habido alguna investigación reciente sobre el uso de MNN?
¿Hay alguna tarea en la que los MNN hayan mostrado un mejor rendimiento que las redes individuales grandes?
¿Podrían usarse los MNN para la clasificación multimodal, es decir, entrenar cada red en un tipo de datos fundamentalmente diferente (texto frente a imagen) y alimentar a un intermediario de nivel superior que opera en todas las salidas?
Desde una perspectiva de ingeniería de software, ¿no son estos más tolerantes a fallas y fácilmente aislables en un sistema distribuido?
¿Ha habido algún trabajo para adaptar dinámicamente las topologías de subredes utilizando un proceso como la Búsqueda de Arquitectura Neural?
En general, ¿los MNN son prácticos de alguna manera?

Disculpas si estas preguntas parecen ingenuas, acabo de entrar en ML y, en general, CS desde un contexto de biología / neurociencia y estoy cautivado por la interacción potencial.

¡Realmente aprecio que te hayas tomado el tiempo y prestado tu visión!

— Duro Sikka
fuente

Había pensado en la implementación de un sistema tan modular para mejorar el rendimiento y filtrar, definitivamente , dependencias innecesarias en las entradas. Pensé que era un momento eureka, pero no sabía que ya era una estructura establecida.

— Tobi

2

De hecho, hay una investigación en curso sobre este tema. Una primera publicación de la última marcha señaló que se ha realizado la modularidad, aunque no explícitamente, desde hace algún tiempo, pero de alguna manera el entrenamiento sigue siendo monolítico. Este artículo evalúa algunas preguntas primarias sobre el asunto y compara los tiempos de entrenamiento y las actuaciones en redes neuronales modulares y muy recurrentes. Ver:

Castillo-Bolado y col. La modularidad como medio para la gestión de la complejidad en el aprendizaje de redes neuronales

Algunos otros están muy centrados en la modularidad, pero se quedan con el entrenamiento monolítico (vea la investigación de Jacob Andrea , especialmente Aprender a razonar está muy relacionada con su tercera pregunta). En algún lugar entre finales de 2019 y marzo del próximo año, debería haber más resultados (por lo que sé).

En relación con sus dos últimas preguntas, estamos comenzando a ver ahora que la modularidad es una clave importante para la generalización. Permítame recomendarle algunos documentos (puede encontrarlos en arxiv o google scholar):

Arquitectura neural adaptativa estocástica Búsqueda de manchas de palabras clave (variaciones de una arquitectura para equilibrar el rendimiento y el uso de recursos).
Hacer que las arquitecturas de programación neuronal se generalicen a través de la recursividad (realizan submodularidad de tareas y creo que es la primera vez que se garantiza la generalización dentro del campo de las redes neuronales).
Dominando el juego de Go con redes neuronales profundas y búsqueda de árboles (la topología de red es en realidad el árbol de búsqueda en sí, puede ver más de esto si busca redes neuronales de gráficos).

— David
fuente

1

Una comparación de referencia de sistemas compuestos por redes entrenadas por separado en relación con redes más profundas individuales probablemente no revelaría una mejor opción universalmente aplicable. ¹ Podemos ver en la literatura el aumento en el número de sistemas más grandes donde se combinan varias redes artificiales, junto con otros tipos de componentes. Es de esperarse. La modularización a medida que los sistemas crecen en complejidad y las demandas de rendimiento y capacidad crecen es tan antigua como la industrialización.

Nuestro laboratorio trabaja con control robótico, instrumentación termodinámica y análisis de datos, las redes artificiales son componentes en estos contextos de sistemas más grandes. no tenemos MLP o RNN individuales que por sí mismos realicen alguna función útil.

Contrariamente a la conjetura sobre las jerarquías hace décadas, el enfoque de topología que parece funcionar bien en la mayoría de los casos sigue las relaciones más comunes del módulo del sistema que se ven en plantas de energía, fábricas automatizadas, aeronáutica, arquitecturas de información empresarial y otras creaciones complejas de ingeniería. Las conexiones son las de flujo, y si están bien diseñadas, las funciones de supervisión son mínimas. El flujo ocurre entre módulos que involucran protocolos para comunicaciones, y cada módulo realiza bien su función, encapsulando el nivel más bajo de complejidad y detalle funcional. No es una red que supervisa a otra la que parece emerger más efectiva en la práctica real, sino el equilibrio y la simbiosis. La identificación de un diseño claro de maestro-esclavo en el cerebro humano parece ser igualmente resbaladiza.

El desafío no es encontrar las rutas de información que componen la topología de información del sistema. El flujo de información a menudo es obvio en el análisis de problemas. La dificultad está en descubrir las mejores estrategias para entrenar estas redes independientes. Las dependencias del entrenamiento son comunes y a menudo críticas, mientras que en los animales, el entrenamiento ocurre in situ o no ocurre en absoluto. Estamos descubriendo condiciones bajo las cuales ese tipo de aprendizaje en nuestros sistemas es práctico y cómo lograrlo. La mayor parte de nuestra investigación en este sentido tiene como objetivo descubrir formas de lograr una mayor confiabilidad y una menor carga en términos de horas de investigación para obtenerla.

Una mayor funcionalidad no siempre es beneficiosa. A menudo produce una fiabilidad más baja y consume recursos de desarrollo adicionales con poco rendimiento. Encuentre una manera de combinar la automatización de alto nivel, el ahorro de recursos y la confiabilidad en un solo proceso de desarrollo, y podría ganar un premio y una mención honorífica en la web.

Los sistemas paralelos que tienen el mismo objetivo es una buena idea, pero no una nueva. En un sistema aeronáutico, nueve sistemas paralelos tienen el mismo objetivo, en grupos de tres. Cada grupo utiliza un enfoque informático diferente. Si dos de los sistemas que usan el mismo enfoque proporcionan la misma salida y el tercero difiere, se usa la salida correspondiente y la diferencia en el tercero se informa como una falla del sistema. Si dos de los diferentes enfoques proporcionan resultados similares y el tercero difiere sustancialmente, se utiliza una combinación de los dos resultados similares y el tercero se informa como un caso de uso para desarrollar aún más el enfoque disidente.

La tolerancia a fallas mejorada tiene un costo, ocho sistemas más y recursos informáticos asociados y conectividad más los comparadores en la cola, pero en los sistemas que son una cuestión de vida o muerte, se pagan los costos adicionales y se maximiza la confiabilidad.

La adaptación topológica dinámica está relacionada con sistemas redundantes y tolerancia a fallas, pero de alguna manera es bastante distinta. En esa área de desarrollo, la tecnología a seguir es la computación neuromórfica, que en parte está inspirada en la neuroplasticidad.

Una última distinción a considerar es entre topología de proceso, topología de datos y topología de hardware. Estos tres marcos geométricos pueden producir una mayor eficiencia juntos si se alinean de maneras específicas que producen asignaciones más directas entre las relaciones entre flujo, representación y mecánica. Sin embargo, son topologías distintas. El significado de la alineación puede no ser aparente sin profundizar en estos conceptos y los detalles que surgen para objetivos específicos de productos o servicios.

Notas al pie

[1] Las redes profundas que se entrenan como una sola unidad y funcionan sin conectividad a otras redes artificiales no son necesariamente monolíticas. La mayoría de las redes profundas prácticas tienen una secuencia heterogénea de capas en términos de sus funciones de activación y, a menudo, de sus tipos de células.

— Douglas Daseeco
fuente