Por sugerencia del OP rcpinto, convertí un comentario acerca de ver "alrededor de media docena de documentos que dan seguimiento al trabajo de Graves et al. Que han producido resultados del calibre" y proporcionarán algunos enlaces. Tenga en cuenta que esto solo responde a la parte de la pregunta relativa a las MNA, no a Google DeepMind en sí, además de que todavía estoy aprendiendo las cuerdas en el aprendizaje automático, por lo que parte del material en estos documentos está sobre mi cabeza; Sin embargo, logré captar gran parte del material en el documento original de Graves et al. {1] y estoy cerca de tener que probar el código NTM de cosecha propia. También al menos hojeé los siguientes documentos en los últimos meses; no replican el estudio NTM de manera estrictamente científica, pero muchos de sus resultados experimentales tienden a respaldar el original al menos tangencialmente:
• En este documento sobre una versión variante del direccionamiento NTM, Gulcehere, et al. no intente replicar con precisión las pruebas de Graves et al., pero al igual que el equipo DeepMind, demuestra resultados notablemente mejores para el NTM original y varias variantes sobre un LSTM recurrente ordinario. Utilizan 10.000 muestras de entrenamiento de un conjunto de datos de preguntas y respuestas de Facebook, en lugar de los N-gramos de Graves et al. operado en su papel, por lo que no es replicación en el sentido más estricto. Sin embargo, lograron obtener una versión del NTM original y varias variantes en funcionamiento, además registraron la misma magnitud de mejora del rendimiento. 2
• A diferencia del NTM original, este estudio probó una versión de aprendizaje por refuerzo que no era diferenciable; Esa puede ser la razón por la que no pudieron resolver varios de los gustos de programación, como Repeat-Copy, a menos que el controlador no se limitara a avanzar. Sin embargo, sus resultados fueron lo suficientemente buenos como para respaldar la idea de las MNA. Aparentemente hay disponible una revisión más reciente de su artículo, que aún no he leído, por lo que tal vez se hayan resuelto algunos de los problemas de sus variantes. 3
• En lugar de probar el sabor original de NTM contra redes neuronales ordinarias como LSTM, este documento lo enfrentó con varias estructuras de memoria NTM más avanzadas. Obtuvieron buenos resultados en el mismo tipo de tareas de programación que Graves et al. probado, pero no creo que estuvieran usando el mismo conjunto de datos (es difícil saber por la forma en que su estudio está escrito exactamente en qué conjuntos de datos estaban operando). 4 4
• En P. 8 de este estudio , un NTM claramente supera a varios esquemas basados en LSTM, feed-forward y el vecino más cercano en un conjunto de datos de reconocimiento de caracteres Omniglot. Un enfoque alternativo a la memoria externa elaborado por los autores claramente lo supera, pero obviamente todavía funciona bien. Los autores parecen pertenecer a un equipo rival en Google, por lo que podría ser un problema al evaluar la replicabilidad. 5 5
• En P. 2 estos autores informaron que obtuvieron una mejor generalización de "secuencias muy grandes" en una prueba de tareas de copia, utilizando una red NTM mucho más pequeña que evolucionaron con el algoritmo genético NEAT, que aumenta dinámicamente las topologías. 6 6
Las MNA son bastante nuevas, por lo que supongo que todavía no ha habido mucho tiempo para replicar rigurosamente la investigación original. Sin embargo, el puñado de documentos que hojeé durante el verano parecen respaldar sus resultados experimentales; Todavía no he visto ninguno que informe nada más que un excelente rendimiento. Por supuesto, tengo un sesgo de disponibilidad, ya que solo leo los archivos PDF que puedo encontrar fácilmente en una búsqueda descuidada en Internet. De esa pequeña muestra parece que la mayor parte de la investigación de seguimiento se ha centrado en extender el concepto, no la replicación, lo que explicaría la falta de datos de replicabilidad. Espero que eso ayude.
1 Graves, Alex; Wayne, Greg y Danihelka, Ivo, 2014, "Neural Turing Machines", publicado el 10 de diciembre de 2014.
2 Gulcehre, Caglar; Chandar, Sarath; Choy, Kyunghyun y Bengio, Yoshua, 2016, "Máquina de Turing Neural Dinámica con Esquemas de Direccionamiento Suave y Duro", publicada el 30 de junio de 2016.
3 Zaremba, Wojciech and Sutskever, Ilya, 2015, "Reinforcement Learning Neural Turing Machines", publicado el 4 de mayo de 2015.
4 Zhang; Wei Yu, Yang y Zhou, Bowen, 2015, "Memoria estructurada para máquinas neuronales de Turing", publicado el 25 de octubre de 2015.
5 Santoro, Adán; Bartunov, Sergey; Botvinick, Matthew; Wierstra, Daan y Lillicrap, Timothy, 2016, "Aprendizaje de una sola vez con redes neuronales aumentadas por memoria", publicado el 19 de mayo de 2016.
6 Boll Greve, Rasmus; Jacobsen, Emil Juul y Sebastian Risi, fecha desconocida, "Evolving Neural Turing Machines". Ningún editor en la lista
Todos excepto (quizás) Boll Greve et al. fueron publicados en el Cornell Univeristy Library arXiv.org Repository: Ithaca, Nueva York.