¿Cuáles son las fallas en el marco de IA de Jeff Hawkins?

19

En 2004, Jeff Hawkins , inventor del piloto de la palma, publicó un libro muy interesante llamado On Intelligence , en el que detalla una teoría sobre cómo funciona la neocorteza humana.

Esta teoría se denomina marco de predicción de memoria y tiene algunas características sorprendentes, por ejemplo, no solo de abajo hacia arriba (feedforward), sino también de procesamiento de información de arriba hacia abajo y la capacidad de hacer predicciones simultáneas pero discretas de diferentes escenarios futuros (como se describe en este artículo )

La promesa del marco de Memoria-Predicción es la generación sin supervisión de representaciones estables de alto nivel de posibilidades futuras. Algo que revolucionaría probablemente un montón de áreas de investigación de IA.

Hawkins fundó una empresa y procedió a implementar sus ideas. Lamentablemente, más de diez años después, la promesa de sus ideas aún no se ha cumplido. Hasta ahora, la implementación solo se usa para la detección de anomalías, que es lo contrario de lo que realmente quieres hacer. En lugar de extraer la comprensión, extraerá las instancias que la corteza artificial no comprende.

Mi pregunta es de qué manera el marco de Hawkins se queda corto. ¿Cuáles son los problemas concretos o conceptuales que hasta ahora impiden que su teoría funcione en la práctica?

htm

— BlindKungFuMaster
fuente

11

La respuesta breve es que la visión de Hawkins aún no se ha implementado de manera ampliamente accesible, particularmente las partes indispensables relacionadas con la predicción.

La respuesta larga es que leí el libro de Hawkins hace unos años y quedé entusiasmado con las posibilidades de la Memoria temporal jerárquica (HTM). Todavía lo estoy, a pesar del hecho de que tengo algunas reservas sobre algunas de sus reflexiones filosóficas sobre los significados de la conciencia, el libre albedrío y otros temas similares. No daré más detalles sobre esas dudas aquí porque no están relacionadas con la razón principal y abrumadora por la cual las redes HTM no han tenido tanto éxito como se esperaba hasta la fecha: que yo sepa, Numenta solo ha implementado una versión truncada de su visión. Dejaron de lado la mayor parte de la arquitectura de predicción, que juega un papel tan crítico en las teorías de Hawkins. Como Gerod M. Bonhoff lo puso en una excelente tesis 1 sobre HTM,

La decisión de diseño más importante que Numenta adoptó fue eliminar la retroalimentación dentro de la jerarquía y, en cambio, elegir simular este concepto teórico utilizando solo algoritmos de agrupación de datos para la ponderación. Esta decisión es inmediatamente sospechosa y viola los conceptos clave de HTM. La retroalimentación, insiste Hawkins, es vital para la función cortical y central para sus teorías. Aún así, Numenta afirma que la mayoría de los problemas aplicables de HTM pueden resolverse utilizando su implementación y algoritmos de agrupación patentados ".

Todavía estoy aprendiendo las cuerdas en este campo y no puedo decir si Numenta ha descartado o no este enfoque en favor de una implementación completa de las ideas de Hawkins, especialmente la arquitectura de predicción tan importante. Incluso si lo han hecho, esta decisión de diseño probablemente ha retrasado la adopción por muchos años. Eso no es una crítica per se; tal vez los costos computacionales de rastrear valores de predicción y actualizarlos sobre la marcha eran demasiado para soportar en ese momento, además de los costos ordinarios de procesamiento de redes neuronales, dejándolos sin otra ruta, excepto probar medias medidas como su agrupación patentada mecanismos. Sin embargo, todos los mejores trabajos de investigación que he leído sobre el tema desde entonces han optado por volver a implementar los algoritmos en lugar de confiar en la plataforma de Numenta, generalmente debido a las características de predicción que faltan.Informe técnico de Maltoni para el Laboratorio del Sistema Biométrico de la Universidad de Bolonia 2 . En todos esos casos, sin embargo, no hay un software fácilmente accesible para poner sus HTM variantes a un uso inmediato (que yo sepa). La esencia de todo esto es que, al igual que la famosa máxima de GK Chesterton sobre el cristianismo, "los HTM no se han probado y encontrado que faltan; se han encontrado difíciles y no se han probado". Dado que Numenta omitió los pasos de predicción, supongo que serían los principales obstáculos para cualquier persona que quiera codificar la visión completa de Hawkins de lo que debería ser un HTM.

1 Bonhoff, Gerod M., 2008, Uso de memoria temporal jerárquica para detectar actividad de red anómala. Presentado en marzo de 2008 en el Instituto de Tecnología de la Fuerza Aérea, Base de la Fuerza Aérea Wright-Patterson, Ohio.

2 Maltoni, Davide, 2011, Reconocimiento de patrones por memoria temporal jerárquica. Informe técnico DEIS publicado el 13 de abril de 2011. Laboratorio del sistema biométrico de la Universidad de Bolonia: Bolonia, Italia.

— SQLServerSteve
fuente

1

¡Gran respuesta! Quiero agregar que aparentemente IBM lo está

— probando

1

10 años para la producción lista?

Pongamos eso en perspectiva. El perceptrón se introdujo en 1957. Realmente ni siquiera comenzó a florecer como un modelo utilizable hasta el lanzamiento de los libros PDP en 1986. Para aquellos que mantienen puntaje: 29 años.

De los libros de PDP, no vimos eso elaborado como redes profundas utilizables hasta la última década. Si toma la tarea de reconocimiento de gatos Andrew Ng y Jeff Dean como un evento de definición de red profunda que es 2012. Posiblemente más de 25 años para la producción.

https://en.wikipedia.org/wiki/Timeline_of_machine_learning

— Mark Browne
fuente

Esa no es una respuesta a la pregunta. Además, ahora ya tenemos computadoras que son lo suficientemente rápidas para algunos logros de IA muy impresionantes. Pero esos logros no suceden en HTM.

— BlindKungFuMaster