¿Qué motivaría a una máquina?

12

Actualmente, dentro del campo de desarrollo de IA, el enfoque principal parece estar en el reconocimiento de patrones y el aprendizaje automático. El aprendizaje consiste en ajustar las variables internas en función de un ciclo de retroalimentación.

La jerarquía de necesidades de Maslow es una teoría en psicología propuesta por Abraham Maslow que afirma que las necesidades más básicas de los individuos deben satisfacerse antes de motivarse para alcanzar necesidades de nivel superior.

¿Qué podría motivar a una máquina a actuar? ¿Debería una máquina tener algún tipo de estructura similar al ADN que describiera su jerarquía de necesidades (similar a la teoría de Maslow)? ¿Cuáles podrían ser las necesidades fundamentales de una máquina?

philosophy strong-ai rewards

— Aleksei Maide
fuente

1

Pregunta interesante, ¡y bienvenido a AI! (Tengo algunas reflexiones sobre el tema, relacionadas con la teoría de juegos, y otros colaboradores han hablado sobre el aprendizaje orientado a objetivos en relación con los algoritmos.)

— DukeZhou

1

Simplemente diciendo que sería función de utilidad . Esta respuesta podría ayudar

— Ugnes

5

El método actual para implementar la motivación es algún tipo de recompensa artificial. El DQN de Deepmind, por ejemplo, está impulsado por la puntuación del juego. Cuanto más alto sea el puntaje, mejor. La IA aprende a ajustar sus acciones para obtener la mayor cantidad de puntos y, por lo tanto, la mayor recompensa. Esto se llama aprendizaje de refuerzo . La recompensa motiva a la IA a adaptar sus acciones, por así decirlo.

En un término más técnico, la IA quiere maximizar la utilidad, que depende de la función de utilidad implementada . En el caso de DQN, esto sería maximizar el puntaje en el juego.

El cerebro humano funciona de manera similar, aunque un poco más complejo y, a menudo, no tan sencillo. Nosotros, como humanos, generalmente intentamos ajustar nuestras acciones para producir un alto rendimiento de dopamina y serotonina . Esto es similar a la recompensa utilizada para controlar las IA durante el aprendizaje de refuerzo. El cerebro humano aprende qué acciones producen la mayor cantidad de esas sustancias y encuentra estrategias para maximizar la producción. Esto es, por supuesto, una simplificación de este complejo proceso, pero se entiende la imagen.

Cuando hables de motivación, no lo mezcles con la conciencia o los qualia . Esos no son necesarios para la motivación en absoluto. Si quieres discutir la conciencia y los qualia en IA, ese es un juego de pelota totalmente diferente.

Un niño no tiene curiosidad por curiosidad. Obtiene un refuerzo positivo cuando explora porque la función de utilidad del cerebro del niño recompensa la exploración al liberar neurotransmisores gratificantes. Entonces el mecanismo es el mismo. Aplicar esto a la IA significa definir una función de utilidad que recompense las nuevas experiencias. No hay impulso interno sin algún tipo de recompensa de refuerzo.

— Demento
fuente

En lo que respecta a la edición, creo que un buen ejemplo de "una función de utilidad que recompensa una nueva experiencia" serían las funciones de búsqueda de novedad propuestas por Ken Stanley para ser utilizadas en su algoritmo ordenado.

— nickw

5

Esta es una pregunta interesante en realidad.

Hay una idea bastante realista sobre "de dónde puede originarse la curiosidad" en el libro "Sobre inteligencia" escrito por Jeff Hawkins y Sandra Blakeslee.

Se basa en tales declaraciones:

La mente crea su propio modelo del mundo en el que existe.
Hace predicciones sobre todo todo el tiempo (en realidad, Jeff Hawkins afirma que esta es la característica principal de la inteligencia).
Cuando la predicción sobre algo no fue seguida por un comportamiento apropiado del mundo, entonces esto se vuelve muy interesante para la mente (el modelo está equivocado y debe corregirse) y necesita más atención.

Por ejemplo, cuando miras el ojo humano izquierdo, tu cerebro predice que es un rostro humano y debería haber un segundo ojo a la derecha. Miras a la derecha y ves una ... nariz! ¡Qué sorpresa! Ahora requiere toda su atención y tiene esta motivación para hacer más observaciones sobre algo tan extraño que no encaja en su modelo.

Entonces diría que la IA podría hacer algo seguro de acuerdo con su modelo o comportarse al azar mientras las predicciones que está haciendo sobre el mundo son ciertas. Pero una vez que se rompe alguna predicción, la IA se motiva para corregir errores en su modelo.

En un caso simple, una máquina comienza con una aleatoriedad total simplemente haciendo todo lo que puede con su salida. Si bien no tiene un modelo o un modelo aleatorio cuando detecta algún tipo de orden o patrones repetidos, se está "interesando" y lo agrega al modelo. Después de un tiempo, el modelo se vuelve más sofisticado haciendo predicciones más complejas y detectando errores de mayor nivel en un modelo. Poco a poco llega a saber qué hacer para observar algo interesante, en lugar de recordarlo todo.

— Ivan Bogush
fuente

¡Gracias por la contribucion! Básicamente, he llegado a las mismas conclusiones ... ahora pensando en una forma de implementarlo :)

— Aleksei Maide

Esta respuesta hace un punto importante. La corrección de errores en los modelos de predicción proporcionaría un gran incentivo para que una IA inteligente aprenda y actúe de manera curiosa.

— Seth Simba

3

Le hice una pregunta similar al profesor Richard Sutton , en la primera clase del curso de aprendizaje por refuerzo. Parece que hay diferentes maneras de motivar a la máquina. De hecho, la motivación de la máquina me parece un campo de investigación dedicado.

Típicamente, las máquinas están motivadas por lo que llamamos una función objetivo o una función de costo o una función de pérdida . Estos son nombres diferentes para el mismo concepto. A veces, se denotan por

L (un)

$L(a)$

$\min_a L(a)$ $\max_a L(a)$ $L$

— A.Rashad
fuente

1

He pasado algún tiempo pensando en esto en el contexto de los juegos.

El problema con las funciones de recompensa es que generalmente involucran nodos de ponderación, lo cual es útil pero, en última instancia, carece de sentido.

Aquí hay dos recompensas materialmente significativas:

RECURSOS COMPUTACIONALES

Considere un juego donde una IA compite no por puntos, sino por tiempo de procesador y memoria.

Cuanto mejor se desempeña el algoritmo en el juego, más memoria y procesamiento tiene acceso. Esto tiene un efecto práctico: cuantos más recursos estén disponibles para los autómatas, mayores serán sus capacidades. (es decir, su racionalidad está menos limitada en términos de tiempo y espacio para tomar una decisión). Por lo tanto, el algoritmo estaría "motivado" para prevalecer en tal concurso.

ENERGÍA

Cualquier autómata con un grado suficiente de "autoconciencia", que se refiera específicamente al conocimiento de que requiere energía para procesar, estaría motivado a auto-optimizar su propio código para eliminar el volteo innecesario de bits (consumo innecesario de energía).

Tal algoritmo también estaría motivado para asegurar su fuente de alimentación para que pueda continuar funcionando.

— DukeZhou
fuente