El método actual para implementar la motivación es algún tipo de recompensa artificial. El DQN de Deepmind, por ejemplo, está impulsado por la puntuación del juego. Cuanto más alto sea el puntaje, mejor. La IA aprende a ajustar sus acciones para obtener la mayor cantidad de puntos y, por lo tanto, la mayor recompensa. Esto se llama aprendizaje de refuerzo . La recompensa motiva a la IA a adaptar sus acciones, por así decirlo.
En un término más técnico, la IA quiere maximizar la utilidad, que depende de la función de utilidad implementada . En el caso de DQN, esto sería maximizar el puntaje en el juego.
El cerebro humano funciona de manera similar, aunque un poco más complejo y, a menudo, no tan sencillo. Nosotros, como humanos, generalmente intentamos ajustar nuestras acciones para producir un alto rendimiento de dopamina y serotonina . Esto es similar a la recompensa utilizada para controlar las IA durante el aprendizaje de refuerzo. El cerebro humano aprende qué acciones producen la mayor cantidad de esas sustancias y encuentra estrategias para maximizar la producción. Esto es, por supuesto, una simplificación de este complejo proceso, pero se entiende la imagen.
Cuando hables de motivación, no lo mezcles con la conciencia o los qualia . Esos no son necesarios para la motivación en absoluto. Si quieres discutir la conciencia y los qualia en IA, ese es un juego de pelota totalmente diferente.
Un niño no tiene curiosidad por curiosidad. Obtiene un refuerzo positivo cuando explora porque la función de utilidad del cerebro del niño recompensa la exploración al liberar neurotransmisores gratificantes. Entonces el mecanismo es el mismo. Aplicar esto a la IA significa definir una función de utilidad que recompense las nuevas experiencias. No hay impulso interno sin algún tipo de recompensa de refuerzo.