Hay muchos enfoques que podría tomar para esto. Puede ser posible crear un análogo artificial realista para el miedo, tal como se implementa biológicamente en los animales, pero hay bastante implicado en la respuesta al miedo de un animal real que no se aplicaría en los robots de IA más simples disponibles ahora. Por ejemplo, un animal que entra en un estado de miedo generalmente usará hormonas para indicar cambios en todo su cuerpo, favoreciendo el gasto de recursos y la toma de riesgos ("pelear o huir").
En el aprendizaje de refuerzo básico, la red neuronal no necesitaría decidir directamente activar un "modo de miedo". En cambio, puede hacer uso de algún diseño en el agente y el algoritmo de aprendizaje para ayudar a aprender de eventos raros pero significativos. Aqui hay algunas ideas:
Experimenta la repetición. Es posible que ya esté haciendo esto en el escenario de Pacman, si está utilizando DQN o algo similar. Almacenar la transición de estado y la recompensa que causó una gran recompensa positiva o negativa, y aprender repetidamente de ella debería compensar su preocupación
Barrido priorizado. Puede usar las diferencias más grandes experimentadas entre la recompensa predicha y la real para sesgar el muestreo de su memoria de repetición hacia eventos significativos y aquellos relacionados estrechamente con ellos.
Planificación. Con un modelo predictivo, tal vez basado en transiciones muestreadas (puede reutilizar la memoria de repetición de la experiencia para esto), o tal vez una red de predicción de transición de estado entrenada, entonces puede mirar varios pasos adelante simulando. Existe una fuerte relación entre RL y la planificación anticipada también, son un algoritmo muy similar. La diferencia es qué estados y acciones se están considerando, y si se están simulando o experimentando. La repetición de la experiencia desdibuja la línea aquí: se puede enmarcar como aprender de la memoria o mejorar las predicciones para la planificación. La planificación ayuda al optimizar las decisiones sin necesidad de repetir tantas experiencias: una combinación de planificación y aprendizaje puede ser mucho más poderosa que cualquiera de las dos de forma aislada.
Selección de acción exploratoria más inteligente. Epsilon-codicioso, donde tomas una acción codiciosa o tomas una acción completamente al azar, ignora por completo lo que ya has aprendido sobre acciones alternativas y su mérito relativo. Puede usar algo como Upper Confidence Bound con un agente basado en el valor.
En un mundo determinista, aumente el tamaño del lote para el aprendizaje y la planificación, ya que puede confiar en que cuando se aprende una transición una vez, sabe todo al respecto.
Tendrá que experimentar en cada entorno. Puede crear agentes de aprendizaje que sean más conservadores acerca de explorar cerca de áreas de baja recompensa. Sin embargo, si el entorno es tal que es necesario correr riesgos para obtener las mejores recompensas (que suele ser el caso en los juegos), entonces puede no ser óptimo en términos de tiempo de aprendizaje tener un agente "tímido". Por ejemplo, en su ejemplo de Pacman, a veces los fantasmas deben ser evitados, a veces deben ser perseguidos. Si el agente aprendió una fuerte aversión al principio, podría llevar mucho tiempo superar esto y aprender a perseguirlos después de comer un poder.
Para su ejemplo de la araña, como el constructor del experimento, entonces sabe que la mordida siempre es mala y que el agente debe evitarla tanto como sea posible. Para la mayoría de los algoritmos RL, no existe tal conocimiento, excepto que se obtiene a través de la experiencia. Un modelo mundial de MDP no necesita coincidir con el sentido común, puede ser que una picadura de araña sea mala (-10 recompensa) el 90% del tiempo y buena el 10% del tiempo (+1000 recompensa). El agente solo puede descubrir esto al ser mordido varias veces. . . RL generalmente no comienza con ningún sistema para hacer suposiciones sobre este tipo de cosas, y es imposible llegar a una regla general sobre todos los MDP posibles. En cambio, para un sistema RL básico, puede considerar modificar hiperparámetros o enfocarse en eventos clave como se sugirió anteriormente. Fuera de un sistema RL básico, podría tener mérito replicar otras cosas,