Al diseñar soluciones a problemas como el Lunar Lander en OpenAIGym , el refuerzo de aprendizaje es un medio tentador para darle al agente el control de acción adecuado para aterrizar con éxito.
Pero, ¿en qué casos los algoritmos del sistema de control, como los controladores PID , harían un trabajo adecuado como, si no mejor, que el aprendizaje por refuerzo?
Preguntas como esta hacen un gran trabajo al abordar la teoría de esta pregunta, pero hacen poco para abordar el componente práctico.
Como ingeniero de Inteligencia Artificial, ¿qué elementos de un dominio de problemas deberían sugerirme que un controlador PID es insuficiente para resolver un problema, y en su lugar se debe usar un algoritmo de Aprendizaje de refuerzo (o viceversa)?