Las respuestas que recibí a la pregunta sobre el entrenamiento de una línea que sigue al robot usando técnicas de aprendizaje de refuerzo , me hicieron pensar en cómo entrenar a un robot. Creo que hay esencialmente dos formas:
- Entrena al robot físico.
- Modele el robot y simule el entrenamiento.
- ¿Me he perdido algo?
El enfoque 2 es definitivamente el mejor enfoque. Sin embargo, a priori el conocimiento del movimiento (respuesta), una cierta señal PWM (estímulo) causaría cuando el robot está en un estado dado. El movimiento causado por una señal PWM puede depender del ( 1 ) voltaje actual de la batería, ( 2 ) la masa del robot y la ( 3 ) velocidad actual (¿me perdí algo?).
¿Cómo modelo un robot así? ¿Y cómo lo modelo rápido? Si cambio la batería o agrego algunas placas y otros periféricos y cambio la masa del robot, tendría que remodelar y volver a entrenar el robot. ¿Puedo hacer esto proporcionando algunos PWM de estímulo aleatorio y midiendo la respuesta?
agregado: Mi pregunta relacionada en dsp.SE
Actualización: Una edición sugerida al título por Ian que vale la pena mencionar: " ¿Cómo modelo entrenar a un robot para que si su dinámica cambia, no necesita un reentrenamiento completo? " Creo que esta es una buena pregunta también, pero diferente de uno que estoy preguntando aquí. Estoy de acuerdo con volver a entrenar por ahora.