En el aprendizaje por refuerzo, ¿es una política siempre determinista, o es una distribución de probabilidad sobre las acciones (de las cuales tomamos muestras)? Si la política es determinista, ¿por qué no es la función de valor, que se define en un estado dado para una política dada siguiente manera?
un punto de salida?
En la definición anterior, tomamos una expectativa. ¿Sobre qué ha terminado esta expectativa?
¿Puede una política conducir a diferentes rutas?