Preguntas etiquetadas con q-learning







4
¿Cómo interpreto una curva de supervivencia del modelo de riesgo de Cox?
¿Cómo interpreta una curva de supervivencia del modelo de riesgo proporcional de Cox? En este ejemplo de juguete, supongamos que tenemos un modelo de riesgo proporcional de Cox ageen kidneydatos variables y generamos la curva de supervivencia. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Por ejemplo, en el …


3
¿Por qué no hay probabilidad de transición en Q-Learning (aprendizaje de refuerzo)?
En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente manera: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Sin embargo, cuando usamos el método Q-learning para obtener …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.