Preguntas etiquetadas con reinforcement-learning

Un conjunto de estrategias dinámicas mediante las cuales un algoritmo puede aprender la estructura de un entorno en línea tomando acciones adaptativas asociadas con diferentes recompensas para maximizar las recompensas obtenidas.

2
¿Por qué el algoritmo de iteración de política converge a la función óptima de política y valor?
Estaba leyendo las notas de la conferencia de Andrew Ng sobre el aprendizaje por refuerzo, y estaba tratando de entender por qué la iteración de políticas convergía con la función de valor óptimo y la política óptima .V∗V∗V^*π∗π∗\pi^* La iteración de la política de recuperación es: Initialize π randomlyRepeat{Let V:=Vπ …



4
¿Cómo interpreto una curva de supervivencia del modelo de riesgo de Cox?
¿Cómo interpreta una curva de supervivencia del modelo de riesgo proporcional de Cox? En este ejemplo de juguete, supongamos que tenemos un modelo de riesgo proporcional de Cox ageen kidneydatos variables y generamos la curva de supervivencia. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Por ejemplo, en el …


3
Aprendizaje de refuerzo en datos históricos
He estado trabajando para aprender la política óptima de comunicaciones para los clientes (qué notificaciones enviar, cuántas enviar y cuándo enviar). Tengo datos históricos de notificaciones pasadas enviadas (con marcas de tiempo) y sus actuaciones. Intentaba aplicar RL a este problema para conocer la política óptima. Sin embargo, una restricción …



2
Confianza superior en el aprendizaje automático
Encontré la fórmula para obtener los límites superiores de confianza en el problema del bandido armado k: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} donde es la cantidad de muestras que tenemos para este bandido particular y es la cantidad total de muestras que tenemos de todos los bandidos. El mismo algoritmo se usa en …


3
¿Por qué no hay probabilidad de transición en Q-Learning (aprendizaje de refuerzo)?
En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente manera: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Sin embargo, cuando usamos el método Q-learning para obtener …

3
Encuentra distribución y transforma a distribución normal
Tengo datos que describen con qué frecuencia tiene lugar un evento durante una hora ("número por hora", nph) y cuánto duran los eventos ("duración en segundos por hora", dph). Estos son los datos originales: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.