Estadísticas y Big Data reinforcement-learning

2

¿Por qué el algoritmo de iteración de política converge a la función óptima de política y valor?

Estaba leyendo las notas de la conferencia de Andrew Ng sobre el aprendizaje por refuerzo, y estaba tratando de entender por qué la iteración de políticas convergía con la función de valor óptimo y la política óptima .V∗V∗V^*π∗π∗\pi^* La iteración de la política de recuperación es: Initialize π randomlyRepeat{Let V:=Vπ …

10 reinforcement-learning policy-iteration

1

Descripción general sobre algoritmos de aprendizaje por refuerzo

Actualmente estoy buscando una visión general sobre los algoritmos de aprendizaje por refuerzo y tal vez una clasificación de ellos. Pero al lado de Sarsa y Q-Learning + Deep Q-Learning realmente no puedo encontrar ningún algoritmo popular. Wikipedia me da una visión general sobre diferentes métodos generales de aprendizaje de …

9 reinforcement-learning q-learning

2

Aprendizaje de refuerzo en un entorno no estacionario.

P1: ¿Existen métodos comunes o aceptados para tratar el entorno no estacionario en el aprendizaje por refuerzo en general? P2: en mi gridworld, la función de recompensa cambia cuando se visita un estado. Cada episodio, las recompensas se restablecen al estado inicial. Todo lo que quiero que mi agente aprenda …

9 markov-process reinforcement-learning stationarity q-learning

4

¿Cómo interpreto una curva de supervivencia del modelo de riesgo de Cox?

¿Cómo interpreta una curva de supervivencia del modelo de riesgo proporcional de Cox? En este ejemplo de juguete, supongamos que tenemos un modelo de riesgo proporcional de Cox ageen kidneydatos variables y generamos la curva de supervivencia. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Por ejemplo, en el …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

¿Qué tan eficiente es Q-learning con redes neuronales cuando hay una unidad de salida por acción?

Antecedentes: estoy usando la aproximación del valor Q de la red neuronal en mi tarea de aprendizaje de refuerzo. El enfoque es exactamente el mismo que el descrito en esta pregunta , sin embargo, la pregunta en sí es diferente. En este enfoque, el número de resultados es el número …

9 machine-learning neural-networks reinforcement-learning q-learning

3

Aprendizaje de refuerzo en datos históricos

He estado trabajando para aprender la política óptima de comunicaciones para los clientes (qué notificaciones enviar, cuántas enviar y cuándo enviar). Tengo datos históricos de notificaciones pasadas enviadas (con marcas de tiempo) y sus actuaciones. Intentaba aplicar RL a este problema para conocer la política óptima. Sin embargo, una restricción …

9 reinforcement-learning

5

¿Por qué (y cuándo) uno tiene que aprender la función de recompensa de las muestras en el aprendizaje por refuerzo?

En el aprendizaje por refuerzo, tenemos una función de recompensa que informa al agente qué tan bien están funcionando sus acciones y estados actuales. En una configuración general, la función de recompensa es una función de tres variables: Estado actual SSS Acción actual en el estado actual π(s)=aπ(s)=a\pi(s) = a …

9 machine-learning reinforcement-learning

2

¿Algún código de ejemplo del algoritmo REINFORCE propuesto por Williams?

¿Alguien sabe un ejemplo de Algoritmo Williams propuesto en el documento "Una clase de algoritmos de estimación de gradiente para el aprendizaje de refuerzo en redes neuronales" http://incompleteideas.net/sutton/williams-92.pdf

9 reinforcement-learning

2

Confianza superior en el aprendizaje automático

Encontré la fórmula para obtener los límites superiores de confianza en el problema del bandido armado k: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} donde es la cantidad de muestras que tenemos para este bandido particular y es la cantidad total de muestras que tenemos de todos los bandidos. El mismo algoritmo se usa en …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

2

¿Es una política siempre determinista en el aprendizaje por refuerzo?

En el aprendizaje por refuerzo, ¿es una política siempre determinista, o es una distribución de probabilidad sobre las acciones (de las cuales tomamos muestras)? Si la política es determinista, ¿por qué no es la función de valor, que se define en un estado dado para una política dada siguiente manera?ππ\pi …

8 reinforcement-learning deterministic-policy stochastic-policy

3

¿Por qué no hay probabilidad de transición en Q-Learning (aprendizaje de refuerzo)?

En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente manera: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Sin embargo, cuando usamos el método Q-learning para obtener …

8 reinforcement-learning q-learning

3

Encuentra distribución y transforma a distribución normal

Tengo datos que describen con qué frecuencia tiene lugar un evento durante una hora ("número por hora", nph) y cuánto duran los eventos ("duración en segundos por hora", dph). Estos son los datos originales: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Diferencia entre programación dinámica y aprendizaje de diferencia temporal en aprendizaje de refuerzo

En el aprendizaje por refuerzo, ¿cuál es la diferencia entre la programación dinámica y el aprendizaje por diferencia temporal?

8 reinforcement-learning

Preguntas etiquetadas con reinforcement-learning