Estadísticas y Big Data reinforcement-learning

2

Preguntas sobre Q-Learning usando redes neuronales

He implementado Q-Learning como se describe en, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Para aprox. P (S, A) Uso una estructura de red neuronal como la siguiente, Activación sigmoidea Entradas, número de entradas + 1 para neuronas de acción (todas las entradas escaladas 0-1) Salidas, salida única. Q-Value N número de M capas ocultas. Método …

14 machine-learning neural-networks reinforcement-learning

4

¿Por qué siempre hay al menos una política que es mejor o igual a todas las demás políticas?

Aprendizaje de refuerzo: una introducción. Segunda edición, en progreso ., Richard S. Sutton y Andrew G. Barto (c) 2012, pp. 67-68. Resolver una tarea de aprendizaje de refuerzo significa, más o menos, encontrar una política que logre muchas recompensas a largo plazo. Para MDP finitos, podemos definir con precisión una …

14 markov-process reinforcement-learning

1

GAM vs LOESS vs splines

Contexto : Quiero trazar una línea en un diagrama de dispersión que no aparece paramétrico, por lo tanto, estoy usando geom_smooth()en ggploten R. Devuelve automáticamente. geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

¿Cuál es la diferencia entre episodio y época en el aprendizaje profundo de Q?

Estoy tratando de entender el famoso artículo "Playing Atari with Deep Reinforcement Learning" ( pdf ). No estoy claro acerca de la diferencia entre una época y un episodio . En el algoritmo , el bucle externo está sobre episodios , mientras que en la figura 2 el eje x …

14 neural-networks terminology reinforcement-learning q-learning

1

¿Por qué el aprendizaje de refuerzo profundo es inestable?

En el documento de 2015 de DeepMind sobre el aprendizaje de refuerzo profundo, afirma que "Los intentos anteriores de combinar RL con redes neuronales habían fracasado en gran medida debido al aprendizaje inestable". Luego, el documento enumera algunas causas de esto, en función de las correlaciones entre las observaciones. ¿Podría …

13 machine-learning neural-networks deep-learning reinforcement-learning

1

Algoritmo óptimo para resolver problemas de bandidos armados

He leído sobre varios algoritmos para resolver problemas de bandidos armados n como -greedy, softmax y UCB1, pero tengo algunos problemas para determinar qué enfoque es mejor para minimizar el arrepentimiento.ϵϵ\epsilon ¿Existe un algoritmo óptimo conocido para resolver el problema del bandido armado n? ¿Existe una elección de algoritmo que …

13 machine-learning reinforcement-learning multiarmed-bandit

2

¿Por qué la reproducción de experiencia requiere un algoritmo fuera de la política?

En el documento que presenta DQN " Playing Atari with Deep Reinforcement Learning ", mencionó: Tenga en cuenta que cuando se aprende por repetición de experiencia, es necesario aprender fuera de la política (porque nuestros parámetros actuales son diferentes a los utilizados para generar la muestra), lo que motiva la …

12 reinforcement-learning

2

Traducción del problema de aprendizaje automático al marco de regresión

Supongamos que tengo un panel de variables explicativas , para , , así como un vector de variables dependientes de resultados binarios . Por lo tanto, solo se observa en el momento final y no en ningún momento anterior. El caso totalmente general es tener múltiples para para cada unidad …

12 regression machine-learning reinforcement-learning

1

Cómo ajustar pesos en valores Q con aproximación de función lineal

En el aprendizaje por refuerzo, la aproximación de función lineal a menudo se usa cuando hay grandes espacios de estado. (Cuando las tablas de búsqueda se vuelven inviables). La forma del valor con aproximación de función lineal viene dada porQ -Q−Q- Q ( s , a ) = w1F1( s …

12 machine-learning feature-selection reinforcement-learning

2

¿Cuándo se prefieren los métodos de Monte Carlo sobre los de diferencia temporal?

Últimamente he estado investigando mucho sobre el aprendizaje por refuerzo. Seguí el aprendizaje de refuerzo de Sutton y Barto : una introducción para la mayor parte de esto. Sé qué son los procesos de decisión de Markov y cómo se puede utilizar el aprendizaje de programación dinámica (DP), Monte Carlo …

12 monte-carlo reinforcement-learning temporal-difference

1

¿Cuál es la política de implementación en el documento de AlphaGo?

El papel está aquí . La política de implementación ... es una política lineal de softmax basada en características locales rápidas, calculadas incrementalmente y basadas en patrones ... No entiendo qué es la política de implementación y cómo se relaciona con la red de políticas de seleccionar un movimiento. ¿Alguna …

11 machine-learning monte-carlo reinforcement-learning games

1

Q-learning con Neural Network como aproximación de funciones

Estoy tratando de usar una red neuronal para aproximar el valor Q en Q-learning como en Preguntas sobre Q-Learning usando redes neuronales . Como se sugiere en la primera respuesta, estoy usando una función de activación lineal para la capa de salida, mientras sigo usando la función de activación sigmoidea …

11 neural-networks reinforcement-learning

3

¿Cuál es la relación entre la teoría de juegos y el aprendizaje por refuerzo?

Estoy interesado en el aprendizaje de refuerzo (profundo) (RL) . Antes de sumergirme en este campo, ¿debería tomar un curso de Teoría de juegos (GT) ? ¿Cómo se relacionan GT y RL ?

11 deep-learning reinforcement-learning game-theory

2

¿Cómo calcular exactamente la función de pérdida profunda de Q-Learning?

Tengo una duda sobre cómo se entrena exactamente la función de pérdida de una red Deep Q-Learning. Estoy usando una red de alimentación de 2 capas con capa de salida lineal y capas ocultas relu. Supongamos que tengo 4 acciones posibles. Por lo tanto, la salida de mi red para …

11 least-squares deep-learning loss-functions reinforcement-learning q-learning

1

¿Se puede entrenar un modelo de P (Y | X) a través del descenso de gradiente estocástico a partir de muestras de P (X) sin iid y muestras de P (Y | X)?

Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo es modelar una distribución conjunta …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

Preguntas etiquetadas con reinforcement-learning