Preguntas etiquetadas con reinforcement-learning

Un conjunto de estrategias dinámicas mediante las cuales un algoritmo puede aprender la estructura de un entorno en línea tomando acciones adaptativas asociadas con diferentes recompensas para maximizar las recompensas obtenidas.



2
¿Por qué no hay motores de aprendizaje de refuerzo profundo para el ajedrez, similares a AlphaGo?
Las computadoras han podido jugar al ajedrez durante mucho tiempo utilizando una técnica de "fuerza bruta", buscando a cierta profundidad y luego evaluando la posición. Sin embargo, la computadora AlphaGo solo usa un ANN para evaluar las posiciones (hasta donde yo sé, no realiza ninguna búsqueda profunda). ¿Es posible crear …


2
Aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo: conceptos básicos del flujo de trabajo
Aprendizaje supervisado 1) Un humano construye un clasificador basado en entrada y salida de datos 2) Ese clasificador está entrenado con un conjunto de datos de entrenamiento 3) Ese clasificador se prueba con un conjunto de datos de prueba 4) Despliegue si el resultado es satisfactorio Para usarse cuando, "Sé …


3
Análisis diario de series de tiempo
Estoy tratando de hacer análisis de series de tiempo y soy nuevo en este campo. Tengo un recuento diario de un evento del 2006 al 2009 y quiero ajustarle un modelo de serie temporal. Aquí está el progreso que he hecho: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) La trama resultante que obtengo …


2
¿Qué es el aprendizaje de refuerzo recurrente?
Recientemente me encontré con la palabra "Aprendizaje de refuerzo recurrente". Entiendo qué es "Red neuronal recurrente" y qué es "Aprendizaje de refuerzo", pero no pude encontrar mucha información sobre lo que es un "Aprendizaje de refuerzo recurrente". ¿Puede alguien explicarme qué es un "aprendizaje de refuerzo recurrente" y cuál es …

1
Cuándo elegir SARSA vs. Q Learning
SARSA y Q Learning son algoritmos de aprendizaje de refuerzo que funcionan de manera similar. La diferencia más notable es que SARSA está en la política, mientras que Q Learning está fuera de la política. Las reglas de actualización son las siguientes: Q Aprendizaje: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] donde st,atst,ats_t,\,a_t y …






Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.