Aprendizaje supervisado

1) Un humano construye un clasificador basado en entrada y salida de datos
2) Ese clasificador está entrenado con un conjunto de datos de entrenamiento
3) Ese clasificador se prueba con un conjunto de datos de prueba
4) Despliegue si el resultado es satisfactorio

Para usarse cuando, "Sé cómo clasificar estos datos, solo necesito que usted (el clasificador) los ordene".

Punto de método: clasificar etiquetas o producir números reales

Aprendizaje sin supervisión

1) Un humano construye un algoritmo basado en datos de entrada
2) Ese algoritmo se prueba con un conjunto de datos de prueba (en el que el algoritmo crea el clasificador)
3) Despliegue si el clasificador es satisfactorio

Para usarse cuando, "No tengo idea de cómo clasificar estos datos, ¿puede (el algoritmo) crear un clasificador para mí?"

Punto de método: clasificar etiquetas o predecir (PDF)

Aprendizaje reforzado

1) Un humano construye un algoritmo basado en datos de entrada
2) Ese algoritmo presenta un estado dependiente de los datos de entrada en el que un usuario recompensa o castiga el algoritmo a través de la acción el algoritmo, esto continúa con el tiempo
3) Ese algoritmo aprende de la recompensa / castigo y se actualiza a sí mismo, esto continúa
4) Siempre está en producción, necesita aprender datos reales para poder presentar acciones de los estados

Para ser usado cuando, "No tengo idea de cómo clasificar estos datos, ¿puede clasificarlos y le daré una recompensa si es correcta o lo castigaré si no lo es?"

¿Es este el tipo de flujo de estas prácticas, escucho mucho sobre lo que hacen, pero la información práctica y ejemplar es terriblemente escasa!

— Karl Morrison
fuente

Me gustó mucho la forma en que presentaste tu pregunta. Esta respuesta me pareció útil: stats.stackexchange.com/a/522/92255

— Ashesh Kumar Singh

3

¡Esta es una muy buena introducción compacta a las ideas básicas!

Aprendizaje reforzado

Creo que la descripción de su caso de uso del aprendizaje por refuerzo no es exactamente correcta. El término clasificar no es apropiado. Una mejor descripción sería:

No sé cómo actuar en este entorno , ¿puedes encontrar un buen comportamiento y mientras tanto te daré retroalimentación ?

En otras palabras, el objetivo es más bien controlar algo bien que clasificar algo bien.

Entrada

El medio ambiente que se define por
- todos los estados posibles
- posibles acciones en los estados
La función de recompensa depende del estado y / o acción.

Algoritmo

El agente
- está en un estado
- toma una acción para transferir a otro estado
- obtiene una recompensa por la acción en el estado

Salida

El agente quiere encontrar una política óptima que maximice la recompensa.

— elcombato
fuente

2

Descargo de responsabilidad: no soy un experto e incluso nunca he hecho algo con el aprendizaje de refuerzo (todavía), por lo que cualquier comentario sería bienvenido ...

Aquí hay una respuesta que agrega algunas pequeñas notas matemáticas a su lista y algunas ideas diferentes sobre cuándo usar qué. Espero que la enumeración se explique por sí sola:

Supervisado

$\mathcal{D} = \{(\boldsymbol{x}_0,y_0), (\boldsymbol{x}_1,y_1), \ldots, (\boldsymbol{x}_n,y_n)\}$
$g$ $L(y_i, g(\boldsymbol{x}_i))$ $0 \leq i < l$
$L$ $l \leq i \leq n$

Podemos dar ejemplos, pero no podemos dar un algoritmo para pasar de entrada a salida

Ajuste para clasificación y regresión

Sin supervisión

$\mathcal{D} = \{\boldsymbol{x}_0, \boldsymbol{x}_1, \ldots, \boldsymbol{x}_n\}$
$g$
Tenemos pocas o ninguna medida para decir si hicimos algo útil / interesante

Tenemos algunos datos, pero no tenemos idea de dónde comenzar a buscar cosas útiles / interesantes

Configuración para agrupamiento, reducción de dimensionalidad, búsqueda de factores ocultos, modelos generativos, etc.

Reforzamiento

No tenemos datos
$g$ $\boldsymbol{x}_i$ $R(\boldsymbol{x}_i)$ , que el modelo generalmente no conoce (necesita ser aprendido también).
Evaluamos mediante la función de recompensa después de que tuvo algún tiempo para aprender.

No tenemos idea de cómo hacer algo, pero podemos decir si se ha hecho bien o mal.

Esto parece especialmente útil para tareas de decisión secuencial.

Referencias:
Si, J., Barto, A., Powell, W. y Wunsch, D. (2004) El aprendizaje por refuerzo y su relación con el aprendizaje supervisado, en el Manual de aprendizaje y programación dinámica aproximada, John Wiley & Sons, Inc., Hoboken, NJ, Estados Unidos. doi: 10.1002 / 9780470544785.ch2

— Señor tsjolder
fuente

Aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo: conceptos básicos del flujo de trabajo

Aprendizaje supervisado

Aprendizaje sin supervisión

Aprendizaje reforzado

Aprendizaje reforzado

Entrada

Algoritmo

Salida

Supervisado

Sin supervisión

Reforzamiento