¿El aprendizaje supervisado es un subconjunto del aprendizaje de refuerzo?

Parece que la definición de aprendizaje supervisado es un subconjunto de aprendizaje de refuerzo, con un tipo particular de función de recompensa que se basa en datos etiquetados (a diferencia de otra información en el entorno). ¿Es esta una representación precisa?

— allstar
fuente

Es cierto que cualquier problema de aprendizaje supervisado se puede considerar un problema de aprendizaje de refuerzo equivalente: deje que los estados correspondan a los datos de entrada. Deje que las acciones correspondan a las predicciones de la salida. Defina la recompensa como el negativo de la función de pérdida utilizada para el aprendizaje supervisado. Maximiza la recompensa esperada. Por el contrario, los problemas de aprendizaje de refuerzo generalmente no se pueden considerar problemas de aprendizaje supervisados. Entonces, desde esta perspectiva, los problemas de aprendizaje supervisado son un subconjunto de problemas de aprendizaje de refuerzo.

Pero, tratar de resolver un problema de aprendizaje supervisado utilizando un algoritmo de aprendizaje de refuerzo general sería bastante inútil; todo lo que hace es tirar la estructura que habría hecho que el problema fuera más fácil de resolver. En el aprendizaje por refuerzo surgen varios problemas que no son relevantes para el aprendizaje supervisado. Y, el aprendizaje supervisado puede beneficiarse de los enfoques que no se aplican en el entorno de aprendizaje de refuerzo general. Por lo tanto, aunque existen algunos principios subyacentes comunes y técnicas compartidas entre los campos, normalmente no se ve el aprendizaje supervisado como un tipo de aprendizaje de refuerzo.

Referencias

Barto y Dietterich (2004) . Aprendizaje de refuerzo y su relación con el aprendizaje supervisado.

— usuario20160
fuente