Ejemplos de la vida real de los procesos de decisión de Markov

He estado viendo muchos videos tutoriales y tienen el mismo aspecto. Este, por ejemplo: https://www.youtube.com/watch?v=ip4iSMRW5X4

Explican estados, acciones y probabilidades que están bien. La persona lo explica bien, pero parece que no puedo entender para qué se usaría en la vida real. Todavía no he encontrado ninguna lista. El más común que veo es el ajedrez.

¿Se puede usar para predecir cosas? Si es así, ¿qué tipo de cosas? ¿Puede encontrar patrones entre cantidades infinitas de datos? ¿Qué puede hacer este algoritmo por mí?

Bonificación: También parece que los MDP se trata de ir de un estado a otro, ¿es esto cierto?

markov-process

— Karl Morrison
fuente

Un proceso de decisión markoviano tiene que ver con pasar de un estado a otro y se utiliza principalmente para la planificación y la toma de decisiones .

La teoría

Simplemente repitiendo la teoría rápidamente, un MDP es:

MDP = ⟨ S, A, T, R, γ ⟩

$\text{MDP} = \langle S,A,T,R,\gamma \rangle$

donde son los estados, las acciones, las probabilidades de transición (es decir, las probabilidades para ir de un estado a otro dada una acción), las recompensas (dado un cierto estado, y posiblemente acción), y es un factor de descuento que se utiliza para reducir la importancia de las recompensas futuras. $S$ $A$ $T$ $Pr(s'|s, a)$ $R$ $\gamma$

Entonces, para usarlo, debe haber predefinido:

Estados : pueden referirse, por ejemplo , a mapas de cuadrícula en robótica, o por ejemplo, puerta abierta y puerta cerrada .
Acciones : un conjunto fijo de acciones, como por ejemplo ir al norte, sur, este, etc. para un robot, o abrir y cerrar una puerta.
Probabilidades de transición : la probabilidad de pasar de un estado a otro dada una acción. Por ejemplo, ¿cuál es la probabilidad de una puerta abierta si la acción está abierta ? En un mundo perfecto, el último podría ser 1.0, pero si es un robot, podría haber fallado en el manejo del pomo de la puerta correctamente. Otro ejemplo en el caso de un robot en movimiento sería la acción hacia el norte , que en la mayoría de los casos lo llevaría a la celda de la cuadrícula al norte, pero en algunos casos podría haberse movido demasiado y llegar a la siguiente celda, por ejemplo.
Recompensas : se utilizan para guiar la planificación. En el caso del ejemplo de cuadrícula, es posible que deseemos ir a una celda determinada, y la recompensa será mayor si nos acercamos. En el caso del ejemplo de puerta, una puerta abierta puede dar una alta recompensa.

Una vez que se define el MDP, se puede aprender una política haciendo la iteración del valor o la iteración de la política que calcula la recompensa esperada para cada uno de los estados. La política luego da por estado la mejor acción (dado el modelo MDP) para hacer.

En resumen, un MDP es útil cuando desea planificar una secuencia eficiente de acciones en las que sus acciones no siempre pueden ser 100% efectivas.

Tus preguntas

¿Se puede usar para predecir cosas?

Yo lo llamaría planificación, no prediciendo, como la regresión, por ejemplo.

Si es así, ¿qué tipo de cosas?

Ver ejemplos .

¿Puede encontrar patrones entre cantidades infinitas de datos?

Los MDP se utilizan para hacer Aprendizaje de refuerzo , para encontrar patrones que necesita Aprendizaje sin supervisión . Y no, no puede manejar una cantidad infinita de datos. En realidad, la complejidad de encontrar una política crece exponencialmente con el número de estados. $|S|$

¿Qué puede hacer este algoritmo por mí?

Ver ejemplos .

Ejemplos de aplicaciones de MDP

White, DJ (1993) menciona una gran lista de aplicaciones:
- Cosecha: la cantidad de miembros de una población que quedan para la reproducción.
- Agricultura: cuánto plantar según el clima y el estado del suelo.
- Recursos hídricos: mantenga el nivel de agua correcto en los embalses.
- Inspección, mantenimiento y reparación: cuándo reemplazar / inspeccionar según la edad, el estado, etc.
- Compra y producción: cuánto producir en función de la demanda.
- Colas: reducen el tiempo de espera.
- ...
Finanzas: decidir cuánto invertir en acciones.
Robótica:

Y hay bastantes modelos más. Un modelo aún más interesante es el Proceso de decisión de Markovian parcialmente observable en el que los estados no son completamente visibles y, en cambio, las observaciones se utilizan para tener una idea del estado actual, pero esto está fuera del alcance de esta pregunta.

Información Adicional

Un proceso estocástico es Markovian (o tiene la propiedad Markov) si la distribución de probabilidad condicional de los estados futuros solo depende del estado actual, y no de los anteriores (es decir, no en una lista de estados anteriores).

— un oro
fuente

Esta es probablemente la respuesta más clara que he visto en Cross Validated.

— Modelo oculto de Markov

¿Alguna posibilidad de que puedas arreglar los enlaces? Algunos de ellos parecen rotos u obsoletos.

— ComputerScientist

Por lo que cualquier proceso que tiene el states, actions, transition probabilitiesy rewardsdefinido se denomina como de Markov?

— Suhail Gupta