Dadas dos cadenas de Markov absorbentes, ¿cuál es la probabilidad de que una termine antes que la otra?

Tengo dos cadenas de Markov diferentes, cada una con un estado absorbente y una posición inicial conocida. Quiero determinar la probabilidad de que la cadena 1 alcance un estado absorbente en menos pasos que la cadena 2.

Creo que puedo calcular la probabilidad de alcanzar un estado de absorción en una cadena particular después de n pasos: dada una matriz de transición la probabilidad de ser absorbido después de pasos es donde es el estado inicial y es el estado absorbente $P$ $n$ $P^n_{ij}$ $i$ $j$

Sin embargo, no estoy seguro de a dónde ir desde aquí. Los problemas análogos que he visto involucran dados (por ejemplo, tirar una suma de 7 antes de una suma de 8), pero eso es más fácil de resolver porque la probabilidad de tirar una suma en particular es constante e independiente del número de pasos dados hasta ahora.

probability markov-chain transition-matrix

— Jeff
fuente

Corre las cadenas en paralelo. Defina tres estados absorbentes en la cadena de productos resultante:

La primera cadena alcanza un estado absorbente pero la segunda no.
La segunda cadena alcanza un estado absorbente pero la primera no.
Ambas cadenas alcanzan simultáneamente un estado absorbente.

Las probabilidades limitantes de estos tres estados en la cadena de productos dan posibilidades de interés.

Esta solución involucra algunas construcciones (simples). Al igual que en la pregunta, dejar que ser una matriz de transición para una cadena . Cuando la cadena está en el estado , da la probabilidad de una transición al estado . Un estado absorbente hace una transición hacia sí mismo con probabilidad . $\mathbb{P} = P_{ij}, 1 \le i,j\le n$ $\mathcal P$ $i$ $P_{ij}$ $j$ $1$

Cualquier estado puedo ser hecho de absorción sobre la sustitución de la fila por un vector indicador con un en la posición . $i$ $\mathbb{P}_{i} = (P_{ij}, j=1, 2, \ldots,n)$ $(0,0,\ldots,0,1,0,\ldots,0)$ $1$ $i$
Cualquier conjunto de estados absorbentes puede fusionarse creando una nueva cadena cuyos estados son $A$ $\mathcal{P}/A$ . La matriz de transición está dada por $\{i\,|\, i\notin A\}\cup \{A\}$

$(P / A)_{i j} = \begin{array}{ll} {\begin{cases} P_{i j} & i \notin A, j \notin A \\ \sum_{k \in A} P_{i k} & i \notin A, j = A \\ 0 & i = A, j \notin A \\ 1 & i = j = A . \end{cases} \end{array}$ $(\mathbb{P}/A)_{ij} = \begin{array}{ll} \left\{ \begin{array}{ll} P_{ij} & i \notin A,\, j \notin A\\ \sum_{k\in A} P_{ik} & i\notin A, j=A \\ 0 & i=A, j\notin A \\ 1 & i = j = A. \end{array}\right. \end{array}$
Esto equivale a sumar las columnas de correspondientes a y reemplazar las filas correspondientes a por una sola fila que hace una transición hacia sí misma. $\mathbb{P}$ $A$ $A$
El producto de dos cadenas en los estados y en los estados , con matrices de transición y , respectivamente, es una cadena de Markov en los estados con matriz de transición $\mathcal{P}$ $S_P$ $\mathcal{Q}$ $S_Q$ $\mathbb{P}$ $\mathbb{Q}$ $S_P\times S_Q = \{(p,q)\,|\, p\in S_P, q\in S_Q\}$

$(P \otimes Q)_{(i, j), (k, l)} = P_{i k} Q_{j l} .$ $(\mathbb{P} \otimes \mathbb{Q})_{(i,j),(k,l)} = P_{ik}Q_{jl}.$
En efecto, la cadena de productos ejecuta las dos cadenas en paralelo, rastreando por separado dónde está cada una y haciendo transiciones de forma independiente.

Un ejemplo simple puede aclarar estas construcciones. Supongamos que Polly está lanzando una moneda con una probabilidad de que salga cara. Ella planea hacerlo hasta que observe una cabeza. Los estados para el proceso de lanzamiento de monedas son representan los resultados del lanzamiento más reciente: para colas, para caras. Al planear detenerse en la cabeza, Polly aplicará la primera construcción haciendo un estado absorbente. La matriz de transición resultante es $p$ $S_P = \{\text{T},\text{H}\}$ $\text{T}$ $\text{H}$ $\text H$

P = (\begin{matrix} 1 - p & p \\ 0 & 1 \end{matrix}) .

$\mathbb{P} = \pmatrix{1-p & p \\ 0 & 1}.$

Comienza en un estado aleatorio dado por el primer lanzamiento. $(1-p,p)$

A tiempo con Polly, Quincy lanzará una moneda justa. Planea detenerse una vez que ve dos cabezas seguidas. Su cadena de Markov, por lo tanto, debe realizar un seguimiento del resultado anterior, así como del resultado actual. Hay cuatro combinaciones de dos caras y dos colas, que abreviaré como " ", por ejemplo, donde la primera letra es el resultado anterior y la segunda letra es el resultado actual . Quincy aplica la construcción (1) para hacer un estado absorbente. Después de hacerlo, se da cuenta de que realmente no necesita cuatro estados: puede simplificar su cadena a tres estados: significa que el resultado actual es colas, significa que el resultado actual es cara y $\text{TH}$ $\text{HH}$ $\text{T}$ $\text{H}$ $\text{X}$ significa que los dos últimos resultados fueron dos caras: este es el estado absorbente. La matriz de transición es

Q = (\begin{matrix} \frac{1}{2} & \frac{1}{2} & 0 \\ \frac{1}{2} & 0 & \frac{1}{2} \\ 0 & 0 & 1 \end{matrix}) .

$\mathbb{Q} = \pmatrix{\frac{1}{2} & \frac{1}{2} & 0 \\ \frac{1}{2} & 0 & \frac{1}{2} \\ 0 & 0 & 1}.$

La cadena de productos se ejecuta en seis estados: . La matriz de transición es un producto tensorial de y y se calcula con la misma facilidad. Por ejemplo, es la posibilidad de que Polly haga una transición de a y, en al mismo tiempo (y de forma independiente), Quincy hace una transición de a . El primero tiene una probabilidad de y el segundo una probabilidad de . Debido a que las cadenas se ejecutan independientemente, esas posibilidades se multiplican, dando $(T,T), (T,H), (T,X); (H,T), (H,H), (H,X)$ $\mathbb{P}$ $\mathbb{Q}$ $(\mathbb{P}\otimes\mathbb{Q})_{(T,T),(T,H)}$ $\text T$ $\text T$ $\text T$ $\text H$ $1-p$ $1/2$ $(1-p)/2$ . La matriz de transición completa es

P \otimes Q = (\begin{matrix} \frac{1 - p}{2} & \frac{1 - p}{2} & 0 & \frac{p}{2} & \frac{p}{2} & 0 \\ \frac{1 - p}{2} & 0 & \frac{1 - p}{2} & \frac{p}{2} & 0 & \frac{p}{2} \\ 0 & 0 & 1 - p & 0 & 0 & p \\ 0 & 0 & 0 & \frac{1}{2} & \frac{1}{2} & 0 \\ 0 & 0 & 0 & \frac{1}{2} & 0 & \frac{1}{2} \\ 0 & 0 & 0 & 0 & 0 & 1 \end{matrix}) .

$\mathbb{P}\otimes\mathbb{Q} = \pmatrix{ \frac{1-p}{2} & \frac{1-p}{2} & 0 & \frac{p}{2} & \frac{p}{2} & 0 \\ \frac{1-p}{2} & 0 & \frac{1-p}{2} & \frac{p}{2} & 0 & \frac{p}{2} \\ 0 & 0 & 1-p & 0 & 0 & p \\ 0 & 0 & 0 & \frac{1}{2} & \frac{1}{2} & 0 \\ 0 & 0 & 0 & \frac{1}{2} & 0 & \frac{1}{2} \\ 0 & 0 & 0 & 0 & 0 & 1 }.$

Está en forma de matriz de bloques con bloques correspondientes a la segunda matriz : $\mathbb Q$

P \otimes Q = (\begin{matrix} P_{11} Q & P_{12} Q \\ P_{21} Q & P_{22} Q \end{matrix}) = (\begin{matrix} (1 - p) Q & p Q \\ 0 & Q \end{matrix}) .

$\mathbb{P}\otimes\mathbb{Q} = \pmatrix{ P_{11}\mathbb Q & P_{12}\mathbb Q \\ P_{21}\mathbb Q & P_{22}\mathbb Q } = \pmatrix{ (1-p)\mathbb Q & p\mathbb Q \\ \mathbb 0 & \mathbb Q }.$

Polly y Quincy compiten para ver quién logrará su objetivo primero. El ganador será Polly cada vez que se realice una transición a donde no es ; el ganador será Quincy cada vez que se realice una transición a ; y si antes de que cualquiera de estos pueda suceder, se realiza una transición a , el resultado será un empate. Para realizar un seguimiento, haremos que los estados y absorbentes (a través de la construcción (1)) y luego los fusionaremos ( a través de la construcción (2)). La matriz de transición resultante, ordenada por los estados $(\text{H},\text{*})$ $\text{*}$ $\text X$ $(\text{T},\text{X})$ $(\text{H},\text{X})$ $(\text{H},\text{T})$ $(\text{H},\text{H})$ $(T,T), (T,H), (T,X), \{(H,T), (H,H)\}, (H,X)$ es

R = (\begin{matrix} \frac{1 - p}{2} & \frac{1 - p}{2} & 0 & p & 0 \\ \frac{1 - p}{2} & 0 & \frac{1 - p}{2} & \frac{p}{2} & \frac{p}{2} \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 \end{matrix}) .

$\mathbb{R} = \pmatrix{ \frac{1-p}{2} & \frac{1-p}{2} & 0 & p & 0 \\ \frac{1-p}{2} & 0 & \frac{1-p}{2} & \frac{p}{2} & \frac{p}{2} \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 }.$

Los resultados del primer lanzamiento simultáneo de Polly y Quincy serán los estados con probabilidades , respectivamente: este es el estado inicial en el que se inicia la cadena. $(T,T), (T,H), (T,X), \{(H,T), (H,H)\}, (H,X)$ $\mu = ((1-p)/2, (1-p)/2, 0, p, 0)$

En el límite como , $n\to \infty$

μ \cdot R^{n} \to \frac{1}{1 + 4 p - p^{2}} (0, 0, (1 - p)^{2}, p (5 - p), p (1 - p)) .

$\mu \cdot \mathbb{R}^n \to \frac{1}{1+4p-p^2}(0, 0, (1-p)^2, p(5-p), p(1-p)).$

Por lo tanto, las posibilidades relativas de los tres estados absorbentes (que representan a Quincy gana, Polly gana, empatan) son . $(T,X), \{(H,T), (H,H)\}, (H,X)$ $(1-p)^2:p(5-p):p(1-p)$

Figura

En función de (la posibilidad de que cualquiera de los lanzamientos de Polly sea cara), la curva roja traza la posibilidad de Polly de ganar, la curva azul traza la posibilidad de Quincy de ganar y la curva dorada traza la posibilidad de un empate. $p$

— whuber
fuente

Muy buen ejemplo, gracias por esto. Todavía estoy trabajando en los detalles para verlos por mí mismo. Solo una pregunta: aquí asumimos que los dos eventos (lanzamientos de Polly y Quincy) estaban sucediendo simultáneamente, ¿qué diferencia habría si los hiciéramos secuencialmente, o incluso eligiéramos al azar cada vez que lanzaría el próximo?

— user929304

@ user929304 Obtendría diferentes respuestas, posiblemente sustancialmente. Por ejemplo, suponga que P y Q están ejecutando una cadena en la que los estados se dividen en subconjuntos A y B donde todas las transiciones de A van a B y todas de B van a A. Deje que P y Q comiencen en estados en A. En La cadena de productos alternan simultáneamente entre A y B, pero las cadenas secuenciales y de elección aleatoria rompen ese patrón invariable.

— whuber