Es posible obtener la probabilidad exacta de una subsecuencia particular usando una representación en cadena del problema de Markov. Los detalles de cómo construir la cadena dependen de la subsecuencia particular de interés, pero daré un par de ejemplos de cómo hacerlo.
Probabilidad exacta a través de la cadena de Markov: considere una secuencia discreta de resultados de donde los resultados en la secuencia son intercambiables, y suponga que estamos interesados en alguna subcadena de longitud . Para cualquier valor dado de , vamos a es el suceso que se produce la subcadena de interés, y dejar que ser el caso de que los últimos resultados son los primeros en caracteres de la subcadena de interés (pero no más que esto). Utilizamos estos eventos para dar la siguiente partición de posibles estados de interés:A,T,C,GknWHaaa<kk+1
State 0State 1State 2State 3⋮State k−1State kW¯∩H0, W¯∩H1, W¯∩H2, W¯∩H3, ⋮W¯∩Hk−1,W.
Dado que se supone que la secuencia de resultados es intercambiable, tenemos resultados independientes condicionales a sus respectivas probabilidades . Su proceso de interés puede representarse como cadenas de Markov de tiempo discreto que comienzan en en y transiciones de acuerdo con una matriz de probabilidad que depende de la subcadena particular de interés. La matriz de transición siempre será aθA+θT+θC+θG=1State 0n=0(k+1)×(k+1)matriz que representa las probabilidades de transición utilizando los estados anteriores. Si no se ha alcanzado la subcadena de interés, entonces cada transición puede acercarlo un paso más a la subcadena o puede regresarlo a un estado anterior que depende de la subcadena en particular. Una vez que se alcanza la subcadena, este es un estado absorbente de la cadena, que representa el hecho de que se ha producido el evento de interés.
Por ejemplo, si la subcadena de interés es , la matriz de transición es:AAAAAA
P=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢1−θA1−θA1−θA1−θA1−θA1−θA0θA0000000θA0000000θA0000000θA0000000θA0000000θA1.⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
Por el contrario, si la subcadena de interés es , la matriz de transición es:ACTAGC
P=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢1−θA1−θA−θC1−θA−θT1−θA1−θA−θC−θG1−θA−θC0θAθAθA0θAθA00θC00θC0000θT0000000θA0000000θG000000θC1.⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
Como se puede ver arriba, la construcción de la matriz de transición requiere atención a la subcadena particular. Un resultado incorrecto lo regresa a un estado anterior en la cadena que depende de la subcadena particular de interés. Una vez que se construye la matriz de transición, para un valor dado de la probabilidad de tener la subcadena en la cadena es . (Esta probabilidad es cero para todos .)nP(W|n)={Pn}0,kn<k
Programación de esto en R: puede programar esto como una función R
creando una función que genere la matriz de transición para la cadena de Markov y una matriz de sus potencias hasta el número deseado de pruebas. Luego puede leer la probabilidad de transición apropiada para el valor de que sea de interés. Aquí hay un ejemplo de algún código para hacer esto:n
#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"
#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
a <- a/TOT;
t <- t/TOT;
c <- c/TOT;
g <- g/TOT;
P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
1-a, 0, a, 0, 0, 0, 0,
1-a, 0, 0, a, 0, 0, 0,
1-a, 0, 0, 0, a, 0, 0,
1-a, 0, 0, 0, 0, a, 0,
1-a, 0, 0, 0, 0, 0, a,
0, 0, 0, 0, 0, 0, 1),
nrow = 7, ncol = 7,
byrow = TRUE);
PPP <- array(0, dim = c(7,7,N));
PPP[,,1] <- P;
for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; }
PPP }
#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];
[1] 0.01732435
Como puede ver en este cálculo, la probabilidad de obtener la subcadena en lanzamientos con resultados equiprobables es . Este es solo un ejemplo que usa una subcadena particular y un número dado de ensayos, pero se puede variar para obtener probabilidades con respecto a otras subcadenas de interés.AAAAAAn=1000.01732435