¿Diferencia entre las redes bayesianas y el proceso de Markov?


28

¿Cuál es la diferencia entre una red bayesiana y un proceso de Markov?

Creía que entendía los principios de ambos, pero ahora, cuando necesito comparar los dos, me siento perdido. Significan casi lo mismo para mí. Seguramente no lo son.

Los enlaces a otros recursos también son apreciados.


Recuerdo que alguien me dijo en este sitio, las redes bayesianas no requieren necesariamente inferencia bayesiana. Sus nombres provienen de la regla de Bayes.
Tim

Respuestas:


21

Un modelo gráfico probabilístico (PGM) es un formalismo gráfico para modelar de manera compacta distribuciones de probabilidad conjuntas y relaciones de (in) dependencia sobre un conjunto de variables aleatorias. Una PGM se denomina red bayesiana cuando se dirige el gráfico subyacente, y una red de Markov / campo aleatorio de Markovcuando el gráfico subyacente no está dirigido. En términos generales, usa el primero para modelar la influencia probabilística entre variables que tienen una direccionalidad clara; de lo contrario, usa el segundo; En ambas versiones de PGM, la falta de aristas en los gráficos asociados representa las dependencias condicionales en las distribuciones codificadas, aunque su semántica exacta difiere. El "Markov" en "Red de Markov" se refiere a una noción genérica de independencia condicional codificada por PGM, la de un conjunto de variables aleatorias XUNA es independiente de otras Xdo dado algún conjunto de variables "importantes" Xsi (el nombre técnico es una manta de Markov ), es decirpags(XUNAEl |Xsi,Xdo)=pags(XUNAEl |Xsi) .

Un proceso de Markov es cualquier proceso estocástico {Xt} que satisface la propiedad de Markov . Aquí el énfasis está en una colección de (escalar) variables aleatorias X1,X2,X3,...típicamente considerado como indexado por el tiempo, que satisface un tipo específico de independencia condicional, es decir, "el futuro es independiente del pasado dado el presente", en términos generales pags(Xt+1El |Xt,Xt-1,...,X1)=pags(Xt+1El |Xt) . Este es un caso especial de la noción 'Markov' definida por las PGM: simplemente tome el conjuntoUNA={t+1},si={t} , y tomedo como cualquier subconjunto de{t-1,t-2,...,1}e invoque el enunciado anterior pags(XUNAEl |Xsi,Xdo)=pags(XUNAEl |Xsi) . De esto vemos que la manta de Markov de cualquier variable Xt+1 es su predecesora Xt .

Por lo tanto, puede representar un proceso de Markov con una red bayesiana , como una cadena lineal indexada por tiempo (por simplicidad, solo consideramos el caso de tiempo / estado discreto aquí; imagen del libro PRML de Bishop): ingrese la descripción de la imagen aquí Este tipo de red bayesiana se conoce como Red bayesiana dinámica . Como se trata de una red bayesiana (por lo tanto, una PGM), se pueden aplicar algoritmos PGM estándar para la inferencia probabilística (como el algoritmo de suma de productos, del cual las ecuaciones de Chapman-Kolmogorov representan un caso especial) y la estimación de parámetros (por ejemplo, máxima probabilidad, que hierve hasta el conteo simple) sobre la cadena. Ejemplos de aplicaciones de esto son el modelo de lenguaje HMM y n-gram.

A menudo ves un diagrama que representa una cadena de Markov como esta.ingrese la descripción de la imagen aquí

pags(XtEl |Xt-1)Xt(Xt(1),...Xt(re))pags(Xt(1),...Xt(re)El |Xt-1(1),...Xt-1(re))

Xttpags(Xt+1El |Xt,Xt-1,...,X1)=pags(Xt+1El |Xt)


17

Primero unas pocas palabras sobre los procesos de Markov. Hay cuatro sabores distintos de esa bestia, dependiendo del espacio de estado (discreto / continuo) y la variable de tiempo (discreto / continuo). La idea general de cualquier Proceso de Markov es que "dado el presente, el futuro es independiente del pasado".

El proceso de Markov más simple es el espacio discreto y finito, y el tiempo discreto de la cadena de Markov. Puede visualizarlo como un conjunto de nodos, con bordes dirigidos entre ellos. El gráfico puede tener ciclos e incluso bucles. En cada borde puede escribir un número entre 0 y 1, de tal manera que para cada nodo los números en los bordes salientes de ese nodo sumen 1.

Ahora imagine un siguiente proceso: comienza en un estado dado A. Cada segundo, elige al azar un borde saliente del estado en el que se encuentra actualmente, con una probabilidad de elegir ese borde igual al número en ese borde. De tal manera, genera aleatoriamente una secuencia de estados.

Una visualización muy interesante de este proceso se puede encontrar aquí: http://setosa.io/blog/2014/07/26/markov-chains/

El mensaje para llevar es que una representación gráfica de un proceso de Markov de tiempo discreto en un espacio discreto es un gráfico general, que representa una distribución en secuencias de nodos del gráfico (dado un nodo inicial, o una distribución inicial en nodos).

Por otro lado, una Red Bayesiana es un DAG ( Gráfico Acíclico Dirigido ) que representa una factorización de alguna distribución de probabilidad conjunta. Por lo general, esta representación trata de tener en cuenta la independencia condicional entre algunas variables, para simplificar el gráfico y disminuir el número de parámetros necesarios para estimar la distribución de probabilidad conjunta.


3

Mientras buscaba una respuesta a la misma pregunta, encontré estas respuestas. Pero ninguno de ellos aclara el tema. Cuando encontré algunas buenas explicaciones, quise compartirlas con personas que pensaban como yo.

En el libro "Razonamiento probabilístico en sistemas inteligentes: redes de inferencia plausible", escrito por Judea Pearl, capítulo 3: Redes de Markov y Bayesianas: dos representaciones gráficas del conocimiento probabilístico, p.116:

La principal debilidad de las redes de Markov es su incapacidad para representar dependencias inducidas y no transitivas; dos variables independientes estarán conectadas directamente por un borde, simplemente porque alguna otra variable depende de ambas. Como resultado, muchas dependencias útiles no están representadas en la red. Para superar esta deficiencia, las redes bayesianas usan el lenguaje más rico de los gráficos dirigidos , donde las direcciones de las flechas nos permiten distinguir las dependencias genuinas de las dependencias espurias inducidas por observaciones hipotéticas.


1

Un proceso de Markov es un proceso estocástico con la propiedad de Markovian (cuando el índice es el momento, la propiedad de Markovian es una independencia condicional especial, que dice que el presente, el pasado y el futuro son independientes).

Una red bayesiana es un modelo gráfico dirigido. (Un campo aleatorio de Markov es un modelo gráfico no dirigido). Un modelo gráfico captura la independencia condicional, que puede ser diferente de la propiedad de Markovian.

No estoy familiarizado con los modelos gráficos, pero creo que un modelo gráfico puede verse como un proceso estocástico.


1

-La idea general de cualquier Proceso de Markov es que "dado el presente, el futuro es independiente del pasado".

-La idea general de cualquier método bayesiano es que "dado lo anterior, el futuro es independiente del pasado", sus parámetros, si son indexados por observaciones, seguirán un proceso de Markov

MÁS

"todo lo siguiente será lo mismo en cómo actualizo mis creencias

  • me das nueva información A, luego me das nueva información B,
  • me das nueva información B, luego nueva información A
  • me das A y B juntos "

Entonces sus parámetros serán realmente un proceso de Markov indexado por tiempo, y no por observaciones

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.