¿Cuál es la diferencia entre un campo aleatorio de Markov y un campo aleatorio condicional?

19

Si arreglo los valores de los nodos observados de un MRF, ¿se convierte en un CRF?

— alguien
fuente

Ver también: ¿Cada campo aleatorio condicional es simplemente un campo aleatorio de Markov con estructura restringida?

— Martin Thoma el

¿

— Martin Thoma

¿

— Martin Thoma el

11

Ok, encontré la respuesta yo mismo:

Los campos aleatorios condicionales (CRF) son un caso especial de los campos aleatorios de Markov (MRF).

1.5.4 Campo aleatorio condicional

Un campo aleatorio condicional (CRF) es una forma de MRF que define un posterior para variables x datos dados z, como con el MRF oculto anterior. Sin embargo, a diferencia del MRF oculto, la factorización en la distribución de datos P (x | z) y el P (x) anterior no se hace explícita [288]. Esto permite que las dependencias complejas de x en z se escriban directamente en la distribución posterior, sin que la factorización se haga explícita. (Dado P (x | z), tales factorizaciones siempre existen, sin embargo, infinitas de ellas, de hecho, por lo que no se sugiere que el CRF sea más general que el MRF oculto, solo que puede ser más conveniente tratar con .)

Fuente: Blake, Kohli y Rother: campos aleatorios de Markov para visión y procesamiento de imágenes. 2011

Un campo aleatorio condicional o CRF (Lafferty et al. 2001), a veces un campo aleatorio discriminativo (Kumar y Hebert 2003), es solo una versión de un MRF donde todos los potenciales de la camarilla están condicionados a las características de entrada: [...]

La ventaja de un CRF sobre un MRF es análoga a la ventaja de un clasificador discriminatorio sobre un clasificador generativo (ver Sección 8.6), es decir, no necesitamos "desperdiciar recursos" modelando cosas que siempre observamos. [...]

La desventaja de los CRF sobre los MRF es que requieren datos de entrenamiento etiquetados, y son más lentos para entrenar [...]

Fuente: Kevin P. Murphy: Aprendizaje automático: una perspectiva probabilística

Respondiendo mi pregunta:

Si arreglo los valores de los nodos observados de un MRF, ¿se convierte en un CRF?

Si. Fijar los valores es lo mismo que condicionarlos. Sin embargo, debe tener en cuenta que también hay diferencias en el entrenamiento.

Ver muchas de las conferencias sobre PGM (modelos gráficos probabilísticos) en Coursera me ayudó mucho.

— Martin Thoma
fuente

0

Redes MRF vs Bayes : Hablando de manera poco precisa (pero normalmente) , hay dos tipos de modelos gráficos: modelos gráficos no dirigidos y modelos gráficos dirigidos (un tipo más, por ejemplo, gráfico de Tanner). La primera también se conoce como la red Markov Random Fields / Markov y la posterior red Bayes / red Bayesiana. (A veces, los supuestos de independencia en ambos se pueden representar mediante gráficos cordales)

Markov implica la forma en que factoriza y un campo aleatorio significa una distribución particular entre las definidas por un modelo no dirigido.

CRF $\in$ MRF : cuando se observan algunas variables, podemos usar la misma representación gráfica no dirigida (como los gráficos no dirigidos) y la parametrización para codificar una distribución condicional $P(Y|X)$ donde $Y$ es un conjunto de variables objetivo y $X$ es un (disjunto ) conjunto de variables observadas.

Y la única diferencia radica en que para una red estándar de Markov, el término de normalización suma X e Y, pero para CRF el término suma solo Y.

Referencia:

Modelos gráficos no dirigidos (campos aleatorios de Markov)
Principios y técnicas de modelos gráficos probabilísticos (2009, The MIT Press)
Campos aleatorios de Markov

— Lerner Zhang
fuente

0

Comparemos la inferencia condicional bajo MRF con el modelado usando un CRF, estableciendo definiciones a lo largo del camino, y luego abordemos la pregunta original.

MRF

$G$

$G$
$G$ $V_i$ $V_j$ $V_i$ $V_j$ $\mathcal{B}_i$ $P(\{V_i\})$ $G$

Inferencia condicional bajo un MRF

Dado que un MRF representa una distribución conjunta sobre muchas variables que obedece a las restricciones de Markov, entonces podemos calcular distribuciones de probabilidad condicional dados los valores observados de algunas variables.

Por ejemplo, si tengo una distribución conjunta sobre cuatro variables aleatorias: IsRaining, SprinklerOn, SidewalkWet y GrassWet, entonces el lunes podría querer inferir la distribución de probabilidad conjunta sobre IsRaining y SprinklerOn dado que he observado SidewalkWet = False y GrassWet = Cierto. El martes, podría querer inferir la distribución de probabilidad conjunta sobre IsRaining y SprinklerOn dado que he observado SidewalkWet = True y GrassWet = True.

En otras palabras, podemos usar el mismo modelo MRF para hacer inferencias en estas dos situaciones diferentes, pero no diríamos que hemos cambiado el modelo. De hecho, aunque observamos SidewalkWet y GrassWet en los dos casos descritos aquí, el MRF en sí mismo no tiene "variables observadas" per se --- todas las variables tienen el mismo estado a los ojos del MRF, por lo que el MRF también modela, por ejemplo, la distribución conjunta de SidewalkWet y GrassWet.

CRF

$G$

$G$ $\{X_i\}_{i=1}^n$ $\{Y_i\}_{i=1}^m$
$P(\{Y_i\}_{i=1}^m|\{X_i\}_{i=1}^n)$ $G$

La diferencia

$G$

designa un subconjunto de variables como "observado"
solo define una distribución condicional en variables observadas dadas no observadas; no modela la probabilidad de las variables observadas (si las distribuciones se expresan en términos de parámetros, esto a menudo se ve como un beneficio ya que los parámetros no se desperdician al explicar la probabilidad de cosas que siempre se conocerán)
$G$

$\{X_i\}$ $G$ $G'$ $\{Y_i\}$ $\{Y_i\}$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

Ejemplo

$Y_i$ $X_1, X_2, ... X_{n-1}$ $X_n$

$G$ $\{X_i\}$ $\{Y_i\}$ $\{X_i\}$

Conclusión

$G$ $G$ $G$ $G$ $G$ $G$

Además de los ahorros potenciales de los parámetros del modelo, la mayor expresividad del modelo condicional y la retención de la eficiencia de inferencia, un punto final importante sobre la receta de CRF es que, para modelos discretos (y un gran subconjunto de modelos no discretos), a pesar de expresividad de la familia CRF, la probabilidad logarítmica se puede expresar como una función convexa de los parámetros de la función que permite la optimización global con descenso de gradiente.

Ver también: el documento original de crf y este tutorial

— usuario3780389
fuente