Comprensión de la teoría de la separación d en redes bayesianas causales

15

Estoy tratando de entender la lógica de separación de d en las redes bayesianas causales. Sé cómo funciona el algoritmo, pero no entiendo exactamente por qué el "flujo de información" funciona como se indica en el algoritmo.

ingrese la descripción de la imagen aquí

Por ejemplo, en el gráfico anterior, pensemos que solo se nos da X y no se ha observado ninguna otra variable. Luego, de acuerdo con las reglas de separación d, la información fluye de X a D:

X influye en A, que es . Esto está bien, ya que A causa X y si conocemos el efecto X, esto afecta nuestra creencia sobre la causa A. La información fluye. $P(A)\neq P(A|X)$
X influye en B, que es . Esto está bien, ya que A ha sido cambiado por nuestro conocimiento sobre X, el cambio en A también puede influir en nuestras creencias sobre su causa, B. $P(B)\neq P(B|X)$
X influye en C, que es . Esto está bien porque sabemos que B está sesgado por nuestro conocimiento sobre su efecto indirecto, X, y dado que B está sesgado por X, esto influirá en todos los efectos directos e indirectos de B. C es un efecto directo de B y está influenciado por nuestro conocimiento sobre X. $P(C)\neq P(C|X)$

Bueno, hasta este punto, todo está bien para mí, ya que el flujo de la información ocurre de acuerdo con las relaciones intuitivas de causa y efecto. Pero no obtengo el comportamiento especial de las llamadas "estructuras en V" o "colisionadores" en este esquema. De acuerdo con la teoría de la separación d, B y D son las causas comunes de C en el gráfico anterior y dice que si no observamos a C ni a ninguno de sus descendientes, la información de flujo de X se bloquea en C. Bueno, está bien. , pero mi pregunta es ¿por qué?

De los tres pasos anteriores, comenzados desde X, vimos que C está influenciado por nuestro conocimiento sobre X y el flujo de información se produjo de acuerdo con la relación causa-efecto. La teoría de la separación d dice que no podemos pasar de C a D ya que C no se observa. Pero creo que, dado que sabemos que C está sesgado y D es una causa de C, D también debería verse afectado, mientras que la teoría dice lo contrario. Claramente me falta algo en mi patrón de pensamiento, pero no puedo ver de qué se trata.

Entonces necesito una explicación de por qué el flujo de información se bloquea en C, si C no se observa.

— Ufuk Can Bicici
fuente

No fluye de X a D, si solo se observa X. Lo declaras justo debajo de la imagen. (Aunque lo describe correctamente más abajo).

— ziggystar

Ya sé esto, que el flujo de información está bloqueado en C donde tenemos una "Estructura V". Lo que quiero saber es por qué; por qué una estructura en V bloquea el flujo de información cuando no observamos C, desde el punto de vista de la relación causa-efecto.

— Ufuk Can Bicici

6

¿No es intuitivo que no se puede razonar de causa a efecto no observado a otra causa? Si la lluvia (B) y el rociador (D) son causas del suelo húmedo (C), entonces ¿puede argumentar que ver lluvia implica que el suelo probablemente esté húmedo y continuar razonando que el rociador debe estar encendido desde el suelo? ¡¿esta mojado?! Por supuesto no. Usted argumentó que el suelo estaba mojado debido a la lluvia, ¡no puede buscar causas adicionales!

Si observa el suelo mojado, por supuesto, la situación cambia. Ahora puede razonar de una causa a otra como explica Frank.

— Neil G
fuente

4

Olvidémonos de X por un momento y consideremos solo el colisionador de B, C y D. La razón por la cual la estructura v puede bloquear el camino entre B y D es que, en general, si tiene dos variables aleatorias independientes (B y D) que afectan el mismo resultado (C), entonces conocer el resultado puede permitirle sacar conclusiones sobre la relación entre las variables aleatorias, permitiendo así el flujo de información.

$P(B|D) \neq P(B)$ $P(D|B) \neq P(D)$ ) Por lo tanto, saber que el césped está húmedo desbloquea el camino y hace que B y D sean dependientes.

Para entender esto mejor, podría ser útil echar un vistazo a la paradoja de Berkson , que describe la misma situación.

— FrankD
fuente

1) Tengo dificultades para comprender qué es una causa independiente antes de definir algo sobre D-Separation. Muchos autores definen la separación D utilizando relaciones intuitivas de causa y efecto. Intento construir un sistema de razonamiento basado en lo que estoy leyendo de diferentes fuentes y en base a mis intuiciones para poder aceptar este Teorema. Es similar a lo siguiente: "Si no se observa otra variable que no sea X, entonces el conocimiento sobre X puede influir en los efectos de X (todos los descendientes), las causas directas o indirectas de X (ancestros) y todos los demás efectos de las causas de X".

— Ufuk Can Bicici

2) Justifico este pensamiento así: A) X puede influir en sus efectos directos e indirectos, obviamente, ya que diferentes valores de X generarán diferentes causas. B) X puede influir en sus causas directas e indirectas ya que si observamos un efecto, podemos obtener nueva información sobre las causas, en un enfoque de diagnóstico. C) X influye en los otros efectos (excluyéndose) de todas sus causas directas e indirectas, ya que el conocimiento sobre X cambió nuestras creencias sobre estas causas, lo que a su vez afecta a todos los efectos. Intento interpretar tales redes bayesianas causales con este patrón. ¿Es esto correcto para empezar?

— Ufuk Can Bicici

3) Es como si estuviera tratando de formar un patrón intuitivo de "Flujo de información" para comprender los comportamientos de independencia-dependencia de las variables. Con este patrón no puedo ver qué es una causa independiente y aquí es donde estoy atrapado. Claramente extraño algo o puedo estar totalmente equivocado con este patrón de pensamiento.

— Ufuk Can Bicici

Creo que mi respuesta original fue un poco engañosa, porque me referí a B y D como 'causas' (arreglado ahora). El flujo de información es un concepto que está vinculado a observaciones, no a intervenciones causales. Como sabes, dos variables aleatorias son independientes si observar una no te da información sobre la segunda. Sus declaraciones parecen combinar la observación y la inferencia. La observación de X nos permite ajustar nuestra inferencia de sus padres (enunciado A) y sus causas directas, pero si una estructura en V está bloqueando el camino, entonces no podemos ajustar la inferencia por causas indirectas, por las razones descritas anteriormente.

— FrankD

1

Bueno, hasta este punto, todo está bien para mí, ya que el flujo de información ocurre de acuerdo con las relaciones intuitivas de causa y efecto. Pero no obtengo el comportamiento especial de las llamadas "estructuras en V" o "colisionadores" en este esquema.

Entonces la tuerca difícil de romper aquí es la estructura en v. Me gustaría ilustrar la diferencia entre la probabilidad de una variable S condicionada solo a la observación del efecto y la influencia de la observación de otra variable D que es independiente de S en la misma situación usando un ejemplo ficticio.

Digamos que alguien está tomando un curso, digamos álgebra lineal. Si puede pasarlo depende principalmente de la dificultad del examen. Denotemos el evento de pasar el curso por P, pasando como 1 y 0 de lo contrario; y la dificultad del examen como D, difícil como 1 y fácil como 0. Y algo sin sentido también puede influir en su rendimiento o en el resultado, digamos que sucede la singularidad y una máquina le lavará el cerebro y luego decide no hacerlo. tomar el examen. Denotamos ese evento por S, y su probabilidad es 0.0001. Eso parece imposible pero, por definición, su probabilidad no debería ser cero.

Por lo tanto, ahora tenemos un gráfico de la forma de estructura v:

 D   S
  | |
 \| |/ 
   P

$P(\neg P|S) = 0.999999$ $P(P|S)=0.000001$

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001|

$P(S|P)$ $P(S|P, D)$

1) Si no conocemos el resultado, podemos calcular la probabilidad de que ocurra la singularidad dado que el curso es fácil.

\begin{aligned} PAG (S El | \neg re) & = PAG (S, PAG El | \neg re) + PAG (S, \neg PAG El | \neg re) \\ = \frac{PAG (S = 1, PAG = 1, re = 0 0)}{PAG (re = 0 0)} + \frac{PAG (S = 1, PAG = 0 0, re = 0 0)}{PAG (re = 0 0)} \\ = \frac{PAG (S = 1) PAG (re = 0 0 El | S = 1) PAG (PAG = 1 El | re = 0 0, S = 1)}{PAG (re = 0 0)} + \frac{PAG (S = 1) PAG (re = 0 0 El | S = 1) PAG (PAG = 0 0 El | re = 0 0, S = 1)}{PAG (re = 0 0)} \\ = \frac{PAG (S = 1) PAG (re = 0 0 El | S = 1)}{PAG (re = 0 0)} \\ = \frac{PAG (S = 1) PAG (re = 0 0)}{PAG (re = 0 0)} \\ = PAG (S = 1) \\ = 0,0001 \end{aligned}

$\begin{align} P(S|\neg D) & = P(S, P|\neg D)+P(S, \neg P| \neg D) \\ & = \frac{P(S=1, P=1, D=0)}{P(D=0)} + \frac{P(S=1, P=0, D=0)}{P(D=0)} \\ & = \frac{P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)}{P(D=0)} + \frac{P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)}{P(D=0)} \\ & = \frac{P(S=1)P(D=0|S=1)}{P(D=0)} \\ & = \frac{P(S=1)P(D=0)}{P(D=0)} \\ & = P(S=1) \\ & = 0.0001 \end{align}$

Como puede ver arriba, eso no importa si el examen se aprueba o no. Lo que viene como debería venir. Se puede ver como una probabilidad marginal sobre P.

Y también podemos calcular la probabilidad de que ocurra la singularidad dado que el estudiante no aprueba el examen:

\begin{aligned} PAG (S, El | \neg PAG) & = \frac{PAG (S, \neg PAG)}{PAG (\neg PAG)} \\ = \frac{PAG (S, \neg pag, re) + PAG (S, \neg PAG, \neg re)}{PAG (\neg PAG)} \\ = \frac{PAG (\neg PAG El | S, re) PAG (S) PAG (re) + PAG (\neg PAG El | S, \neg re) PAG (S) PAG (\neg re)}{\sum_{S, re} PAG (\neg PAG El | S, re) PAG (S) PAG (re)} \\ = 0.0001818 \end{aligned}

$\begin{align} P(S, |\neg P) &= \frac{P(S,\neg P)}{P(\neg P)} \\ &= \frac{P(S,\neg p, D) + P(S,\neg P, \neg D)}{P(\neg P)}\\ &= \frac{P(\neg P|S, D) P(S) P(D)+P(\neg P|S, \neg D)P(S)P(\neg D)}{\sum_{S,D}P(\neg P |S,D)P(S)P(D) }\\ &= 0.0001818 \end{align}$

Sabiendo que el tipo no pasa el examen, podemos suponer que una máquina le puede lavar el cerebro es 0.0001818, que es un poco más grande que cuando no lo sabemos.

2) But what if we know that the guy failed the exam and the exam is easy?

\begin{aligned} P (S, | \neg P, \neg D) & = \frac{P (S = 1, P = 0, D = 0)}{P (P = 0, D = 0)} \\ = \frac{P (P = 0 | S = 1, D = 0) P (S = 1) P (D = 0)}{P (P = 0 | S = 1, D = 0) P (S = 1) P (D = 0) + P (P = 0 | S = 0, D = 0) P (S = 0) P (D = 0)} \\ = \frac{0.999999 \times 0.0001 \times 0.5}{0.2 \times 0.9999 \times 0.5 + 0.999999 \times 0.0001 \times 0.5} \\ = 0.0004998 \end{aligned}

$\begin{align} P(S, |\neg P, \neg D) &= \frac{P(S=1, P=0, D=0)}{P(P=0, D=0)} \\ & = \frac{P(P=0|S=1, D=0)P(S=1)P(D=0)}{P(P=0|S=1, D=0)P(S=1)P(D=0)+P(P=0|S=0, D=0)P(S=0)P(D=0)} \\ & = \frac{0.999999 \times 0.0001 \times 0.5}{0.2 \times 0.9999 \times 0.5+0.999999 \times 0.0001 \times 0.5} \\ & = 0.0004998 \end{align}$

Lo and behold, the change is much bigger than we just know he doesn't plass the exam. Then we see that $P(S|P) \neq P(S|P, D)$ we can infer that $S \perp D | P \notin I(P(P, S, D))$ which means D can influence S via P.

May this detailed derivation be of hlep.

— Lerner Zhang
fuente