¿Cómo actualiza un Bayesiano su creencia cuando sucede algo con probabilidad 0?

Definir $X:=$ "la moneda tiene probabilidad 1 de aterrizar cabezas" Suponga que uno tiene la creencia previa: $P(X)= 1$ . Sin embargo, después de lanzar la moneda una vez que aterriza cruz ( $E:=$ "Colas de monedas"). ¿Cómo debe un bayesiano actualizar sus creencias para mantenerse coherente? $P(X|E)$ es indefinido, como $P(E) = 0$ . Sin embargo, me parece que, dado que sus creencias anteriores son bastante inverosímiles (por supuesto, la probabilidad 0 no significa imposible), de alguna manera debería poder actualizar su creencia de acuerdo con alguna regla.

¿Es este un caso patológico en el que la actualización bayesiana no funciona o no conozco una solución a este problema?

probability bayesian philosophical

— Sebastian
fuente

Un ejemplo podría ser que se da cuenta de que es una mujer.

— Nick Cox

Creo que esta pregunta tiene un alcance mucho más amplio que el análisis bayesiano. ¿No es realmente preguntarse qué se debe hacer frente a la evidencia de que las suposiciones son incorrectas? Dudaría en llamar a estas situaciones "patológicas" porque ocurren todo el tiempo. Lo que realmente sería patológico son situaciones en las que las personas se niegan a cambiar sus suposiciones (o creencias) ante la evidencia incontrovertible. (Estas personas generalmente se llaman "políticos" en lugar de "bayesianos" :-).)

— whuber

@whuber Estoy totalmente de burlarse y despreciar a los políticos (del tipo equivocado), pero la ciencia tampoco es inmune. Planck comentó en su Autobiografía que una nueva teoría a veces solo triunfa cuando la generación anterior que se negó a tomarla en serio, todos murieron.

— Nick Cox

@ Nick, estoy seguro de que entiendes que la situación en la ciencia es más compleja que eso. (Sí, la situación en la política también es más compleja ...). Hace medio siglo, Thomas Kuhn fue uno de los primeros en apreciar eso y aclarar las razones más profundas.

— whuber

@whuber De acuerdo. Los buenos científicos cambian de opinión rápidamente frente a la lógica y la evidencia, y muchos de nosotros desechamos muchas ideas pésimas incluso antes de intentar hacerlas públicas. (Detalle minucioso: fue el libro más famoso de Kuhn donde creo que encontré por primera vez la referencia de Planck.)

— Nick Cox

Respuestas:

Cualquier probabilidad posterior es válida en este caso

Esta es una pregunta interesante, que se mete en el territorio de los fundamentos de la probabilidad. Aquí hay algunos enfoques posibles, pero por razones que explicaré más adelante, el enfoque que prefiero es dar una definición más amplia de probabilidad condicional que sea análoga a su definición cuando se trata de variables aleatorias continuas. (Los detalles de este método se muestran a continuación.) En este caso particular, esto lleva a la conclusión de que el Bayesiano puede tener cualquier creencia posterior sobre $X$ , y esto produce un conjunto coherente de creencias (a pesar de que han observado un evento que creen que tiene probabilidad cero).

La ventaja de este enfoque es que proporciona una distribución posterior bien definida y permite a los bayesianos actualizar sus creencias condicionadas a observar un evento que se estipuló que ocurría con probabilidad cero. El posterior se actualiza esencialmente de manera arbitraria (cualquier probabilidad posterior es igualmente coherente), pero esa flexibilidad no es sorprendente dado lo que ha ocurrido. En este caso, diferentes bayesianos con las mismas creencias previas podrían llegar legítimamente a conclusiones posteriores diferentes, debido al hecho de que todos han observado un evento con probabilidad cero a priori .

Probabilidad condicional para variables aleatorias continuas: cuando se trata de variables aleatorias continuas, la función de probabilidad condicional se define a través de la derivada de Radon-Nikodym , y esencialmente solo requiere que la función satisfaga la ley de probabilidad conjunta. Si $X$ y $E$ fueron variables aleatorias continuas (en lugar de eventos discretos) en un espacio de probabilidad $(\Omega, \mathscr{G}, P)$ entonces definiríamos la función de probabilidad condicional $p(x|e)$ como cualquier función medible no negativa que satisfaga la ecuación integral:

p (x) = \int_{E} p (x | e) d P (e) for all x \in X \in G .

$p(x) = \int \limits_\mathscr{E} p(x|e) \ dP(e) \quad \quad \quad \text{for all } x \in \mathscr{X} \in \mathscr{G}.$

Ya que $p(x)$ también se define a través de la derivada Radon-Nikodym, esto significa implícitamente que $p(x|e)$ puede ser cualquier función medible no negativa que satisfaga la ecuación integral:

P (X \in A) = \int_{A} \int_{E} p (x | e) d P (e) d x for all A \in G .

$\mathbb{P}(X \in \mathcal{A}) = \int \limits_\mathcal{A} \int \limits_\mathscr{E} p(x|e) \ dP(e) \ dx \quad \quad \quad \text{for all } \mathcal{A} \in \mathscr{G}.$

Esto proporciona una solución no única para la función de probabilidad condicional, aunque en la práctica, cada solución es "casi segura" equivalente (es decir, difieren solo en un conjunto de resultados con probabilidad cero), por lo que no hay problema con la no unicidad .

Definición de probabilidad condicional para eventos discretos: La definición estándar de probabilidad condicional para eventos discretos es la fórmula de razón bien conocida, donde el denominador es la probabilidad del evento de condicionamiento. Obviamente, en el caso de que el evento de condicionamiento tenga probabilidad cero, este objeto no está definido. La solución obvia aquí es ampliar la definición de manera análoga al método utilizado en el caso continuo. Es decir, definimos el par de probabilidad condicional $\mathbb{P}(X|E)$ y $\mathbb{P}(X|\bar{E})$ como cualquier par de valores entre cero y uno que satisfagan la ecuación:

P (X) = P (X | E) \times P (E) + P (X | \bar{E}) \times (1 - P (E)) .

$\mathbb{P}(X) = \mathbb{P}(X|E) \times \mathbb{P}(E) + \mathbb{P}(X|\bar{E}) \times (1-\mathbb{P}(E)).$

En el caso estipulado en la pregunta tenemos la creencia previa $\mathbb{P}(X) = 1$ y la distribución de muestreo $\mathbb{P}(E|X) = 0$ , lo que lleva a $\mathbb{P}(E) = 0$ . Sustituyendo estos valores en la ecuación anterior se obtiene:

1 = P (X | E) \times 0 + P (X | \bar{E}) \times 1.

$1 = \mathbb{P}(X|E) \times 0 + \mathbb{P}(X|\bar{E}) \times 1.$

Podemos ver que esta ecuación se satisface tomando $\mathbb{P}(X|\bar{E}) = 1$ y cualquier $0 \leqslant \mathbb{P}(X|E) \leqslant 1$ . Por lo tanto, la probabilidad condicional (posterior) puede ser coherentemente cualquier valor entre cero y uno. Cuando decimos que esto es "coherente", simplemente queremos decir que la probabilidad posterior no es inconsistente con las otras probabilidades estipuladas en el problema (es decir, las probabilidades anteriores y de muestreo). $\mathbb{P}(X|E)$

Por qué este enfoque tiene más sentido: es completamente posible que un análisis bayesiano pueda involucrar la observación de un evento discreto que tiene cero probabilidad estipulada en la distribución anterior. Por ejemplo, en un modelo estándar de lanzamiento de monedas, estipulamos una distribución de Bernoulli para el resultado de cara / cruz, pero es posible que la moneda descanse en su borde (por lo tanto, no es cara ni cruz). Los cerebros no deberían explotar en este caso y, por lo tanto, corresponde al razonamiento bayesiano tener una forma bien definida de proceder en este caso.

La principal ventaja del enfoque que he esbozado es que siempre conduce a al menos un valor permitido para la probabilidad posterior (es decir, la probabilidad posterior está bien definida ). La probabilidad posterior no está definida de manera única, pero eso es una consecuencia natural del hecho de que hay varios valores que son igualmente coherentes con la observación de muestreo de probabilidad cero. Este enfoque significa que el Bayesiano es libre de estipular cualquier probabilidad posterior, y esto es tan coherente como cualquier otro. (Tenga en cuenta que cuando decimos "coherente" aquí, estamos hablando de coherencia con una creencia previa que estipulaba probabilidad cero para un evento discreto que realmente sucedió, ¡por lo que la coherencia con eso no es una barra alta!)

Hay otro beneficio importante de este enfoque , que es que le permite al Bayesiano actualizar sus creencias en respuesta a la observación de un evento que tenía cero probabilidad de muestreo bajo el anterior, y en particular, el Bayesiano ahora puede revisar sus creencias. para que ya no atribuyan probabilidad cero a este evento . En el ejemplo que da, el Bayesiano tenía una creencia previa de que es cierto casi con certeza, luego compro un evento con probabilidad de muestreo cero condicional en este evento. Ahora el Bayesiano es libre de actualizar su creencia a una probabilidad posterior para que no es una (y, por lo tanto, una probabilidad posterior correspondiente para $X$ $X$ $\bar{X}$ eso no es cero). Entonces, en esencia, el Bayesiano ahora puede decir "¡Oh, mierda! ¡Fue un tonto antes! ¡Permítanme actualizar mi creencia en ese evento para que ya no ocurra con mayor seguridad!" Además, este no es un cambio ad hoc , sino una actualización legítima "coherente" realizada bajo el teorema de Bayes.

— Ben - Restablece a Monica
fuente

Hay una suposición implícita en todo razonamiento, bayesiano o de otro tipo, de que sabemos todo lo que podría suceder y lo explicamos. Si sucede algo que es imposible bajo el modelo, solo significa que esa suposición es falsa. Lo que se debe hacer en principio es retroceder y expandir el modelo, y comenzar de nuevo. Al menos en un marco bayesiano, este proceso es relativamente fácil de formalizar: en lugar de inferencia dentro de un solo modelo, uno haría inferencia en un conjunto de modelos.

En algún momento, nuestra capacidad humana para anidar modelos dentro de modelos debe agotarse. Incluso con ayuda automatizada (es decir, computadoras o lo que sea), debe haber un límite superior para la complejidad de la "madre de todos los modelos". No tengo ni idea de qué hacer en esa circunstancia, pero ciertamente estamos muy lejos de eso, cuando estamos trabajando con modelos paramétricos típicos que se encuentran en las aplicaciones.

— Robert Dodier
fuente

Esto está relacionado con el campo de la lógica. en particular, una declaración falsa implica todas las demás declaraciones, verdaderas o falsas. En su escenario $X$ es una declaración falsa. Esto significa que podemos escribir $X\implies S$ para cualquier otra proposición $S$ . Por ejemplo, tenemos $X\implies E$ (implica colas) y también $X\implies E^c$ (¡implica no colas también!)

Esto también es consistente con la solución de Ben (establezca la parte posterior a cualquier valor que desee). Obviamente, esto no es realmente útil en aplicaciones. Porque estoy bastante seguro de no necesitar ningún marco matemático para inventar los resultados que quiero.

Lo que sí significa es que no se deben incluir declaraciones falsas conocidas en sus probabilidades anteriores. Esto es lo mismo, ya que no se deben usar declaraciones falsas sobre los datos. En términos de tratar con el tipo de problemas de "cisne negro", podemos tratar esto conceptualmente asignando una pequeña, pero no nula posibilidad de que nuestros "supuestos de trabajo" estén equivocados. Si llamas a esta declaración $A_w$ como "mis suposiciones de trabajo son correctas" y establece que es igual a $p(A_w)=1-\epsilon$ . Hay algunas situaciones imposibles bajo el supuesto de trabajo, lo que significa que la probabilidad $p(d\in D_{impossible}|A_w)=0$ para algunos valores de los "datos" $d$ que existen en la región "imposible" $D_{impossible}$ cuando se cumplen los supuestos de trabajo. Llamar a este evento $Q:=d\in D_{impossible}$ . Esto también significa que $p(Q^c|A_w)=1-p(Q|A_w)=1$ . Asumimos que $p(Q|A_w^c)=\delta>0$ (es decir, los datos "imposibles" son posibles si la suposición de trabajo es incorrecta). Y finalmente eso $p(Q^c|A_w^c)=1-p(Q|A_w^c)=1-\delta$ .

Ahora tenemos dos escenarios. El primero es que los datos son "normales" (lo que significa $Q^c$ es verdad)

p (A_{w} | Q^{c}) = \frac{p (A_{w}) p (Q^{c} | A_{w})}{p (A_{w}) p (Q^{c} | A_{w}) + p (A_{w}^{c}) p (Q^{c} | A_{w}^{c})} = \frac{1 - ϵ}{1 - ϵ + ϵ (1 - δ)} = \frac{1 - ϵ}{1 - δ ϵ} > 1 - ϵ

$p(A_w|Q^c)= \frac{p(A_w)p(Q^c|A_w)}{p(A_w)p(Q^c|A_w)+p(A_w^c)p(Q^c|A_w^c)}= \frac{1-\epsilon}{1-\epsilon+\epsilon(1-\delta)}=\frac{1-\epsilon}{1-\delta \epsilon} > 1-\epsilon$

El segundo es que los datos son "imposibles" (lo que significa $Q$ es verdad)

p (A_{w} | Q) = \frac{p (A_{w}) p (Q | A_{w})}{p (A_{w}) p (Q | A_{w}) + p (A_{w}^{c}) p (Q | A_{w}^{c})} = \frac{0}{0 + ϵ δ} = 0.

$p(A_w|Q)= \frac{p(A_w)p(Q|A_w)}{p(A_w)p(Q|A_w)+p(A_w^c)p(Q|A_w^c)}=\frac{0}{0+\epsilon\delta}=0.$

Ahora, con suerte, esto muestra muy claramente que si se cumplen sus suposiciones y usted ya tenía una probabilidad previa muy alta, la posterior es al menos igual de alta (y a menudo más alta). Entonces, cualquier valor para $\epsilon$ que usa para representar "básicamente imposible" antes de ver los datos, debe usar un valor que sea más pequeño después de ver confirmadas las predicciones.

Al hacer cálculos, suponiendo $p(A_w|Q^c)=1$ no te llevará por mal camino. Entonces te "absorbes" $A_w,Q^c$ en la información previa

Ahora, ¿qué pasa cuando sucede lo imposible? Bueno, entonces debe desempacar y cambiar su probabilidad y antes de acuerdo con lo que estaba mal con su suposición.

— probabilidadislogica
fuente

Esta es una respuesta interesante (+1). Me he tomado la libertad de hacer una pequeña corrección para dar cuenta del caso donde

γ = 1

$\gamma = 1$ , que no se excluyó en sus condiciones anteriores. Si pretendía imponer la restricción

γ < 1

$\gamma < 1$ Para obtener una desigualdad estricta, edite en consecuencia.

— Ben - Restablece a Mónica

Me dí cuenta que

γ = 1 - δ

$\gamma=1-\delta$ en mi respuesta original Como

δ > 0

$\delta>0$ Esto significa que la desigualdad debe ser estricta.

— Probabilidadlogística