¿Por qué desglosar el denominador en el Teorema de Bayes?


23

(Soy un novato en las estadísticas. Soy matemático y programador y estoy tratando de construir algo así como un ingenuo filtro de spam bayesiano).

He notado en muchos lugares que las personas tienden a descomponer el denominador en la ecuación del Teorema de Bayes. Entonces, en lugar de esto:

PAGS(UNAEl |si)PAGS(si)PAGS(UNA)

Se nos presenta esto:

PAGS(UNAEl |si)PAGS(si)PAGS(UNAEl |si)PAGS(si)+PAGS(UNAEl |¬si)PAGS(¬si)

Puede ver que esta convención se usa en este artículo de Wikipedia y en esta publicación perspicaz de Tim Peters.

Estoy desconcertado por esto. ¿Por qué el denominador se desglosa así? ¿Cómo ayuda eso a las cosas? ¿Qué tiene de complicado calcular , que en el caso de los filtros de spam sería ?PAGS(UNA)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


Sospecho que la respuesta es específica del dominio (es decir, específica de los filtros de spam). Si puede calcular los componentes P (A | B), etc., entonces debería poder calcular el P (A) más simple como lo indicó. O tal vez la respuesta esté relacionada con la pedagogía para que los lectores entiendan la relación entre P (A) y su descomposición en términos de P (A | B), P (B), etc.

1
No tengo una respuesta sólida, pero puedo decir que he cometido errores estúpidos en las pruebas en las que simplemente podría haber conectado los datos en el denominador explícito, pero pensé que sabía P (A) y me equivoqué.
Wayne

Respuestas:


16

La respuesta breve a su pregunta es: "la mayoría de las veces no sabemos qué es P (queso) y, a menudo, es (relativamente) difícil de calcular".

La respuesta más larga por la cual la Regla / Teorema de Bayes se expresa normalmente en la forma en que usted escribió es porque en los problemas bayesianos tenemos, sentado en nuestro regazo, una distribución previa (la P (B) arriba) y la probabilidad (la P (A | B), P (A | notB) anterior) y es una cuestión relativamente simple de multiplicación calcular el posterior (P (B | A)). Ir a la molestia de volver a expresar P (A) en su forma resumida es un esfuerzo que podría gastarse en otro lugar.

Puede que no parezca tan complicado en el contexto de un correo electrónico porque, como has señalado correctamente, es solo P (queso), ¿verdad? El problema es que con problemas Bayesianos más involucrados en el campo de batalla, el denominador es una integral desagradable, que puede o no tener una solución de forma cerrada. De hecho, a veces necesitamos métodos sofisticados de Montecarlo solo para aproximar la integral y la agitación de los números puede ser un verdadero dolor en la parte trasera.

Pero más al punto, por lo general, ni siquiera nos importa qué es P (queso). Tenga en cuenta que estamos tratando de perfeccionar nuestra creencia sobre si un correo electrónico es spam o no , y no podría importarnos menos la distribución marginal de los datos (la P (A), arriba). Es solo una constante de normalización, de todos modos, que no depende del parámetro; el acto de suma elimina cualquier información que tengamos sobre el parámetro. La constante es una molestia para calcular y, en última instancia, es irrelevante cuando se trata de concentrarse en nuestras creencias sobre si el correo electrónico no deseado es o no. A veces estamos obligados a calcularlo, en cuyo caso la forma más rápida de hacerlo es con la información que ya tenemos: el previo y la probabilidad.


¿Podría alguien proporcionar un ejemplo de "una integral antiestética, que puede tener o no una solución de forma cerrada", que se utilizaría en algún problema?
PaulG

8

Una razón para usar la regla de probabilidad total es que a menudo tratamos con las probabilidades del componente en esa expresión y es sencillo encontrar la probabilidad marginal simplemente conectando los valores. Para una ilustración de esto, vea el siguiente ejemplo en Wikipedia:

Otra razón es reconocer formas equivalentes de la regla de Bayes al manipular esa expresión. Por ejemplo:

PAGS(siEl |UNA)=PAGS(UNAEl |si)PAGS(si)PAGS(UNAEl |si)PAGS(si)+PAGS(UNAEl |¬si)PAGS(¬si)

Divide a través del RHS por el numerador:

PAGS(siEl |UNA)=11+PAGS(UNAEl |¬si)PAGS(UNAEl |si)PAGS(¬si)PAGS(si)

Lo cual es una buena forma equivalente para la regla de Bayes, hecha aún más útil al restar esto de la expresión original para obtener:

PAGS(¬siEl |UNA)PAGS(siEl |UNA)=PAGS(UNAEl |¬si)PAGS(UNAEl |si)PAGS(¬si)PAGS(si)

Esta es la regla de Bayes establecida en términos de probabilidades, es decir, probabilidades posteriores contra B = factor de Bayes contra B multiplicado por las probabilidades anteriores contra B. (O podría invertirlo para obtener una expresión en términos de probabilidades para B.) El factor de Bayes es La proporción de las probabilidades de sus modelos. Dado que no estamos seguros sobre el mecanismo subyacente de generación de datos, observamos datos y actualizamos nuestras creencias.

No estoy seguro de si esto le resulta útil, pero espero que no sea desconcertante; obviamente deberías trabajar con la expresión que mejor funcione para tu escenario. Quizás alguien más pueda entrar con razones aún mejores.


Puede ir un paso más allá y tomar registros. Entonces usted tiene relación log-posterior = proporción de registro previo + relación de probabilidad logarítmica
probabilityislogic

6

Las respuestas anteriores son lo suficientemente detalladas, pero una forma intuitiva de ver por qué (es decir, el dinominador en el teorema de Bayes) se divide en dos casos.PAGS(UNA)

PAGS(UNA)PAGS(UNAEl |si)siPAGS(UNAEl |si)PAGS(UNAEl |¬si)si¬siPAGS(UNAEl |si)PAGS(UNAEl |¬si)PAGS(si)PAGS(¬si)

PAGS(UNA)=PAGS(UNAEl |si)PAGS(si)+PAGS(UNAEl |¬si)PAGS(¬si)
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.