Combinando probabilidades / información de diferentes fuentes

26

Digamos que tengo tres fuentes independientes y cada una de ellas hace predicciones para el clima mañana. El primero dice que la probabilidad de lluvia mañana es 0, luego el segundo dice que la probabilidad es 1, y finalmente el último dice que la probabilidad es 50%. Me gustaría saber la probabilidad total dada esa información.

Si aplico el teorema de multiplicación para eventos independientes obtengo 0, que no parece correcto. ¿Por qué no es posible multiplicar los tres si todas las fuentes son independientes? ¿Hay alguna forma bayesiana de actualizar la versión anterior a medida que obtengo nueva información?

Nota: Esto no es tarea, es algo en lo que estaba pensando.

— Biela Diela
fuente

1

¿Sabes qué tan confiables son las fuentes independientes

— Dilip Sarwate

No, a priori supondría que todas las fuentes son igualmente confiables.

— Biela Diela

3

Esta es una buena pregunta en la que también estoy pensando. Añadiría la segunda pregunta: si todas las predicciones fueran 0.75, ¿cuál sería la probabilidad combinada? Superior a 0,75? ¿Cuál sería un marco formal para analizar este tipo de preguntas?

— Karsten

2

Realmente no hay suficiente información; Necesitamos algún modelo de cómo se espera que las predicciones se relacionen con la realidad.

— Glen_b -Reinstate Monica

No estoy muy seguro de lo que se entiende por "todas las fuentes son igualmente confiables" cuando las fuentes proporcionan declaraciones sobre probabilidades o niveles de confianza. Si estamos hablando de la probabilidad de que una cierta probabilidad tenga un valor dado que parece plantear problemas conceptuales. Por cierto, si las fuentes 1 y 2 son igualmente confiables, ambas deben estar en lo cierto con probabilidad 0.50 ... (y la probabilidad de lluvia es 1/2).

— AG

32

Usted pregunta acerca de tres cosas: (a) cómo combinar varios pronósticos para obtener un pronóstico único, (b) si el enfoque bayesiano se puede usar aquí, y (c) cómo lidiar con las probabilidades cero.

La combinación de pronósticos es una práctica común . Si tiene varios pronósticos que si toma el promedio de esos pronósticos, el pronóstico combinado resultante debería ser mejor en términos de precisión que cualquiera de los pronósticos individuales. Para promediarlos, puede usar el promedio ponderado donde los pesos se basan en errores inversos (es decir, precisión) o contenido de información . Si tuviera conocimiento sobre la confiabilidad de cada fuente, podría asignar pesos que sean proporcionales a la confiabilidad de cada fuente, de modo que las fuentes más confiables tengan un mayor impacto en el pronóstico combinado final. En su caso, no tiene ningún conocimiento sobre su confiabilidad, por lo que cada pronóstico tiene el mismo peso y puede utilizar la media aritmética simple de los tres pronósticos.

0 % \times .33 + 50 % \times .33 + 100 % \times .33 = (0 % + 50 % + 100 %) / 3 = 50 %

$0\%\times.33+50\%\times.33+100\%\times.33 = (0\%+50\%+100\%)/3=50\%$

Como se sugirió en los comentarios de @AndyW y @ArthurB. , existen otros métodos además de la media ponderada simple. Muchos de estos métodos se describen en la literatura sobre el promedio de pronósticos expertos, con los que no estaba familiarizado antes, así que gracias chicos. Al promediar los pronósticos de los expertos, a veces queremos corregir el hecho de que los expertos tienden a retroceder a la media (Baron et al, 2013), o hacer que sus pronósticos sean más extremos (Ariely et al, 2000; Erev et al, 1994). Para lograr esto, se podrían usar transformaciones de pronósticos individuales , por ejemplo, la función logit $p_i$

\begin{matrix} (1) & l o sol yo t ({pags}_{yo}) = Iniciar sesión (\frac{{pags}_{yo}}{1 - {pags}_{yo}}) \end{matrix}

$\mathrm{logit}(p_i) = \log\left( \frac{p_i}{1-p_i} \right) \tag{1}$

probabilidades a la potencia -ésimo $a$

\begin{matrix} (2) & sol ({pags}_{yo}) = {(\frac{{pags}_{yo}}{1 - {pags}_{yo}})}^{una} \end{matrix}

$g(p_i) = \left( \frac{p_i}{1-p_i} \right)^a \tag{2}$

donde , o una transformación más general de la forma $0 < a < 1$

\begin{matrix} (3) & t ({pags}_{yo}) = \frac{{pags}_{yo}^{una}}{{pags}_{yo}^{una} + (1 - {pags}_{yo})^{una}} \end{matrix}

$t(p_i) = \frac{p_i^a}{p_i^a + (1-p_i)^a} \tag{3}$

donde si no se aplica transformación, si los pronósticos individuales se hacen más extremos, si pronósticos se hacen menos extremos, lo que se muestra en la imagen a continuación (ver Karmarkar, 1978; Baron et al, 2013 ) $a=1$ $a>1$ $0 < a<1$

Luego de promediar tales pronósticos de transformación (usando la media aritmética, la mediana, la media ponderada u otro método). Si se usaron las ecuaciones (1) o (2), los resultados deben ser transformados de nuevo usando logit inverso para (1) y probabilidades inversas para (2). Alternativamente, se puede usar la media geométrica (ver Genest y Zidek, 1986; cf. Dietrich y List, 2014)

\begin{matrix} (4) & \hat{pags} = \frac{\prod_{yo = 1}^{norte} {pags}_{yo}^{w_{yo}}}{\prod_{yo = 1}^{norte} {pags}_{yo}^{w_{yo}} + \prod_{yo = 1}^{norte} (1 - {pags}_{yo})^{w_{yo}}} \end{matrix}

$\hat p = \frac{ \prod_{i=1}^N p_i^{w_i} }{ \prod_{i=1}^N p_i^{w_i} + \prod_{i=1}^N (1 - p_i)^{w_i} } \tag{4}$

o enfoque propuesto por Satopää et al (2014)

\begin{matrix} (5) & \hat{pags} = \frac{{[\prod_{yo = 1}^{norte} {(\frac{{pags}_{yo}}{1 - {pags}_{yo}})}^{w_{yo}}]}^{una}}{1 + {[\prod_{yo = 1}^{norte} {(\frac{{pags}_{yo}}{1 - {pags}_{yo}})}^{w_{yo}}]}^{una}} \end{matrix}

$\hat p = \frac{ \left[ \prod_{i=1}^N \left(\frac{p_i}{1-p_i} \right)^{w_i} \right]^a }{ 1 + \left[ \prod_{i=1}^N \left(\frac{p_i}{1-p_i} \right)^{w_i} \right]^a } \tag{5}$

donde son pesos. En la mayoría de los casos, se usan pesos iguales menos que a priori exista información que sugiera otra opción. Dichos métodos se utilizan para promediar pronósticos de expertos para corregir el exceso o el exceso de confianza. En otros casos, debe considerar si la transformación de pronósticos a más o menos extremos está justificada, ya que puede hacer que la estimación agregada resultante caiga fuera de los límites marcados por el pronóstico individual más bajo y más grande. $w_i$ $w_i = 1/N$

Si tiene conocimiento a priori sobre la probabilidad de lluvia, puede aplicar el teorema de Bayes para actualizar los pronósticos dada la probabilidad a priori de lluvia de manera similar a la descrita aquí . También hay un enfoque simple que podría aplicarse, es decir, calcular el promedio ponderado de sus pronósticos de (como se describió anteriormente) donde la probabilidad previa se trata como un punto de datos adicional con algún peso preespecificado como en este ejemplo IMDB (ver también la fuente , o aquí y aquí para discusión; cf. Genest y Schervish, 1985), es decir $p_i$ $\pi$ $w_{\pi}$

\begin{matrix} (6) & \hat{pags} = \frac{(\sum_{yo = 1}^{norte} {pags}_{yo} w_{yo}) + π w_{π}}{(\sum_{yo = 1}^{norte} w_{yo}) + w_{π}} \end{matrix}

$\hat p = \frac{ \left(\sum_{i=1}^N p_i w_i \right) + \pi w_{\pi} }{ \left(\sum_{i=1}^N w_i \right) + w_{\pi} } \tag{6}$

Sin embargo, a partir de su pregunta, no se deduce que tenga ningún conocimiento a priori sobre su problema, por lo que probablemente usaría uniforme antes, es decir, supondrá una probabilidad de lluvia del priori y esto realmente no cambia mucho en el caso de que proporcionó un ejemplo. $50\%$

Para tratar con ceros, hay varios enfoques diferentes posibles. Primero debe notar que el probabilidad de lluvia no es un valor realmente confiable, ya que dice que es imposible que llueva. Problemas similares ocurren a menudo en el procesamiento del lenguaje natural cuando en sus datos no observa algunos valores que posiblemente pueden ocurrir (por ejemplo, cuenta frecuencias de letras y en sus datos no aparece ninguna letra poco común). En este caso, el estimador clásico de probabilidad, es decir $0\%$

{pags}_{yo} = \frac{{norte}_{yo}}{\sum_{yo} {norte}_{yo}}

$p_i = \frac{n_i}{\sum_i n_i}$

donde es un número de ocurrencias de th valor (fuera de las categorías ), le da si . Esto se llama problema de frecuencia cero . Para tales valores, sabe que su probabilidad es distinta de cero (¡existen!), Por lo que esta estimación es obviamente incorrecta. También existe una preocupación práctica: multiplicar y dividir por ceros conduce a ceros o resultados indefinidos, por lo que los ceros son problemáticos para tratar. $n_i$ $i$ $d$ $p_i = 0$ $n_i = 0$

La solución fácil y comúnmente aplicada es agregar un constante a sus recuentos, para que $\beta$

{pags}_{yo} = \frac{{norte}_{yo} + β}{(\sum_{yo} {norte}_{yo}) + re β}

$p_i = \frac{n_i + \beta}{(\sum_i n_i) + d\beta}$

La elección común para es , es decir, la aplicación uniforme antes basado en la regla de Laplace de la sucesión , para Krichevski-Trofimov estimación, o para Schurmann-Grassberger (1996) estimador. Sin embargo, tenga en cuenta que lo que hace aquí es aplicar información fuera de los datos (anterior) en su modelo, por lo que obtiene un sabor bayesiano subjetivo. Al utilizar este enfoque, debe recordar las suposiciones que hizo y tomarlas en consideración. El hecho de que tenemos fuertes a priori $\beta$ $1$ $1/2$ $1/d$ El conocimiento de que no debería haber ninguna probabilidad cero en nuestros datos justifica directamente el enfoque bayesiano aquí. En su caso, no tiene frecuencias sino probabilidades, por lo que estaría agregando un valor muy pequeño para corregir los ceros. Sin embargo, tenga en cuenta que, en algunos casos, este enfoque puede tener malas consecuencias (por ejemplo, cuando se trata de registros ), por lo que debe usarse con precaución.

Schurmann, T. y P. Grassberger. (1996) Estimación de entropía de secuencias de símbolos. Caos, 6, 41-427.

Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS y Zauberman, G. (2000). Los efectos de promediar estimaciones de probabilidad subjetiva entre y dentro de los jueces. Revista de Psicología Experimental: Aplicada, 6 (2), 130.

Baron, J., Mellers, BA, Tetlock, PE, Stone, E. y Ungar, LH (2014). Dos razones para hacer pronósticos de probabilidad agregados más extremos. Análisis de decisiones, 11 (2), 133-145.

Erev, I., Wallsten, TS y Budescu, DV (1994). Sobreconfianza y exceso de confianza simultáneas: el papel del error en los procesos de juicio. Revisión psicológica, 101 (3), 519.

Karmarkar, Estados Unidos (1978). Utilidad ponderada subjetivamente: una extensión descriptiva del modelo de utilidad esperado. Comportamiento organizacional y desempeño humano, 21 (1), 61-72.

Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV y Wallsten, TS (2014). Agregación de pronósticos mediante recalibración. Aprendizaje automático, 95 (3), 261-289.

Genest, C. y Zidek, JV (1986). Combinando distribuciones de probabilidad: una crítica y una bibliografía anotada. Ciencia estadística, 1 , 114-135.

Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE y Ungar, LH (2014). Combinando múltiples predicciones de probabilidad usando un modelo logit simple. International Journal of Forecasting, 30 (2), 344-356.

Genest, C. y Schervish, MJ (1985). Modelado de juicios expertos para la actualización bayesiana. Los Anales de Estadísticas , 1198-1212.

Dietrich, F. y List, C. (2014). Agrupación de opinión probabilística. (Inédito)

— Tim
fuente

2

Quería agregar a esto en lugar de comenzar una nueva respuesta. Otro método bien conocido es combinar las tres (o N) probabilidades tomando su media geométrica (en lugar de su media aritmética). Hinton señala que esto le da a un modelo con una probabilidad muy alta o baja, el poder de 'veto' entre otros, en lugar de promediar todo lo que a veces puede funcionar en su contra.

— Zhubarb

Entonces, si los tres pronósticos fueran todos del 75%, y no hay información disponible sobre su confiabilidad, ¿el pronóstico final sería del 75%?

— Karsten

@KarstenW. sí, ¿por qué esperarías algo diferente? Si no tiene información a priori, esta es la única información que tiene, por lo que no tiene ninguna razón para considerar que el resultado final sea diferente ...

— Tim

1

No he leído ninguno de los trabajos académicos de Tetlock, pero comenzaría por allí. Tales como dos razones para hacer pronósticos de probabilidad agregados más extremos . Buscaré la redacción exacta de Phil, puedo estar recordando mal la palabra extremizar .

— Andy W

1

Estaba cerca de los extremizados , pero no del todo. Debería haber usado extremized , mira aquí . Además de Baron et al. artículo mencionado, veo que Ville Satopää tiene algo de trabajo sobre el tema arxiv.org/abs/1506.06405 .

— Andy W

6

Hay dos formas de pensar en el problema. Una es decir que las fuentes observan una versión ruidosa de la variable latente "lloverá / no lloverá".

$Beta(a+b,a)$ $Beta(a,a+b)$

$a$ $x$ $y$ $z$

pags = \frac{1}{1 + {(\frac{1}{X} - 1)}^{si} {(\frac{1}{y} - 1)}^{si} {(\frac{1}{z} - 1)}^{si}}

$p = \frac{1}{1+\left(\frac{1}{x}-1\right)^b\left(\frac{1}{y}-1\right)^b\left(\frac{1}{z}-1\right)^b}$

$b$ $b>1$ $b<1$ $b = 1$

\frac{pags}{1 - pags} = \frac{X}{1 - X} \frac{y}{1 - y} \frac{z}{1 - z}

$\frac{p}{1-p} = \frac{x}{1-x} \frac{y}{1-y} \frac{z}{1-z}$

$1$ $0$

Este modelo funciona mejor si estás pensando en tres personas que te dicen si llovió ayer o no. En la práctica, sabemos que hay un componente aleatorio irreducible en el clima, por lo que podría ser mejor suponer que la naturaleza elige primero una probabilidad de lluvia, que las fuentes observan ruidosamente, y luego lanza una moneda sesgada para decidir si o no va a llover.

En ese caso, la estimación combinada se parecería mucho más a un promedio entre las diferentes estimaciones.

— Arthur B.
fuente

¿Cuál sería x, y, z en este modelo?

— Karsten

Serían las tres predicciones diferentes.

— Arthur B.

x = y = z = \frac{3}{4}

$x = y = z = \frac{3}{4}$

p = \frac{27}{28}

$p = \frac{27}{28}$

\frac{3}{4}

$\frac{3}{4}$

\frac{27}{28}

$\frac{27}{28}$

Pasar del 3/4 al 27/28 es un poco extremo, es como si tres personas le estuvieran diciendo que el cielo es azul oscuro y usted concluyó que es negro ...

— Tim

Depende del modelo. Aquí supongo que cada fuente tiene una vista ruidosa de una variable binaria latente, llueva o no llueva. Es más como tres personas diferentes te dicen que llovió ayer. También puede modelar el sistema ya que existe una probabilidad latente de lluvia y las fuentes de pronóstico obtienen una versión ruidosa de ese pronóstico.

— Arthur B.

3

En el marco del Modelo de creencias transferibles (TBM) , es posible combinar diferentes predicciones utilizando, por ejemplo, la "regla conjuntiva de combinación". Para aplicar esta regla, debe transformar las probabilidades de las predicciones en asignaciones de creencias básicas. Esto se puede lograr con el llamado Principio de menor compromiso. En R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

Para el segundo ejemplo de tres predicciones independientes de 0,75, este enfoque devuelve un valor más alto:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

Esto no está muy lejos del enfoque bayesiano que se muestra en la respuesta de Arthur B.

— Karsten W.
fuente

2

Creo que vale la pena mirar el esquema de ponderación basado en errores inversos mencionados en una de las respuestas. Si las fuentes son verdaderamente independientes y restringimos los pesos para que sumen uno, los pesos están dados por

w_{1} = \frac{σ_{2}^{2} σ_{3}^{2}}{σ_{1}^{2} σ_{2}^{2} + σ_{1}^{2} σ_{3}^{2} + σ_{2}^{2} σ_{3}^{2}}, w_{2} = \frac{σ_{1}^{2} σ_{3}^{2}}{σ_{1}^{2} σ_{2}^{2} + σ_{1}^{2} σ_{3}^{2} + σ_{2}^{2} σ_{3}^{2}}, w_{3} = \frac{σ_{1}^{2} σ_{2}^{2}}{σ_{1}^{2} σ_{2}^{2} + σ_{1}^{2} σ_{3}^{2} + σ_{2}^{2} σ_{3}^{2}} .

$w_1 = {{\sigma_2^2 \sigma_3^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}},\ w_2 = {{\sigma_1^2 \sigma_3^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}},\ w_3 ={{\sigma_1^2 \sigma_2^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}}.$

$\frac{1}{3}$

$\sigma_i$ $\sigma_1^2 : \sigma_2^2 : \sigma_3^2 = 1:2:4,$

F = \frac{8}{14} * (0 0) + \frac{4 4}{14} * (1) + \frac{2}{14} * (0.5 0.5) = 0.3571

$f = { {{8} \over {14}}*(0) + {{4} \over {14}}*(1) + {{2} \over {14}}*(0.5) } = 0.3571$

— Soakley
fuente

1

Sus números de probabilidad de lluvia son solo la mitad de la historia, ya que tendríamos que moderar sus predicciones con la probabilidad de que sean precisas al hacer conjeturas.

Debido a que algo como la lluvia es mutuamente excluyente (está lloviendo o no, en esta configuración), no todos pueden ser correctos simultáneamente con un 75% de probabilidad como lo sugirió Karsten (creo que es difícil de decir con la confusión que escucho sobre lo que significa para encontrar "probabilidad combinada").

Teniendo en cuenta sus habilidades individuales para predecir el clima, podríamos apuñalar (a la Thomas Bayes, como en un tiro generalmente ciego en la oscuridad) sobre cuál es la probabilidad de lluvia mañana.

La estación 1 es correcta en sus predicciones el 60% del tiempo, el segundo 30% del tiempo y la última estación un pobre 10% del tiempo.

E [lluvia] = Px X + Py Y + Pz * Z es la forma que estamos viendo aquí:

(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [lluvia] = 35% de probabilidad de lluvia con precisiones de predicción inventadas.

— Havok
fuente

1

Este algoritmo puede producir valores superiores a 1.

— Andy W

1

Hay muchas respuestas complicadas dadas a esta pregunta, pero ¿qué pasa con la media ponderada de la varianza inversa: https://en.wikipedia.org/wiki/Inverse-variance_weighting

En lugar de n mediciones repetidas con un instrumento, si el experimentador hace n de la misma cantidad con n instrumentos diferentes con diferentes medidas de calidad ...

Cada variable aleatoria se pondera en proporción inversa a su varianza.

El promedio ponderado de la varianza inversa parece muy sencillo de calcular y, como bonificación, tiene la menor varianza entre todos los promedios ponderados.

— Rifas
fuente

-1

Para combinar confiabilidad, mi fórmula de referencia es r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Entonces, para las 3 fuentes de confiabilidad, el 75% dice lo mismo, .75 ^ 3 ÷ (.75 ^ 3 + .25 ^ 3) => 96% de confiabilidad de la respuesta combinada

— usuario3902302
fuente

1

Esto no parece ser una respuesta adecuada a la pregunta.

— Michael R. Chernick

Es cierto que fue más una respuesta a los comentarios de KarstenW que una respuesta directa a la pregunta.

— user3902302