¿Ejemplos simples del mundo real para enseñar estadísticas bayesianas?


10

Me gustaría encontrar algunos "ejemplos del mundo real" para enseñar estadísticas bayesianas. Las estadísticas bayesianas le permiten a uno incorporar formalmente conocimiento previo en un análisis. Me gustaría darles a los estudiantes algunos ejemplos simples del mundo real de investigadores que incorporan conocimientos previos en su análisis para que los estudiantes puedan comprender mejor la motivación de por qué uno podría querer usar las estadísticas bayesianas en primer lugar.

¿Conoce algún ejemplo simple del mundo real, como estimar una media, proporción, regresión, etc. de la población en la que los investigadores incorporan formalmente información previa? Me doy cuenta de que los bayesianos también pueden usar anteriores "no informativos", pero estoy particularmente interesado en ejemplos reales en los que se utilizan anteriores informativos (es decir, información previa real).


Creo que IQ es un buen ejemplo.
hejseb

No es estrictamente una respuesta, pero cuando lanzas una moneda tres veces y sale la cabeza dos veces, ningún estudiante lo creería, esa cabeza tenía el doble de probabilidades que las colas. Eso es bastante convincente, aunque ciertamente no es una investigación real.
Bernhard

1
Puede consultar esta respuesta, verdaderamente escrita por usted: stats.stackexchange.com/a/134385/61496
Yair Daon el

¿Quizás estás combinando la regla de Bayes, que se puede aplicar en la probabilidad / estimación frecuentista, y las estadísticas bayesianas donde la "probabilidad" es un resumen de creencia?
AdamO

Respuestas:


6

La teoría de búsqueda bayesiana es una aplicación interesante del mundo real de estadísticas bayesianas que se ha aplicado muchas veces para buscar embarcaciones perdidas en el mar. Para comenzar, un mapa se divide en cuadrados. A cada cuadrado se le asigna una probabilidad previa de contener el barco perdido, en función de la última posición conocida, rumbo, tiempo perdido, corrientes, etc. Además, a cada cuadrado se le asigna una probabilidad condicional de encontrar el barco si realmente está en ese cuadrado, en función de cosas como la profundidad del agua. Estas distribuciones se combinan para priorizar los cuadrados del mapa que tienen la mayor probabilidad de producir un resultado positivo: no es necesariamente el lugar más probable para el barco, sino el lugar más probable para encontrarlo.


1
Agradable, este es el tipo de aplicaciones descritas en el entretenido libro La teoría que no moriría: cómo la regla de Bayes descifró el Código Enigma, cazó submarinos rusos y emergió triunfante de dos siglos de controversia . Además, Turing utilizó este tipo de razonamiento para descifrar el enigma.
jpmuc

Probabilista pero ¿es bayesiano?
Andrew

5

Creo que estimar la producción o el tamaño de la población a partir de números de serie es interesante si se trata de un ejemplo explicativo tradicional. Aquí está probando el máximo de una distribución uniforme discreta. Dependiendo de su elección de antes, la probabilidad máxima y las estimaciones bayesianas diferirán de una manera bastante transparente.

Quizás el ejemplo más famoso es estimar la tasa de producción de tanques alemanes durante la Segunda Guerra Mundial a partir de bandas de números de serie de tanques y códigos de fabricante realizados en el entorno frecuentista por (Ruggles y Brodie, 1947). Un análisis alternativo desde un punto de vista bayesiano con antecedentes informativos ha sido realizado por (Downey, 2013), y con antecedentes no informativos inadecuados por (Höhle y Held, 2004). El trabajo de (Höhle y Held, 2004) también contiene muchas más referencias a tratamientos previos en la literatura y también hay más discusión sobre este problema en este sitio.

Fuentes:

Capítulo 3, Downey, Allen. Piense Bayes: Estadísticas Bayesianas en Python. "O'Reilly Media, Inc.", 2013.

Wikipedia

Ruggles, R .; Brodie, H. (1947). "Un enfoque empírico a la inteligencia económica en la Segunda Guerra Mundial". Revista de la Asociación Americana de Estadística. 42 (237): 72.

Höhle, Michael y Leonhard Held. Estimación bayesiana del tamaño de una población. No. 499. Documento de debate // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

Hay una buena historia en Cressie & Wickle Statistics for Spatio-Temporal Data , Wiley, sobre la búsqueda (bayesiana) del USS Scorpion, un submarino que se perdió en 1968. Contamos esta historia a nuestros estudiantes y les hacemos realizar un ( simplificado) buscar usando un simulador .

Se podrían construir ejemplos similares en torno a la historia del vuelo perdido MH370; es posible que desee ver Davey et al., Métodos bayesianos en la búsqueda de MH370 , Springer-Verlag.


1

Aquí hay un ejemplo de estimación de una media, , a partir de datos continuos normales. Sin embargo, antes de profundizar directamente en un ejemplo, me gustaría revisar algunas de las matemáticas para los modelos de datos Bayesianos Normal-Normal.θ

Considere una muestra aleatoria de n valores continuos denotados por . Aquí el vector y = ( y 1 , . . . , Y n ) T representa los datos recogidos. El modelo de probabilidad para datos normales con varianza conocida y muestras independientes e idénticamente distribuidas (iid) esy1,...,ynortey=(y1,...,ynorte)T

y1,...,ynorteEl |θnorte(θ,σ2)

O como más típicamente escrito por Bayesian,

y1,...,ynorteEl |θnorte(θ,τ)

τ=1/ /σ2τ

yyo

F(yyoEl |θ,τ)=(τ2π)×miXpag(-τ(yyo-θ)2/ /2)

θ^=y¯

θ

θnorte(una,1/ /si)

La distribución posterior que obtenemos de este modelo de datos Normal-Normal (después de mucho álgebra) es otra distribución Normal.

θEl |ynorte(sisi+norteτuna+norteτsi+norteτy¯,1si+norteτ)

La precisión posterior es y la media es una media ponderada entre una y ˉ y , bsi+norteτunay¯ .sisi+norteτuna+norteτsi+norteτy¯

θEl |yθθ

Dicho esto, ahora puede usar cualquier ejemplo de libro de texto de datos normales para ilustrar esto. Usaré el conjunto de datos airqualitydentro de R. Considere el problema de estimar las velocidades promedio del viento (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

ingrese la descripción de la imagen aquí

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

ingrese la descripción de la imagen aquí

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

En este análisis, el investigador (usted) puede decir que, dados los datos + información previa, su estimación del viento promedio, usando el percentil 50, las velocidades deben ser 10.00324, mayor que simplemente usando el promedio de los datos. También obtiene una distribución completa, de la que puede extraer un intervalo creíble del 95% utilizando los cuantiles 2.5 y 97.5.

A continuación incluyo dos referencias, recomiendo leer el breve artículo de Casella. Está dirigido específicamente a los métodos empíricos de Bayes, pero explica la metodología general bayesiana para los modelos normales.

Referencias

  1. Casella, G. (1985). Una introducción al análisis de datos empíricos de Bayes. El estadístico estadounidense, 39 (2), 83-87.

  2. Gelman, A. (2004). Análisis de datos bayesianos (2ª ed., Textos en ciencia estadística). Boca Raton, Fla .: Chapman & Hall / CRC.


1

Un área de investigación en la que creo que los métodos bayesianos son absolutamente necesarios es el del diseño óptimo.

XβX

XβββX

  • norte=0 0β^

  • β^

  • β=1β^=5 5Xβ=5 5X

  • β

XX

Xβ

βX

X


1

Estaba pensando en esta pregunta últimamente, y creo que tengo un ejemplo en el que el bayesiano tiene sentido, con el uso de una probabilidad previa: la razón de probabilidad de una prueba clínica.

El ejemplo podría ser este: la validez del portaobjetos de orina en condiciones de práctica diaria (Family Practice 2003; 20: 410-2). La idea es ver qué implica un resultado positivo del dipslide de orina en el diagnóstico de infección de orina. La razón de probabilidad del resultado positivo es:

LR(+)=tmist+El |H+tmist+El |H-=Sminortesyosiyolyoty1-spagmiCyoFyoCyoty
H+H-

OR(+El |tmist+)=LR(+)×OR(+)
OROR(+El |tmist+)OR(+)

LR(+)=12,2LR(-)=0,29

pag+=2/ /3pag+El |tmist+=0,96pag+El |tmist-=0,37

Aquí la prueba es buena para detectar la infección, pero no tan buena para descartar la infección.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.