Enfoque más suave a las estadísticas bayesianas


20

Recientemente comencé a leer "Introducción a las estadísticas bayesianas", segunda edición de Bolstad. Tuve una clase de estadísticas introductorias que cubría principalmente pruebas estadísticas y estoy casi a través de una clase de análisis de regresión. ¿Qué otros libros puedo usar para complementar mi comprensión de este?

Ya he superado las primeras 100-125 páginas. Luego, el libro comienza a hablar sobre la prueba de hipótesis, que es lo que estoy muy emocionado de cubrir, pero hay un par de cosas que me arrojan:

  • El uso de funciones de densidad de probabilidad en los cálculos. En otras palabras, cómo evaluar tales ecuaciones.
  • Toda esta oración: "Supongamos que usamos un beta (1,1) anterior para pi. Luego, dado y = 8, la densidad posterior es beta (9,3). La probabilidad posterior de la hipótesis nula es ..." Creo beta (1,1) se refiere a un PDF donde la media es 1 y la stdev es 1? No entiendo cómo cambiaría a beta (9,3) como una función de densidad posterior.

Comprendo el concepto de anteriores y posteriores y entiendo cómo aplicarlos usando una tabla manualmente. Entiendo (¡creo!) Que pi representa la supuesta proporción o probabilidad de la población.

No entiendo cómo conectar esto junto con los datos con los que me encontraría día a día y obtener resultados.


El parámetro parece ser, según el contexto, la probabilidad de población de un modelo binomial. En este caso, una distribución beta es el conjugado previo para una probabilidad binomial con conocida y desconocida . Sin embargo, los parámetros de la distribución beta no son la media y la desviación estándar, como es el caso de la distribución normal. Mire la página de Wikipedia para ver la fórmula de la media y la varianza de una variable aleatoria beta en términos de los parámetros de la distribución beta. n ππnorteπ
caburke

¡Gracias! Conjugar antes es otro término que no me es familiar. ¿Dónde puedo obtener más información sobre eso a nivel introductorio?
Justin Bozonier el

8
Quizás te interese un texto más práctico, ¿has visto Métodos Bayesianos para Hackers? (Divulgación: soy un autor contribuyente) Intente buscarlo (es de código abierto y gratuito).
Cam.Davidson.Pilon

@JustinBozonier Este enlace stats.stackexchange.com/questions/66018/… da una explicación de los diferentes términos que las personas usan para describir los anteriores, incluidos los anteriores conjugados.
Sycorax dice Reinstate Monica el

1
@ Cam.Davidson.Pilon ¡Gracias por eso! La actualización de las creencias en los cuadros de esta página solo me está ayudando a obtener más de lo que dicen los otros que responden: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…
Justin Bozonier

Respuestas:


26

El uso de funciones de densidad de probabilidad en los cálculos. En otras palabras, cómo evaluar tales ecuaciones.

Creo que todavía estás pensando en esto desde una perspectiva frecuentista: si estás buscando una estimación puntual, la parte posterior no te la dará. Pones archivos PDF, obtienes archivos PDF. Puede derivar estimaciones puntuales calculando estadísticas a partir de su distribución posterior, pero llegaré a eso en un momento.

Comprendo el concepto de anteriores y posteriores y entiendo cómo aplicarlos usando una tabla manualmente. Entiendo (¡creo!) Que pi representa la supuesta proporción o probabilidad de la población.

p ( x ) ππ(X) es lo mismo que : ambos son archivos PDF. se usa convencionalmente para denotar que el PDF particular es una densidad previa.pag(X)π

Sospecho que no obtienes anteriores y posteriores tan bien como crees que lo haces, así que volvamos a la base fundamental de las estadísticas bayesianas: probabilidad subjetiva .

Un experimento mental en probabilidad subjetiva

Digamos que te presento una moneda y te pregunto si crees que esta moneda es justa o no. Has escuchado a mucha gente hablar de monedas injustas en la clase de probabilidad, pero nunca has visto una en la vida real, por lo que respondes: "Sí, claro, creo que es una moneda justa". Pero, el hecho de que incluso te esté haciendo esta pregunta te desanima un poco, por lo que aunque tu estimación es que es justo, no te sorprenderías si no fuera así. Mucho menos sorprendido que si encontrara esta moneda en su cambio de bolsillo (porque asume que todo es moneda real, y realmente no confía en mí en este momento porque estoy actuando sospechosamente).

Ahora, realizamos algunos experimentos. Después de 100 lanzamientos, la moneda devuelve 53 cabezas. Estás mucho más seguro de que es una moneda justa, pero aún estás abierto a la posibilidad de que no lo sea. La diferencia es que ahora te sorprendería bastante si esta moneda tuviera algún tipo de sesgo.

¿Cómo podemos representar sus creencias anteriores y posteriores aquí, específicamente, con respecto a la probabilidad de que la moneda muestre caras (lo que denotaremos )? En un entorno frecuentista, su creencia anterior, su hipótesis nula, es que . Después de ejecutar el experimento, no puede rechazar el valor nulo, por lo que continúa con el supuesto de que sí, la moneda probablemente sea justa. Pero, ¿cómo encapsulamos el cambio en su confianza de que la moneda es justa? Después del experimento, estás en una posición en la que apostarías a que la moneda es justa, pero antes del experimento hubieras estado inquieto.θ = 0.5θθ=0,5

En el entorno bayesiano, encapsulas tu confianza en las proposiciones al no tratar las probabilidades como valores escalares sino como variables aleatorias, es decir, funciones. En lugar de decir , decimos , y así encapsulamos nuestra confianza en la varianza del PDF. Si establecemos una varianza alta, estamos diciendo: "Creo que la probabilidad es 0.5, pero no me sorprendería si la probabilidad que realmente observo en el mundo está muy lejos de este valor. Creo que , pero francamente no estoy tan seguro ". Al establecer una varianza baja, estamos diciendo: "No solo creo que la probabilidad es 0.5, sino que me sorprendería mucho si la experimentación proporciona un valor que no está muy cerca deθ N ( 0.5 , σ 2 ) θ = 0.5 θ = 0.5 θ = 0.5θ=0,5θnorte(0,5,σ2)θ=0,5θ=0,5. "Entonces, en este ejemplo, cuando comienzas el experimento tienes un previo con alta varianza. Después de recibir datos que corroboran tu previo, la media del previo se mantuvo igual, pero la varianza se volvió mucho más estrecha. Nuestra confianza en que es mucho más alto después de ejecutar el experimento que antes.θ=0,5

Entonces, ¿cómo realizamos los cálculos?

Comenzamos con archivos PDF y terminamos con archivos PDF. Cuando necesite informar una estimación puntual, puede calcular estadísticas como la media, la mediana o la moda de su distribución posterior (dependiendo de su función de pérdida, en la que no me referiré ahora. Sigamos con la media). Si tiene una solución de formulario cerrado para su PDF, probablemente será trivial determinar estos valores. Si el posterior es complicado, puede utilizar procedimientos como MCMC para tomar muestras de su posterior y derivar estadísticas de la muestra que extrajo.

En el ejemplo en el que tiene una beta anterior y una probabilidad binomial, el cálculo de la posterior se reduce a un cálculo muy limpio. Dado:

  • Anterior:θsimitun(α,β)
  • Probabilidad:XEl |θsiyonorteometroyounl(θ)

Luego el posterior se reduce a:

  • Posterior:θEl |Xsimitun(α+yo=1norteXyo,β+norte-yo=1norteXyo)

Esto sucederá cada vez que tenga una beta anterior y una probabilidad binomial, y la razón por la cual debería ser evidente en los cálculos proporcionados por DJE . Cuando un modelo particular de verosimilitud previa siempre da un posterior que tiene el mismo tipo de distribución que el anterior, la relación entre los tipos de distribuciones utilizados para el anterior y la verosimilitud se llama Conjugate . Hay muchos pares de distribuciones que tienen relaciones conjugadas, y los bayesianos aprovechan la conjugación con mucha frecuencia para simplificar los cálculos. Dada una probabilidad particular, puede hacer su vida mucho más fácil seleccionando un conjugado previo (si existe y puede justificar su elección de prior).

Creo que beta (1,1) se refiere a un PDF donde la media es 1 y el stdev es 1?

En la parametrización común de la distribución normal, los dos parámetros significan la media y la desviación estándar de la distribución. Pero así es como parametrizamos la distribución normal. Otras distribuciones de probabilidad se parametrizan de manera muy diferente.

La distribución Beta generalmente se parametriza como donde y se denominan parámetros de "forma". La distribución Beta es extremadamente flexible y toma muchas formas diferentes dependiendo de cómo se configuren estos parámetros. Para ilustrar cuán diferente es esta parametrización de su suposición original, así es como calcula la media y la varianza para las variables aleatorias Beta:simitun(α,β)αβ

Xsimitun(α,β)mi[X]=αα+βvar[X]=αβ(α+β)2(α+β+1)

Como puede ver claramente, la media y la varianza no son parte de la parametrización de esta distribución, pero tienen soluciones de forma cerrada que son funciones simples de los parámetros de entrada.

No entraré en detalles al describir las diferencias en las parametrizaciones de otras distribuciones bien conocidas, pero le recomiendo que busque algunas. Cualquier texto básico, incluso Wikipedia , debería describir de alguna manera cómo el cambio de los parámetros modifica la distribución. También debe leer sobre las relaciones entre las diferentes distribuciones (por ejemplo, es lo mismo que ).simitun(1,1)UnorteyoFormetro(0 0,1)


44
La clave que me dio su respuesta fue la constatación de que buscar un valor único era donde estaba colgado. Una vez que comencé a pensar en términos de distribuciones, el texto de Kruschke y todo lo demás comenzó a tener mucho más sentido. ¡Gracias!
Justin Bozonier

8

Una distribución beta tiene la forma . Una distribución beta (1,1) tiene parámetros . (¡Desafortunadamente, este tipo de resumen abreviado pone una carga en el lector para saber cómo se parametriza el modelo en particular!)pag(θ)=Γ(α)Γ(β)Γ(α+β)θα-1(1-θ)β-1(α,β)=(1,1)

La beta anterior con una probabilidad binomial (número fijo de ensayos con resultados binarios y probabilidades fijas de éxito / fracaso) tiene la propiedad de conjugación, lo que permite que la posterior (el producto de la anterior y la probabilidad) se escriba en forma cerrada:

pag(θEl |y)=pag(yEl |θ)pag(θ)pag(y)  Γ(α)Γ(β)Γ(α+β)θα-1(1-θ)β-1(nortey)θy(1-θ)norte-y  θα-1(1-θ)β-1θy(1-θ)norte-y θα+y-1(1-θ)β+norte-y-1 =Γ(α+y-1)Γ(β+norte-y-1)Γ(α+β+norte-1)θα+y-1(1-θ)β+norte-y-1

Para el ejemplo particular en el texto, el autor indica que una beta (1,1) anterior con datos n = 10 e y = 8 produce una beta (1 + 8,1 + 2) = beta (9,3) posterior distribución en .θ

Esta expresión de forma cerrada es conveniente, pero de ninguna manera es necesaria. La multiplicación de las densidades de probabilidad se puede hacer de la misma manera que la multiplicación de otras expresiones matemáticas; Las dificultades llegan ya que muchos productos de densidades no se reescriben tan fácilmente como la probabilidad beta anterior / binomial. Afortunadamente, aquí es donde las computadoras recogen la holgura.


7

Si está buscando un enfoque más amable, le recomiendo el libro de Kruschke que utiliza R para explicar los conceptos básicos. Es un enfoque muy práctico y práctico para aprender estadísticas bayesianas y en su sitio web puede encontrar todos los códigos utilizados.

Alguien también me recomendó el texto de Cam.Davidson.Pilon, aún no lo he leído, pero se puede encontrar aquí .


1
¡Gracias! De hecho, ya soy dueño del libro Kruschke y volví a revisarlo y me di cuenta de que es exactamente lo que necesito en este momento. ¡Gracias por la anotación!
Justin Bozonier

@JustinBozonier También recomiendo Introducción a la teoría de la estadística (estado de ánimo) . Proporciona un nivel relativamente alto de rigor, pero solo supone que conoce un cálculo muy básico.
Steve P.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.