¿Por qué utilizar una distribución beta en el parámetro Bernoulli para la regresión logística jerárquica?


13

Actualmente estoy leyendo el excelente libro de Kruschke "Doing Bayesian Data Analysis". Sin embargo, el capítulo sobre regresión logística jerárquica (Capítulo 20) es algo confuso.

La figura 20.2 describe una regresión logística jerárquica donde el parámetro de Bernoulli se define como la función lineal en los coeficientes transformados a través de una función sigmoidea. Esta parece ser la forma en que se plantea la regresión logística jerárquica en la mayoría de los ejemplos que he visto en otras fuentes en línea también. Por ejemplo: http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug

Sin embargo, cuando los predictores son nominales, agrega una capa en la jerarquía: el parámetro de Bernoulli ahora se extrae de una distribución beta (Figura 20.5) con parámetros determinados por mu y kappa, donde mu es la transformación sigmoidea de la función lineal de los coeficientes , y kappa usa un gamma previo.

Esto parece razonable y análogo al ejemplo de lanzamiento de monedas del capítulo 9, pero no veo qué tiene que ver tener predictores nominales con agregar una distribución beta. ¿Por qué no se haría esto en el caso de los predictores métricos y por qué se agregó la distribución beta para los predictores nominales?

EDITAR: Aclaración sobre los modelos a los que me refiero. Primero, un modelo de regresión logística con predictores métricos (sin beta anterior). Esto es similar a otros ejemplos de regresión logística jerárquica, como el ejemplo de errores anterior:

yiBernoulli(μi)μi=sig(β0+jβjxji)β0N(M0,T0)βjN(Mβ,Tβ)

Luego el ejemplo con predictores nominales. Aquí es donde no entiendo el papel del nivel "inferior" de la jerarquía (que incorpora el resultado logístico en una versión beta anterior para un binomio) y por qué debería ser diferente al ejemplo métrico.

ziBin(θi,N)θiBeta(aj,bj)aj=μjκbj=(1μj)κκΓ(Sκ,Rκ)μj=sig(β0+jβjxji)β0N(M0,T0)βjN(0,τβ)τβ=1/σβ2σβ2folded t(Tt,DF)

Respuestas:


9

Los dos modelos que compara tienen muchas características extrañas, y creo que puede reformular su pregunta más claramente en el contexto de los siguientes dos modelos simplificados:

Modelo 1:

yi|μiBern(μi)μiπ(μi)

Modelo 2:

yi|θiBern(θi)θi|μi,κBeta(μiκ,(1μi)κ)μiπ(μi)

Sus preguntas son: (1) qué papel juega la distribución beta; y relacionado, (2) ¿cómo (si es que es) el Modelo 2 es diferente del Modelo 1?

μiμi

pag(μyoEl |yyo)μyoyyo(1-μyo)1-yyoπ(μyo)
μyo
pag(μyoEl |yyo,κ)0 01θyoyyo+μyoκ-1(1-θyo)κ(1-μyo)-yyosi(κμyo,κ(1-μyo))reθπ(μyo)si(yyo+μyoκ,1-yyo+κ(1-μyo))π(μyo)si(κμyo,κ(1-μyo))μyoyyo(1-μyo)1-yyoπ(μyo)

Por lo tanto, cualquier ventaja obtenida al usar el Modelo 2 es computacional. Sobreparamizando los modelos jerárquicos, como la adición deθyo


5

La razón para extraer el parámetro Bernoulli de una distribución beta es que la beta está conjugada con el binomio. Usando un distribución previa conjugada permite una solución de forma cerrada para encontrar la posterior.

EDITAR: aclarando. Cualquiera de los modelos funcionará. Incluso con MCMC, es útil tener anteriores conjugados porque eso permite el uso de muestreadores especializados para varios tipos de distribuciones que son más eficientes que los muestreadores genéricos. Por ejemplo, consulte el manual de usuario de JAGS, sec. 4.1.1 y sec 4.2.


Puede que no haya suficiente contexto del libro en mi pregunta, pero estos análisis se realizan con el muestreo de Gibbs, por lo que no es necesaria una representación cerrada de la parte posterior. En el ejemplo que vinculé, el parámetro bernoulli no se fija como una distribución beta, sino que surge de una transformación sigmoidea de los predictores lineales, que normalmente tienen coeficientes distribuidos. Así es también como Kruschke presenta un ejemplo anterior (con predictores métricos) en el capítulo también (el parámetro de Bernoulli es solo la transformación sigmoidea de la función lineal con coeficientes normalmente distribuidos)
user4733

@ user4733 Jack Tanner tiene razón acerca de que beta es el conjugado antes de las muestras de bernoulli. Parece más que una coincidencia que haya sido elegido. Sí, puede estar haciendo un muestreo de Gibbs para obtener la distribución posterior, pero en un modelo jerárquico hay más de un previo involucrado y podría ser que esté poniendo un prior en un hiperparámetro (un parámetro para una familia de distribuciones anteriores. antes de la previa si se quiere en ese contexto, puede ser conveniente usar un conjugado antes Algunos de su descripción del libro es confundir a nosotros...
Michael R. Chernick

1
Estás tomando pequeños extractos que crean brechas en nuestra capacidad de entender lo que está sucediendo. Debes describir mejor el modelo y la jerarquía de priors para que podamos ayudarte (al menos para mí)>
Michael R. Chernick

Se agregaron algunas descripciones a los modelos jerárquicos a los que me refiero. Espero que ayude.
user4733
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.