Me gustaría ilustrar un ejemplo en cuanto a modelos relacionados con la tasa de cáncer (como en Johnson y Albert 1999). Tocará el primer y tercer elemento de su interés.
Entonces, el problema es predecir las tasas de cáncer en varias ciudades. Digamos que tenemos datos del número de personas en varias ciudades y el número de personas que murieron con cáncer . Digamos que queremos estimar las tasas de cáncer . Hay varias formas de modelarlos y a medida que vemos problemas con cada uno de ellos. Veremos cómo el modelado bayes heirachical puede superar algún problema.
1. Una forma es hacer una estimación por separado, pero sufriremos problemas de escasez de datos y subestimaríamos las tasas en cuanto a bajo .Nixiθi
Ni
2. Un enfoque más para gestionar el problema de la escasez de datos sería utilizar el mismo para todas las ciudades y vincular los parámetros, pero esto también es una suposición muy sólida.
3. Entonces, lo que se podría hacer es que todos los son similares de alguna manera pero también con variaciones específicas de la ciudad. Entonces, uno podría modelar de tal manera que todos los se extraigan de una distribución común. Digamos y
Una distribución conjunta completa sería entonces donde . Necesitamos inferirθi
θiθixi∼Bin(Ni,θi)θi∼Beta(a,b)
η = ( a , b ) η θ i η θ ip(D,θ,η|N)=p(η)∏Ni=1Bin(xi|Ni,θi)Beta(θi|η)η=(a,b)ηde los datos Si se fija a una constante, la información no fluirá entre 's y serán condicionalmente independientes. Pero al tratar a como incógnitas, permitimos a las ciudades con menos datos tomar prestada la fuerza estadística de las ciudades con más datos.
La idea principal es hacer más bayesianos y establecer prioridades sobre las anteriores para modelar la incertidumbre en los hiperparámetros. Esto permite el flujo de influencia entre 's en este ejemplo.θiη
θi