El libro de Kevin Murphy discute un problema bayesiano jerárquico clásico (originalmente discutido en Johnson and Albert, 1999, p24
):
Supongamos que estamos tratando de estimar la tasa de cáncer en ciudades. En cada ciudad, tomamos muestras de una cantidad de individuos y medimos la cantidad de personas con cáncer , donde es la verdadera tasa de cáncer en la ciudad.
Nos gustaría estimar los 's mientras que las ciudades pobres en datos prestada la fuerza estadística de las ciudades ricas en datos.
Para hacerlo, modela para que todas las ciudades compartan lo mismo antes, para que los modelos finales tengan el siguiente aspecto:
donde .
La parte crucial de este modelo es, por supuesto (cito), "que inferimos de los datos, ya que si simplemente lo a una constante, será condicionalmente independiente, y allí no habrá flujo de información entre ellos ".
Estoy tratando de modelar esto en PyMC , pero por lo que entiendo, necesito un previo para y (creo que esto es anterior). ¿Cuál sería un buen prior para este modelo?
En caso de que ayude, el código, como lo tengo ahora es:
bins = dict()
ps = dict()
for i in range(N_cities):
ps[i] = pm.Beta("p_{}".format(i), alpha=a, beta=b)
bins[i] = pm.Binomial('bin_{}'.format(i), p=ps[i],n=N_trials[i], value=N_yes[i], observed=True)
mcmc = pm.MCMC([bins, ps])
donde creo que necesito un previo para a
y b
. ¿Cómo debo elegir uno?