¿Por qué la distribución de Dirichlet es la anterior para la distribución multinomial?


36

En el algoritmo de modelo de tema LDA, vi esta suposición. Pero no sé por qué eligió la distribución Dirichlet? No sé si podemos usar la distribución uniforme sobre Multinomial como un par.


55
La distribución uniforme es un caso especial de la distribución de dirichlet.
Stumpy Joe Pete

Respuestas:


60

La distribución de Dirichlet es un conjugado previo para la distribución multinomial. Esto significa que si la distribución previa de los parámetros multinomiales es Dirichlet, entonces la distribución posterior también es una distribución Dirichlet (con parámetros diferentes a los del anterior). El beneficio de esto es que (a) la distribución posterior es fácil de calcular y (b) en cierto sentido es posible cuantificar cuánto han cambiado nuestras creencias después de recopilar los datos.

Ciertamente se puede discutir si estas son buenas razones para elegir un previo en particular, ya que estos criterios no están relacionados con las creencias previas reales ... Sin embargo, los anteriores conjugados son populares, ya que a menudo son razonablemente flexibles y convenientes de usar por los motivos mencionados anteriormente. .

(p1,,pk)

(p1,,pk)Dirichlet(α1,,αk)
(x1,,xk)
(p1,,pk)|(x1,,xk)Dirichlet(α1+x1,,αk+xk).

The uniform distribution is actually a special case of the Dirichlet distribution, corresponding to the case α1=α2==αk=1. So is the least-informative Jeffreys prior, for which α1==αk=1/2. The fact that the Dirichlet class includes these natural "non-informative" priors is another reason for using it.


So we choose Dirichlet distribution for those benefits.
ColinBinWang

1
+1: You may want to explicitly say that the likelihood is necessarily Dirichlet, which is why the posterior distribution is easy to compute.
Neil G

18

In addition rather than contradiction to Måns T's answer, I simply point out that there is no such thing as "the prior" in Bayesian modelling! The Dirichlet distribution is a convenient choice because of (a) conjugacy, (b) computing, and (c) connection with non-parametric statistics (since this is the discretised version of the Dirichlet process).

However, (i) whatever prior you put on the weights of the multinomial is a legitimate answer at the subjective Bayes level and (ii) in case of prior information being available there is no reason it simplifies into a Dirichlet distribution. Note also that mixtures and convolutions of Dirichlet distributions can be used as priors.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.