En el algoritmo de modelo de tema LDA, vi esta suposición. Pero no sé por qué eligió la distribución Dirichlet? No sé si podemos usar la distribución uniforme sobre Multinomial como un par.
En el algoritmo de modelo de tema LDA, vi esta suposición. Pero no sé por qué eligió la distribución Dirichlet? No sé si podemos usar la distribución uniforme sobre Multinomial como un par.
Respuestas:
La distribución de Dirichlet es un conjugado previo para la distribución multinomial. Esto significa que si la distribución previa de los parámetros multinomiales es Dirichlet, entonces la distribución posterior también es una distribución Dirichlet (con parámetros diferentes a los del anterior). El beneficio de esto es que (a) la distribución posterior es fácil de calcular y (b) en cierto sentido es posible cuantificar cuánto han cambiado nuestras creencias después de recopilar los datos.
Ciertamente se puede discutir si estas son buenas razones para elegir un previo en particular, ya que estos criterios no están relacionados con las creencias previas reales ... Sin embargo, los anteriores conjugados son populares, ya que a menudo son razonablemente flexibles y convenientes de usar por los motivos mencionados anteriormente. .
The uniform distribution is actually a special case of the Dirichlet distribution, corresponding to the case . So is the least-informative Jeffreys prior, for which . The fact that the Dirichlet class includes these natural "non-informative" priors is another reason for using it.
In addition rather than contradiction to Måns T's answer, I simply point out that there is no such thing as "the prior" in Bayesian modelling! The Dirichlet distribution is a convenient choice because of (a) conjugacy, (b) computing, and (c) connection with non-parametric statistics (since this is the discretised version of the Dirichlet process).
However, (i) whatever prior you put on the weights of the multinomial is a legitimate answer at the subjective Bayes level and (ii) in case of prior information being available there is no reason it simplifies into a Dirichlet distribution. Note also that mixtures and convolutions of Dirichlet distributions can be used as priors.