La distribución de Dirichlet es una distribución de probabilidad multivariada que describe variables X 1 , ... , X k , de modo que cadak≥2X1,…,Xk y ∑ N i = 1 x i = 1 , que está parametrizado por un vector de parámetros con valores positivos α = ( α 1 , ... , α k ) . Los parámetrosnoxi∈(0,1)∑Ni=1xi=1α=(α1,…,αk)tienen que ser enteros, solo necesitan ser números reales positivos. No están "normalizados" de ninguna manera, son parámetros de esta distribución.
La distribución de Dirichlet es una generalización de la distribución beta en múltiples dimensiones, por lo que puede comenzar aprendiendo sobre la distribución beta. Beta es una distribución univariada de una variable aleatoria parametrizada por los parámetros α y β . La buena intuición al respecto surge si recuerdas que es un conjugado anterior para la distribución binomial y si asumimos un beta previo parametrizado por α y β para el parámetro de probabilidad p de la distribución binomial , entonces la distribución posterior de pX∈(0,1)αβαβpptambién es una distribución beta parametrizada por y β ′ = β + número de fracasos . Por lo tanto, puede pensar en α y β como pseudocuentas (no necesitan ser enteros) de éxitos y fracasos (consulte también este hilo ).α′=α+number of successesβ′=β+number of failuresαβ
En el caso de la distribución de Dirichlet, es un conjugado previo para la distribución multinomial . Si en el caso de la distribución binomial podemos pensar en ella en términos de dibujar bolas blancas y negras con reemplazo de la urna, entonces en el caso de la distribución multinomial estamos dibujando con bolas de reemplazo que aparecen en k colores, donde cada uno de los colores de las bolas se pueden dibujar con probabilidades p 1 , ... , p k . La distribución de Dirichlet es un conjugado anterior para p 1 , ... , p k probabilidades y α 1Nkp1,…,pkp1,…,pk parámetros α k pueden considerarse comopseudocuentasde bolas de cada color asumidasa priori(pero también debe leer sobre lastrampas de dicho razonamiento). En el modelo de Dirichlet-multinomial α 1 , ... , se actualizan α k sumándolos con recuentos observados en cada categoría: α 1 + n 1 , ... , α k + n k de manera similar a la del modelo beta-binomial.α1,…,αkα1,…,αkα1+n1,…,αk+nk
A mayor valor de , mayor "peso" de Xαi y la mayor cantidad de la "masa" total se le asigna (recuerde que en total debe ser x 1 + ⋯ + x k = 1 ). Si todos los α i son iguales, la distribución es simétrica. Si α i < 1 , puede pensarse como anti-peso que empuja x i hacia los extremos, mientras que cuando es alto, atrae x i hacia algún valor central (central en el sentido de que todos los puntos se concentran a su alrededor,noXix1+⋯+xk=1αiαi<1xixien el sentido de que es simétricamente central). Si , entonces los puntos están distribuidos uniformemente.α1=⋯=αk=1
Esto se puede ver en los gráficos a continuación, donde puede ver distribuciones trivariadas de Dirichlet (desafortunadamente, podemos producir gráficos razonables solo hasta tres dimensiones) parametrizados por (a) , (b) α 1 = α 2α1=α2=α3=1 , (c) α 1 = 1 , α 2 = 10 , α 3 = 5 , (d) α 1 = α 2 = α 3α1=α2=α3=10α1=1,α2=10,α3=5 .α1=α2=α3=0.2
La distribución de Dirichlet a veces se denomina "distribución sobre distribuciones" , ya que puede considerarse como una distribución de probabilidades en sí. Observe que dado que cada y ∑ k i = 1 x i = 1 , entonces x i son consistentes con el primer y segundo axiomas de probabilidad . Por lo tanto, puede usar la distribución de Dirichlet como una distribución de probabilidades para eventos discretos descritos por distribuciones como categóricas o multinomiales . Esxi∈(0,1)∑ki=1xi=1xino es cierto que sea una distribución sobre cualquier distribución, por ejemplo, no está relacionada con las probabilidades de variables aleatorias continuas, o incluso algunas discretas (por ejemplo, una variable aleatoria distribuida de Poisson describe las probabilidades de observar valores que son números naturales, por lo tanto, para usar una distribución de Dirichlet sobre sus probabilidades, necesitaría un número infinito de variables aleatorias ).k