¿Qué significa muestrear un vector de probabilidad de una distribución de Dirichlet?


8

Básicamente estoy aprendiendo sobre la asignación de Dirichlet latente. Estoy viendo un video aquí: http://videolectures.net/mlss09uk_blei_tm/ y me quedé atrapado en el minuto 45 cuando comenzó a explicar sobre el muestreo de la distribución.

También intenté consultar un libro de aprendizaje automático que no tiene una introducción detallada sobre la distribución de Dirichelt. En el libro que estoy leyendo, se menciona un ejemplo sobre el muestreo de "vectores de probabilidad" de la distribución de Dirichlet, pero ¿qué significa eso?

Entiendo el muestreo de una distribución como obtener valores aleatorios para las variables aleatorias de acuerdo con la distribución. Deje que p_X, Y (x, y) pero el pmf de cualquier distribución, el muestreo de esta distribución significa que obtengo un valor aleatorio (x, y) (es decir, valores aleatorios para x e y). Para obtener la probabilidad de obtener el evento (X = x AND Y = y) evaluamos el pmf de la distribución ... por lo que obtenemos solo un número. ¡Pero qué son los "vectores de probabilidad" aquí!

Adjunto una captura de pantalla para el libro. ¡Realmente espero que puedas ayudar!

ingrese la descripción de la imagen aquí


2
Supongo que el vector de probabilidad es justo lo que muestreas con la distribución de Dirichlet. Ejemplo: (0.5, 0.4, 0.1) es un vector y se usa para representar las proporciones / probabilidades de una distribución de una variable con 3 clases.
Scratch el

@Scratch cuando dijiste 3 clases, eso significa una variable aleatoria definida solo en 3 valores discretos, ¿verdad?
Jack Twain

1
Entonces, básicamente, cada muestra de un dirichlet representa una distribución sobre K clases.
Jack Twain

2
Sí, la distribución Dirichlet se creó para este tipo de problemas: simular una distribución sobre clases.
Scratch el

@Scratch puedes ver mi pregunta aquí stats.stackexchange.com/questions/81136/…
Jack Twain

Respuestas:


8

Una distribución de Dirichlet a menudo se usa para categorizar probabilísticamente los eventos entre varias categorías. Supongamos que los eventos climáticos toman una distribución Dirichlet. Entonces podríamos pensar que el clima de mañana tiene una probabilidad de sol igual a 0.25, una probabilidad de lluvia igual a 0.5 y una probabilidad de nieve igual a 0.25. La recopilación de estos valores en un vector crea un vector de probabilidades.

Otra forma de pensar sobre una distribución de Dirichlet es el proceso de romper un palo. Imagine un palo de unidad de longitud. Rompa el palo en cualquier lugar y conserve una de las dos piezas. Luego rompa la pieza restante en dos piezas y continúe esto todo el tiempo que desee. Todas las piezas juntas deben sumar la longitud de la unidad, y la asignación de piezas de diferentes longitudes a diferentes eventos representa la probabilidad de ese evento.

Si está familiarizado con la distribución beta, la distribución Dirichlet podría ser aún más clara. Una distribución beta a menudo se usa para describir una distribución de probabilidades de eventos dicotómicos, por lo que está restringida al intervalo unitario. Por ejemplo, para un ensayo de Bernoulli, solo hay un parámetro describe la probabilidad de un "éxito". A menudo pensamos en como algo fijo, pero si no estamos seguros del valor "verdadero" de , podríamos pensar en una distribución de todos los s posibles , con una mayor probabilidad de aquellos que consideramos más plausibles, por lo que quizás , dondeθθθθθB(α,β)α>ββ>α concentra más de la masa cerca de 0.

Uno podría objetar que la distribución beta solo describe la probabilidad de una probabilidad única, es decir, que , que es un número escalar. Pero tenga en cuenta que la distribución beta está describiendo resultados dicotómicos . Entonces, al aplicar el segundo axioma de Kolmogorov, también sabemos que también. Recolectar estos resultados en un vector nos da un vector de probabilidades.P(θ<0.25)=0.5P(θ0.25)=0.5

Ampliar la distribución beta en tres o más categorías nos da la distribución Dirichlet; de hecho, el PDF del Dirichlet para dos grupos es exactamente el mismo que la distribución beta.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.