La respuesta depende de si está asumiendo la distribución de dirichlet simétrica o asimétrica (o, más técnicamente, si la medida base es uniforme). A menos que se especifique algo más, la mayoría de las implementaciones de LDA suponen que la distribución es simétrica.
Para la distribución simétrica, un valor alfa alto significa que es probable que cada documento contenga una mezcla de la mayoría de los temas, y no un solo tema específicamente. Un valor alfa bajo pone menos restricciones en los documentos y significa que es más probable que un documento contenga una combinación de solo unos pocos, o incluso solo uno, de los temas. Del mismo modo, un valor beta alto significa que es probable que cada tema contenga una mezcla de la mayoría de las palabras, y no una palabra específicamente, mientras que un valor bajo significa que un tema puede contener una mezcla de solo unas pocas palabras.
Si, por otro lado, la distribución es asimétrica, un valor alfa alto significa que una distribución de tema específica (dependiendo de la medida base) es más probable para cada documento. Del mismo modo, los valores beta altos significan que es más probable que cada tema contenga una mezcla de palabras específica definida por la medida base.
En la práctica, un alto valor alfa hará que los documentos sean más similares en términos de qué temas contienen. Un valor beta alto conducirá de manera similar a que los temas sean más similares en términos de las palabras que contienen.
Entonces, sí, los parámetros alfa especifican creencias previas sobre la dispersión / uniformidad del tema en los documentos. Sin embargo, no estoy completamente seguro de lo que quieres decir con "exclusividad mutua de temas en términos de palabras".
En términos más generales, estos son parámetros de concentración para la distribución de dirichlet utilizada en el modelo LDA. Para obtener una comprensión intuitiva de cómo funciona esto, esta presentación contiene algunas buenas ilustraciones, así como una buena explicación de LDA en general.
( α1, α2, . . . , αK)u = ( u1, u2, . . . , uK)αα ∗ u = ( α1, α2, . . . , αK)α( α1, α2, . . . , αK)( α1, α2, . . . , αK)