Solo alguna extensión del comentario de Dikran Marsupial (validación cruzada). La idea principal es dividir sus datos en conjuntos de capacitación y validación de alguna manera, probar diferentes números de componentes y seleccionar el mejor en función de los valores de probabilidad de validación y capacitación correspondientes.
La probabilidad de GMM es solo por definición, donde K es el número de componentes (grupos) y π , μ , Σ son parámetros del modelo Al cambiar el valor de K , puede trazar la probabilidad de GMM para conjuntos de entrenamiento y validación como los siguientes.p ( x | π, μ , Σ ) = ∑Kπknorte( x | μk, Σk)KπμΣK
En este ejemplo, debería ser obvio que el número óptimo de componentes es de alrededor de 20. Hay un buen video sobre esto en Coursera, y es de donde obtuve la imagen de arriba.
B IC= - 2 log( L ) + KIniciar sesión( n )
Lnorte