Solución encontrada:
Entonces, para volver a plantear la pregunta, ¿por qué la Mclust
función predeterminada para el modelo con el valor BIC más alto como el "mejor" modelo?
Gran pregunta! Déjame darte una respuesta larga y sin aliento a esto.
TL; DR : los valores BIC son una aproximación a la probabilidad integrada (no máxima), y desea el modelo con la mayor probabilidad integrada (factor de Bayes), por lo que elige el modelo con el BIC más grande.
Respuesta larga : el propósito de utilizar la agrupación basada en modelos sobre los enfoques de agrupación basados en heurística como k-means y la agrupación jerárquica (aglomerativa) es proporcionar un enfoque más formal e intuitivo para comparar y seleccionar un modelo de agrupación apropiado para sus datos.
Mclust utiliza técnicas de agrupamiento basadas en modelos de probabilidad, modelos mixtos gaussianos. El uso de modelos de probabilidad permite el desarrollo de enfoques basados en modelos para comparar diferentes modelos y tamaños de conglomerados. Consulte * Métodos de clasificación basados en modelos: uso del software mclust en quimiometría * ( https://www.jstatsoft.org/article/view/v018i06 ) para obtener más detalles.
Como se mencionó anteriormente, los autores afirman que el "mejor" modelo es uno con los valores BIC más grandes. Aquí hay otro ejemplo del software de clustering mejorado, estimación de densidad y análisis discriminante: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
El Criterio de Información Baysiano o BIC (?) Es el valor de la verosimilitud maximizada con una penalización en el número de parámetros en el modelo, y permite la comparación de modelos con diferentes parametrizaciones y / o diferentes números de grupos. En general, cuanto mayor es el valor del BIC, mayor es la evidencia del modelo y el número de grupos (ver, por ejemplo, Fraley y Raftery 2002a).
Selección de modelo : ahora que hay un modelo de probabilidad adjunto a los grupos, puede usar herramientas más sofisticadas para comparar varios modelos de grupo usando la selección de modelos bayesianos a través de factores de Bayes.
En su artículo, ¿Cuántos grupos? ¿Qué método de agrupamiento? Respuestas a través del análisis de clúster basado en modelos ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
El factor Bayes es la probabilidad posterior de un modelo contra el otro, suponiendo que ninguno de los dos es favorecido a priori. Banfield y Raftery [2] usaron una aproximación derivada heurísticamente del doble del factor log Bayes, llamado 'AWE', para determinar el número de grupos en el grupo jerárquico basado en la probabilidad de clasificación. Cuando se usa EM para encontrar la máxima probabilidad de mezcla, se aplica una aproximación más confiable al doble del factor log Bayes llamado BIC (Schwarz [32]):
2log(p(x|M))+constant≈2lM(x,θ^)−mmlog(n)≡BIC
donde es la probabilidad (integrada) de los datos para el modelo M, es la probabilidad logarítmica de la mezcla maixmizada para el modelo y m_M es el número de parámetros independientes a estimar en el modelo. El número de clústeres no se considera un parámetro independiente para calcular el BIC. Si cada modelo es igualmente likeli , entonces es proporcional a la probabilidad posterior de que los datos se ajustan al modelo . En consecuencia, cuanto mayor sea el valor del BIC, mayor será la evidencia del modelo.p(x|M)lM(x,θ^)a priorip(x|M)M
Entonces, en resumen, el BIC no debe minimizarse. La persona que usa este enfoque de agrupamiento basado en modelos debe buscar el modelo que maximice el BIC a medida que se aproxima al factor de Bayes con la máxima probabilidad integrada.
Esa última declaración también tiene una referencia:
Banfield, JD y Raftery, AE (1993) Agrupación gaussiana y no gaussiana basada en modelos. Biometrics, 49, 803–821.
EDITAR : basado en un intercambio de correo electrónico,
Como nota al margen, siempre verifique cómo se define el BIC. A veces, por ejemplo, en la mayoría de los contextos de regresión (donde tradicionalmente se minimiza un estadístico para la estimación de parámetros, por ejemplo, suma residual de cuadrados, desviación, etc.), el BIC se calcula como -2 * loglik + npar * log (n), es decir, el reverso de lo que se usa en mclust. Claramente, en ese caso, el BIC debe minimizarse.
La definición general de BIC es
; mclust no incluye el componente negativo.BIC=−2×ln(L(θ|x))+k×ln(n)