Mi objetivo es ver que el algoritmo K-means es, de hecho, un algoritmo de maximización de expectativas para mezclas gaussianas en las que todos los componentes tienen covarianza en el límite como .
Supongamos que tenemos un conjunto de datos de las observaciones de la variable aleatoria .
La función objetivo para las medias M viene dada por:
(si el punto de datos se asigna al clúster , entonces y para k).
El algoritmo K-means minimiza través de la iteración hasta la convergencia, que implica dos pasos sucesivos:
(E) minimizar con respecto a manteniendo todo fijo
(M) minimice con respecto a manteniendo todo fijo
En general, denotando todos los datos observados por , todas las variables latentes por y el conjunto de todos los parámetros del modelo por , el algoritmo EM maximiza la distribución posterior través de la iteración hasta la convergencia, de dos pasos alternos:
(E ) calcule la expectativa
(M) find
Ahora considere la distribución de la mezcla gaussiana: Presentando una variable aleatoria binaria dimensional latente por , vemos que: Entonces
Si ahora todos los gaussianos en el modelo de mezcla tienen covarianza , considerando el límite , puedo mostrar fácilmente que donde es como definido anteriormente. De hecho, el paso (E) actualiza como en el algoritmo K-means.
Sin embargo, tengo problemas para maximizar en este contexto, como para .
¿Es cierto que hasta una multiplicación constante y escalar:
?
Tal vez me estoy perdiendo algo. ¿Algún consejo?