GMM utiliza colinas superpuestas que se extienden hasta el infinito (pero prácticamente solo cuentan para 3 sigma). Cada punto obtiene los puntajes de probabilidad de todas las colinas. Además, las colinas tienen "forma de huevo" [bueno, son elipses simétricas ] y, usando la matriz de covarianza completa, pueden inclinarse .
K-significa asigna un punto a un solo grupo, por lo que las puntuaciones de los otros centros de grupo se ignoran (se restablecen implícitamente a cero / no me importa). Las colinas son pompas de jabón esféricas. Cuando dos burbujas de jabón se tocan, el límite entre ellas se convierte en un plano (hiper) plano. Al igual que cuando se sopla una espuma de muchas pompas de jabón, las burbujas en el interior no son planas, sino cuadradas, por lo que los límites entre muchas (hiper) esferas en realidad forman una partición Voronoi del espacio. En 2D, esto tiende a parecerse vagamente al empaquetamiento hexagonal cerrado, piense en una colmena de abejas (aunque, por supuesto, no se garantiza que las células Voronoi sean hexágonos). Una colina K significa que es redonda y no se inclina, por lo que tiene menos poder de representación; pero es mucho más rápido de calcular, especialmente en las dimensiones superiores.
Debido a que K-means utiliza la métrica de distancia euclidiana, supone que las dimensiones son comparables y de igual peso. Entonces, si la dimensión X tiene unidades de millas por hora, que varía de 0 a 80, y la dimensión Y tiene unidades de libras, que varían de 0 a 400, y está ajustando círculos en este espacio XY, entonces una dimensión (y su extensión) será más poderoso que la otra dimensión y eclipsará los resultados. Es por eso que se acostumbra normalizar los datos al tomar K-means.
Tanto GMM como K-means modelan los datos ajustando las mejores aproximaciones a lo que se proporciona. GMM se adapta a los huevos inclinados, y K-means se adapta a las esferas hasta. Pero los datos subyacentes podrían tener la forma de cualquier cosa, podría ser una espiral o una pintura de Picasso, y cada algoritmo aún se ejecutaría y tomaría su mejor tiro. Si el modelo resultante se parece a los datos reales depende del proceso físico subyacente que genera los datos. (Por ejemplo, las mediciones de retardo de tiempo son unilaterales; ¿es un Gaussiano un buen ajuste? Quizás).
Rnorte
Por lo tanto, su imagen binaria de 8x8 se interpretará como un hipercubo de 64 dimensiones en el primer hiperquadrante. Los algoritmos luego usan analogías geométricas para encontrar grupos. La distancia, con K-medias, aparece como distancia euclidiana en un espacio de 64 dimensiones. Es una forma de hacerlo.