Aquí hay un ejemplo, si estuviera haciendo esto en mplus, que podría ser útil y complementar respuestas más completas:
Digamos que tengo 3 variables continuas y quiero identificar grupos basados en estas. Especificaría un modelo de mezcla (más específicamente en este caso, un modelo de perfil latente), suponiendo independencia condicional (las variables observadas son independientes, dada la membresía del clúster) como:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Ejecutaría este modelo varias veces, cada vez especificando un número diferente de clústeres, y elegiría la solución que más me gusta (hacer esto es un tema muy amplio por sí solo).
Para ejecutar k-means, especificaría el siguiente modelo:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Por lo tanto, la membresía de clase solo se basa en la distancia a las medias de las variables observadas. Como se indicó en otras respuestas, las variaciones no tienen nada que ver con eso.
Lo bueno de hacer esto en mplus es que estos son modelos anidados, por lo que puede probar directamente si las restricciones resultan en peor ajuste o no, además de poder comparar la discordancia en la clasificación entre los dos métodos. Por cierto, ambos modelos se pueden estimar utilizando un algoritmo EM, por lo que la diferencia es realmente más sobre el modelo.
Si piensas en el espacio tridimensional, el 3 significa hacer un punto ... y las variaciones de los tres ejes de un elipsoide que atraviesan ese punto. Si las tres variaciones son iguales, obtendrías una esfera.