Hay literalmente miles de variaciones de k-medias . Incluyendo asignación suave, varianza y covarianza (generalmente conocido como modelado de mezcla gaussiana o algoritmo EM).
Sin embargo, me gustaría señalar algunas cosas:
K-means no se basa en la distancia euclidiana. Se basa en la minimización de la varianza . Como la varianza es la suma de las distancias euclidianas al cuadrado, la asignación de varianza mínima es la que tiene el euclidiano cuadrado más pequeño, y la función de raíz cuadrada es monótona. Por razones de eficiencia, en realidad es más inteligente no calcular la distancia euclidiana (pero usar los cuadrados)
Si conecta una función de distancia diferente en k-significa que puede dejar de converger. Debe minimizar el mismo criterio en ambos pasos ; El segundo paso es volver a calcular los medios. Estimar el centro usando la media aritmética es un estimador de mínimos cuadrados, y minimizará la varianza. Como ambas funciones minimizan la varianza, k-means debe converger. Si desea garantizar la convergencia con otras distancias, use PAM (partición alrededor de medoides. El medoide minimiza las distancias dentro del clúster para funciones de distancia arbitrarias).
Pero al final, k-means y todas sus variaciones son, en mi humilde opinión, más una optimización (o más precisamente, un algoritmo de cuantificación vectorial ) que un algoritmo de análisis de conglomerados. En realidad, no "descubrirán" la estructura. Masajearán sus datos en k particiones. Si les proporciona datos uniformes, sin ninguna estructura más allá de la aleatoriedad, k-means todavía encontrará la cantidad de "grupos" que desee que encuentre. k-means está contento con devolver resultados que son esencialmente aleatorios .