Si divide aleatoriamente la muestra en 5 submuestras, sus 5 medias casi coincidirán. ¿Cuál es el sentido de hacer que tales puntos cercanos sean los centros de agrupación iniciales?
En muchas implementaciones de K-means, la selección predeterminada de los centros de clúster iniciales se basa en la idea opuesta: encontrar los 5 puntos que están más alejados y convertirlos en los centros iniciales. Puede preguntar cuál puede ser la forma de encontrar esos puntos distantes. Esto es lo que está haciendo K-SPSS para eso:
Tome los k casos (puntos) del conjunto de datos como los centros iniciales. Se está comprobando la capacidad de todos los casos de descanso para sustituirlos como centros iniciales, por las siguientes condiciones:
- a) Si el caso está más alejado del centro más cercano a él que la distancia entre dos centros más cercanos entre sí, el caso sustituye al centro de los últimos dos al cual está más cerca.
- b) Si el caso está más alejado del segundo centro más cercano a él que la distancia entre el centro más cercano y el centro más cercano a este último, el caso sustituye al centro más cercano.
Si no se cumple la condición (a), se verifica la condición (b); si no está satisfecho, el caso no se convierte en un centro. Como resultado de estos casos, obtenemos k casos extremos en la nube que se convierten en los centros iniciales. El resultado de este algo, aunque suficientemente robusto, no es completamente insensible a la elección inicial de "cualquier k casos" y al orden de clasificación de los casos en el conjunto de datos; por lo tanto, varios intentos de inicio aleatorio son bienvenidos, como siempre es el caso con K-means.
Vea mi respuesta con una lista de métodos de inicialización populares para k-means. El método de división en submuestras aleatorias (criticado aquí por mí y otros), así como el método descrito utilizado por SPSS, también están en la lista.