Leí que el algoritmo k-means solo converge a un mínimo local y no a un mínimo global. ¿Por qué es esto? Puedo pensar lógicamente cómo la inicialización podría afectar la agrupación final y existe la posibilidad de una agrupación subóptima, pero no encontré nada que lo demostrara matemáticamente.
Además, ¿por qué k-significa un proceso iterativo? ¿No podemos diferenciar parcialmente la función objetivo wrt de los centroides, igualarla a cero para encontrar los centroides que minimizan esta función? ¿Por qué tenemos que usar el descenso de gradiente para alcanzar el mínimo paso a paso?