El objetivo de K-Means es reducir la varianza dentro del grupo, y debido a que calcula los centroides como el punto medio de un grupo, es necesario usar la distancia euclidiana para converger adecuadamente. Por lo tanto, si desea usar K-Means, debe asegurarse de que sus datos funcionen bien con ellos.
Representación
K-Means, y la agrupación en general, intenta dividir los datos en grupos significativos asegurándose de que las instancias en los mismos grupos sean similares entre sí. Por lo tanto, necesita una buena forma de representar sus datos para poder calcular fácilmente una medida de similitud significativa.
Usar una codificación única en variables categóricas es una buena idea cuando las categorías son equidistantes entre sí. Por ejemplo, si tiene el color azul claro, azul oscuro y amarillo, el uso de una codificación en caliente podría no brindarle los mejores resultados, ya que el azul oscuro y el azul claro probablemente estén "más cerca" entre sí que al amarillo.
En caso de que los valores categóricos no sean "equidistantes" y se puedan ordenar, también puede asignar un valor numérico a las categorías. Por ejemplo, niño, adolescente, adulto, podría representarse potencialmente como 0, 1 y 2. Esto tendría sentido porque un adolescente está "más cerca" de ser un niño que un adulto.
K-medoides
Un enfoque más genérico de K-Means es K-Medoids. K-Medoids funciona de manera similar a K-Means, pero la principal diferencia es que el centroide para cada grupo se define como el punto que reduce la suma de distancias dentro del grupo. Hacer cumplir esto le permite usar cualquier medida de distancia que desee y, por lo tanto, puede crear su propia medida personalizada que tendrá en cuenta qué categorías deben estar cerca o no.