Así que me doy cuenta de que esto se ha preguntado antes: por ejemplo, ¿cuáles son los casos de uso relacionados con el análisis de conglomerados de diferentes métricas de distancia? pero he encontrado que las respuestas son algo contradictorias con lo que se sugiere que debería ser posible en la literatura.
Recientemente, he leído dos documentos que mencionan el uso del algoritmo kmeans con otras métricas, por ejemplo, editar la distancia entre cadenas y la "Distancia del desplazador de la tierra" entre distribuciones. Dado que estos documentos mencionan el uso de kmeans con otras métricas sin especificar cómo , particularmente cuando se trata de calcular la media del conjunto de puntos, me sugiere que tal vez exista algún método "estándar" para tratar esto que simplemente no estoy eligiendo sobre.
Tomemos por ejemplo este documento , que brinda una implementación más rápida del algoritmo k-means. Citando el párrafo 4 en la introducción, el autor dice que su algoritmo "se puede usar con cualquier métrica de distancia de recuadro negro", y en el siguiente párrafo menciona la distancia de edición como un ejemplo específico. Sin embargo, su algoritmo todavía calcula la media de un conjunto de puntos y no menciona cómo esto podría afectar los resultados con otras métricas (estoy especialmente perplejo en cuanto a cómo la media funcionaría con la distancia de edición).
Este otro artículo describe el uso de k-means para agrupar las manos de póker para una abstracción hold-em de texas. Si salta a la página 2 en la parte inferior de la columna de la izquierda, la escritura del autor "y luego k-means se usa para calcular una abstracción con el número deseado de grupos utilizando la Distancia de movimiento de la Tierra entre cada par de histogramas como la métrica de distancia".
Realmente no estoy buscando a alguien que me explique estos documentos, pero ¿me estoy perdiendo algún método estándar para usar k-means con otras métricas? Parece que el promedio estándar con la distancia de movimiento de tierra podría funcionar de forma heurística, pero la distancia de edición parece no encajar en absoluto en el molde. Agradezco cualquier idea que alguien pueda dar.
(editar) : Seguí adelante y probé k-means en histogramas de distribución usando la distancia de movimiento de tierra (similar a lo que está en el papel de póker) y parecía haber funcionado bien, los grupos que producía se veían bastante bien para mi caso de uso. Para promediar, simplemente traté los histogramas como vectores y promedié de la manera normal. Lo único que noté es que la suma sobre todos los puntos de las distancias a los medios no siempre disminuía de manera monótona. Sin embargo, en la práctica, se resolvería en un mínimo local en 10 iteraciones a pesar de los problemas monótonos. Voy a suponer que esto es lo que hicieron en el segundo artículo, la única pregunta que queda entonces es, ¿cómo diablos promediarías al usar algo como la distancia de edición?