Diferencia entre algoritmos estándar y esféricos de k-medias


28

Me gustaría entender, ¿cuál es la principal diferencia de implementación entre los algoritmos de agrupación de medios k estándar y esféricos?

En cada paso, k-means calcula las distancias entre los vectores de elementos y los centroides del grupo, y reasigna el documento a este grupo, cuyo centroide es el más cercano. Luego, todos los centroides se vuelven a calcular.

En k-medias esféricas, todos los vectores están normalizados, y la medida de la distancia es la disimilaridad del coseno.

¿Eso es todo o hay algo más?

Respuestas:


23

La pregunta es:

¿Cuál es la diferencia entre k-medias clásico y k-medias esféricas?

Clásico K-significa:

En los medios k clásicos, buscamos minimizar una distancia euclidiana entre el centro del grupo y los miembros del grupo. La intuición detrás de esto es que la distancia radial desde el centro del clúster a la ubicación del elemento debe "tener similitud" o "ser similar" para todos los elementos de ese clúster.

El algoritmo es:

  • Establecer el número de clústeres (también conocido como recuento de clústeres)
  • Inicialice asignando puntos al azar en el espacio para agrupar índices
  • Repite hasta converger
    • Para cada punto, encuentre el grupo más cercano y asigne punto a grupo
    • Para cada grupo, encuentre la media de los puntos miembros y la media del centro de actualización
    • El error es la norma de la distancia de los grupos

K-esférico significa:

En los medios k esféricos, la idea es establecer el centro de cada grupo de manera que haga uniforme y mínimo el ángulo entre los componentes. La intuición es como mirar las estrellas: los puntos deben tener un espaciado constante entre sí. Esa separación es más simple de cuantificar como "similitud de coseno", pero significa que no hay galaxias de "vía láctea" que forman grandes franjas brillantes en el cielo de los datos. (Sí, estoy tratando de hablar con la abuela en esta parte de la descripción).

Versión más técnica:

Piense en los vectores, las cosas que grafica como flechas con orientación y longitud fija. Se puede traducir a cualquier parte y ser el mismo vector. árbitro

ingrese la descripción de la imagen aquí

La orientación del punto en el espacio (su ángulo desde una línea de referencia) se puede calcular usando álgebra lineal, particularmente el producto de puntos.

Si movemos todos los datos para que su cola esté en el mismo punto, podemos comparar los "vectores" por su ángulo y agrupar los similares en un solo grupo.

ingrese la descripción de la imagen aquí

Para mayor claridad, las longitudes de los vectores están escaladas, de modo que son más fáciles de comparar.

ingrese la descripción de la imagen aquí

Podrías pensarlo como una constelación. Las estrellas en un solo cúmulo están cerca unas de otras en algún sentido. Estos son mis globos oculares considerados constelaciones.

ingrese la descripción de la imagen aquí

El valor del enfoque general es que nos permite idear vectores que de otro modo no tendrían una dimensión geométrica, como en el método tf-idf, donde los vectores son frecuencias de palabras en los documentos. Dos palabras "y" agregadas no equivalen a "la". Las palabras no son continuas ni numéricas. No son físicos en un sentido geométrico, pero podemos idearlos geométricamente y luego usar métodos geométricos para manejarlos. Los medios k esféricos se pueden usar para agrupar en base a palabras.

[X1y1X2y2solrotupags0 0-0.8-0.2013-0,7316si-0.80.1-0,95240.3639UNA0.2 0.20,30.2061-0.1434do0.80.10.47870,153si-0.70.2 0.2-0.72760.3825UNA0.90.90,7480.6793do]

Algunos puntos:

  • Se proyectan en una esfera unitaria para tener en cuenta las diferencias en la longitud del documento.

Analicemos un proceso real y veamos cuán (malo) fue mi "globo ocular".

El procedimiento es:

  1. (implícito en el problema) conecta vectores colas en origen
  2. proyectar en la esfera de la unidad (para tener en cuenta las diferencias en la longitud del documento)
  3. use la agrupación para minimizar la " disimilitud del coseno "

J=yore(Xyo,pagsdo(yo))

re(X,pags)=1-doos(X,pags)=X,pagsXpags

(más ediciones próximamente)

Campo de golf:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

En archivos de texto, creo que la función "diff" que se alinea caracteres, o indique los cambios con pesos, podría ser útil pre-procesamiento de textos "próximos entre sí" con el fin de mejorar la agrupación significativa
EngrStudent - Restablecer Mónica

Obtengo "Acceso prohibido" en el enlace en el n. ° 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/… )
David Doria el

@David - yo también. Siempre en movimiento está ... ¿internet? Un momento por favor.
EngrStudent - Restablece a Monica el

1
Después de algunas dudas, decidí rechazar esta respuesta actualmente. No es solo una explicación de "abuela", es imprecisa. radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clusterSuena simplemente incorrecto o contundente. En both uniform and minimal the angle between components"componentes" no está definido. Espero que pueda mejorar la respuesta potencialmente excelente si lo hace un poco más riguroso y extendido.
ttnphns
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.