La pregunta es:
¿Cuál es la diferencia entre k-medias clásico y k-medias esféricas?
Clásico K-significa:
En los medios k clásicos, buscamos minimizar una distancia euclidiana entre el centro del grupo y los miembros del grupo. La intuición detrás de esto es que la distancia radial desde el centro del clúster a la ubicación del elemento debe "tener similitud" o "ser similar" para todos los elementos de ese clúster.
El algoritmo es:
- Establecer el número de clústeres (también conocido como recuento de clústeres)
- Inicialice asignando puntos al azar en el espacio para agrupar índices
- Repite hasta converger
- Para cada punto, encuentre el grupo más cercano y asigne punto a grupo
- Para cada grupo, encuentre la media de los puntos miembros y la media del centro de actualización
- El error es la norma de la distancia de los grupos
K-esférico significa:
En los medios k esféricos, la idea es establecer el centro de cada grupo de manera que haga uniforme y mínimo el ángulo entre los componentes. La intuición es como mirar las estrellas: los puntos deben tener un espaciado constante entre sí. Esa separación es más simple de cuantificar como "similitud de coseno", pero significa que no hay galaxias de "vía láctea" que forman grandes franjas brillantes en el cielo de los datos. (Sí, estoy tratando de hablar con la abuela en esta parte de la descripción).
Versión más técnica:
Piense en los vectores, las cosas que grafica como flechas con orientación y longitud fija. Se puede traducir a cualquier parte y ser el mismo vector. árbitro
La orientación del punto en el espacio (su ángulo desde una línea de referencia) se puede calcular usando álgebra lineal, particularmente el producto de puntos.
Si movemos todos los datos para que su cola esté en el mismo punto, podemos comparar los "vectores" por su ángulo y agrupar los similares en un solo grupo.
Para mayor claridad, las longitudes de los vectores están escaladas, de modo que son más fáciles de comparar.
Podrías pensarlo como una constelación. Las estrellas en un solo cúmulo están cerca unas de otras en algún sentido. Estos son mis globos oculares considerados constelaciones.
El valor del enfoque general es que nos permite idear vectores que de otro modo no tendrían una dimensión geométrica, como en el método tf-idf, donde los vectores son frecuencias de palabras en los documentos. Dos palabras "y" agregadas no equivalen a "la". Las palabras no son continuas ni numéricas. No son físicos en un sentido geométrico, pero podemos idearlos geométricamente y luego usar métodos geométricos para manejarlos. Los medios k esféricos se pueden usar para agrupar en base a palabras.
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x 10 0- 0.80.2 0.20.8- 0.70.9y1- 0.80.10,30.10.2 0.20.9x 2- 0.2013- 0.95240.20610.4787- 0.72760,748y2- 0,73160.3639- 0.14340,1530.38250.6793solr o u psiUNAdosiUNAdo⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
Algunos puntos:
- Se proyectan en una esfera unitaria para tener en cuenta las diferencias en la longitud del documento.
Analicemos un proceso real y veamos cuán (malo) fue mi "globo ocular".
El procedimiento es:
- (implícito en el problema) conecta vectores colas en origen
- proyectar en la esfera de la unidad (para tener en cuenta las diferencias en la longitud del documento)
- use la agrupación para minimizar la " disimilitud del coseno "
J= ∑yore( xyo, pc ( i ))
re( X , p ) = 1 - c o s ( x , p ) = ⟨ x , p ⟩∥ x ∥ ∥ p ∥
(más ediciones próximamente)
Campo de golf:
- http://epub.wu.ac.at/4000/1/paper.pdf
- http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
- http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
- https://www.jstatsoft.org/article/view/v050i10
- http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
- https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf