Esto ha estado dentro de mi mente durante al menos unas pocas horas. Estaba tratando de encontrar una k óptima para la salida del algoritmo k-means (con una métrica de similitud de coseno ), así que terminé trazando la distorsión en función del número de grupos. Mi conjunto de datos es una colección de 800 documentos en un espacio de 600 dimensiones.
Por lo que entiendo, encontrar el punto de rodilla o el punto de codo en esta curva debería indicarme al menos aproximadamente el número de grupos en los que necesito poner mis datos. Puse el gráfico a continuación. El punto en el que se dibujó la línea vertical roja se obtuvo utilizando la segunda prueba máxima de derivada . Después de hacer todo esto, me quedé atrapado en algo mucho más simple: ¿qué me dice este gráfico sobre el conjunto de datos?
¿Me dice que no vale la pena agruparlos y que mis documentos carecen de estructura o que necesito establecer una k muy alta? Sin embargo, una cosa extraña es que incluso con k baja, veo documentos similares agrupados, así que no estoy seguro de por qué estoy obteniendo esta curva. ¿Alguna idea?
terms x document
obtuvo después de realizar un vector singular. descomposición. Corrígeme si me equivoco.