¿Cómo definir el número de clústeres en el clúster K-means?

¿Hay alguna forma de determinar el número óptimo de clúster o debería probar diferentes valores y verificar las tasas de error para decidir el mejor valor?

clustering unsupervised-learning

— berkay
fuente

@berkay ¿Cómo define una tasa de error para este método sin supervisión? (¿o te refieres a las SS

— internas

@chl, puedo usar suma de errores al cuadrado para todos los clusters o precisión global (en este caso sé la clase de etiquetas.)

— berkay

@berkay Un algoritmo simple para encontrar los clústeres de números es calcular el WSS promedio para 20 ejecuciones de k-means en un número creciente de clústeres (comenzando con 2 y terminando con digamos 9 o 10), y mantener la solución que tiene WSS mínimo sobre este conjunto de clústeres. Otro método es la estadística Gap . Pero si ya tiene instancias etiquetadas, ¿por qué está probando un método sin supervisión?

— chl

@chl gracias, buena pregunta, podemos adivinar los clústeres dependiendo de las características de las inmutaciones, estoy analizando las nuevas características de intrusión, imitando las aplicaciones legales.

— berkay

He respondido una pregunta similar con media docena de métodos (usando R) aquí: stackoverflow.com/a/15376462/1036500

— Ben

El método que uso es usar CCC (Criterios de agrupación cúbica). Busco que CCC aumente al máximo a medida que incremente el número de grupos en 1, y luego observo cuando el CCC comienza a disminuir. En ese punto, tomo el número de clústeres al máximo (local). Esto sería similar a usar un diagrama de pantalla para elegir el número de componentes principales.

Informe técnico SAS A-108 Criterio de agrupación cúbica ( pdf )

= número de observaciones = número en el grupo = número de variables = número de grupos = matriz de datos = $n$
$n_k$ $k$
$p$
$q$
$X$ $n\times p$
$M$ $q\times p$ matriz del grupo significa
= indicador de grupo ( si obs . en el grupo $Z$ $z_{ik}=1$ $i$ $k$ , 0 en caso contrario)

Suponga que cada variable tiene media 0:
, $Z’Z = \text{diag}(n_1, \cdots, n_q)$ $M = (Z’Z)-1Z’X$

(total) matriz = = (entre grupos) matriz = = (dentro de grupos) matriz = = $SS$ $T$ $X’X$
$SS$ $B$ $M’ Z’Z M$
$SS$ $W$ $T-B$

$R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}$
(trace = suma de elementos diagonales)

Apila columnas de en una columna larga. Regresión en el producto Kronecker de con matriz de identidad Calcule para esta regresión - mismo $X$
$Z$ $p\times p$
$R^2$ $R^2$

La idea de la CCC es comparar el que obtienes para un conjunto dado de grupos con el que obtendrías al agrupar un conjunto de puntos distribuidos uniformemente en el espacio dimensional . $R^2$ $R^2$ $p$

— Ralph Winters
fuente

Hay otros criterios además de CCC. Eche un vistazo a Determinación del número de clústeres en un conjunto de datos para ver los principales.

— Vincent Labatut