Para obtener una agrupación ideal, debe seleccionar manera que maximice la estadística de espacio. Aquí está el ejemplo dado por Tibshirani et al. (2001) en su artículo, la trama formada por datos artificiales con 2 grupos. Como puede ver, 2 es claramente la ideal , porque la estadística de brecha se maximiza en :kkk=2
Sin embargo, en muchos conjuntos de datos del mundo real, los grupos no están tan bien definidos y queremos equilibrar la maximización de la estadística de brecha con la parsimonia del modelo. Caso en cuestión: primera imagen de OP. Si estamos maximizando solo la estadística de brecha , entonces deberíamos elegir el modelo con 30 (¡o incluso más!) Grupos. Suponiendo que esa trama seguirá aumentando, por supuesto, los resultados son menos útiles. Entonces Tibshirani sugiere el método de 1 error estándar :
Elija el tamaño del clúster para que sea el más pequeño, de modo que .k^kGap(k)≥Gap(k+1)−sk+1
Lo que informalmente está identificando el punto en el que la tasa de aumento de la estadística de brecha comienza a "disminuir".
Entonces, en la primera imagen de OP, si tomamos las barras de error rojas como error estándar, entonces 3 es la más pequeña que satisface este criterio:k
Sin embargo, para la segunda imagen de OP, verá que la estadística de brecha disminuye inmediatamente para . Entonces, la primera que satisface el criterio de error estándar es . Esta es la forma de la trama de decir que los datos no deben agruparse.k>1k1
Como resultado, hay formas adicionales de elegir óptima . El método predeterminado de la función R , por ejemplo, siempre busca el máximo local del gráfico y selecciona el más pequeño dentro de un error estándar del máximo local. Usando este método, seleccionaríamos y para los gráficos 1 y 2 de OP respectivamente. Como dije, sin embargo, esto parece sufrir un problema de complejidad.kclusGap
kfirstSEmax
k=30k=19
Fuente: Robert Tibshirani, Guenther Walther y Trevor Hastie (2001). Estimación del número de clústeres en un conjunto de datos a través de la estadística de brecha.