Fórmula de inercia de agrupación en scikit learn

Me gustaría codificar una agrupación de kmeans en python usando pandas y scikit learn. Para seleccionar la buena k, me gustaría codificar la estadística Gap de Tibshirani y al 2001 ( pdf ).

Me gustaría saber si podría usar el resultado de inercia_ de scikit y adaptar la fórmula estadística de hueco sin tener que recodificar todos los cálculos de distancias.

¿Alguien sabe la fórmula de inercia utilizada en scikit / conoce una manera fácil de recodificar la estadística de brecha utilizando funciones de distancia de alto nivel?

— Rasguño
fuente

Creo que esta pregunta tiene suficiente contenido estadístico para estar en el tema de CV, pero tenga en cuenta que también requiere una programación bastante sofisticada y conocimiento de Python. Puede ser difícil obtener una buena respuesta. Es posible que desee solicitar / estar dispuesto a conformarse con el pseudocódigo también, y / o puede que necesite dividir esta pregunta en 2 partes, 1 aquí sobre los aspectos estadísticos y 1 parte en Stack Overflow sobre los aspectos de programación de Python. (O tal vez no, no lo sé con certeza, pero solo quiero darle una advertencia justa; veremos cómo va).

— Gung - Vuelva a instalar a Monica

Esta pregunta necesita que se defina el término "inercia". Parece que está acuñado por dentro python.

— ttnphns

Creo que encontré mi respuesta para kmeans clustering:

$I = \sum_{i}(d(i,cr))$ $cr$ $d$

W_{k} = \sum_{r = 1}^{k} \frac{1}{(2 * n_{r})} D_{r}

$W_k = \sum_{r=1}^{k}\frac 1 {(2*n_r) }D_r$

D_{r}

$D_r$

r

$r$

$+c$ $-c$ $c$ $r$ $c$ $W_k$

Todavía tengo dos preguntas:

¿Crees que mi cálculo es correcto? (Por ejemplo, no sé si es válido para la agrupación jerárquica).
Si estoy en lo correcto, he codificado la estadística de brecha (como diferencia de log inercias entre la estimación y la agrupación) y funciona mal especialmente en el conjunto de datos del iris, ¿alguien lo ha intentado?

— Rasguño
fuente

Es mejor no hacer preguntas en sus respuestas. Si esto no es realmente la respuesta a su pregunta, pero sólo una solución parcial para aclarar la cuestión real, que sería mejor para editar su pregunta y pegar esta información en.

— Gung - Restablecer Mónica

@Scratch ¿alguna vez obtuviste una implementación en Python de la estadística gap para trabajar en el conjunto de datos de Iris? Estoy luchando con el mismo problema.

— Zelazny7

Sí, codifiqué uno hace unos meses. ¿Cómo puedo enviarte eso?

— Scratch

W_{k} = \sum_{r = 1}^{k} \frac{D_{r}}{(2 * n_{r})}

$W_k = \sum_{r=1}^{k}\frac {D_r} {(2*n_r) }$