Me gustaría codificar una agrupación de kmeans en python usando pandas y scikit learn. Para seleccionar la buena k, me gustaría codificar la estadística Gap de Tibshirani y al 2001 ( pdf ).
Me gustaría saber si podría usar el resultado de inercia_ de scikit y adaptar la fórmula estadística de hueco sin tener que recodificar todos los cálculos de distancias.
¿Alguien sabe la fórmula de inercia utilizada en scikit / conoce una manera fácil de recodificar la estadística de brecha utilizando funciones de distancia de alto nivel?
Creo que esta pregunta tiene suficiente contenido estadístico para estar en el tema de CV, pero tenga en cuenta que también requiere una programación bastante sofisticada y conocimiento de Python. Puede ser difícil obtener una buena respuesta. Es posible que desee solicitar / estar dispuesto a conformarse con el pseudocódigo también, y / o puede que necesite dividir esta pregunta en 2 partes, 1 aquí sobre los aspectos estadísticos y 1 parte en Stack Overflow sobre los aspectos de programación de Python. (O tal vez no, no lo sé con certeza, pero solo quiero darle una advertencia justa; veremos cómo va).
—
Gung - Vuelva a instalar a Monica
Esta pregunta necesita que se defina el término "inercia". Parece que está acuñado por dentro
—
ttnphns
python
.