El remuestreo, tal como se hace durante la validación cruzada (repetida), genera conjuntos de datos "nuevos" que varían del conjunto de datos original al eliminar algunos casos.k
Para facilitar la explicación y la claridad, arrancaría el agrupamiento.
En general, puede usar dichos agrupamientos muestreados para medir la estabilidad de su solución: ¿apenas cambia o cambia por completo?
A pesar de que no tiene una verdad básica, puede comparar el agrupamiento que resulta de diferentes ejecuciones del mismo método (remuestreo) o los resultados de diferentes algoritmos de agrupamiento, por ejemplo, tabulando:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
Como los grupos son nominales, su orden puede cambiar arbitrariamente. Pero eso significa que puede cambiar el orden para que los grupos correspondan. Luego, los elementos diagonales * cuentan los casos asignados al mismo clúster y los elementos fuera de diagonal muestran de qué manera cambiaron las asignaciones:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Diría que el remuestreo es bueno para establecer qué tan estable es su agrupación dentro de cada método. Sin eso, no tiene mucho sentido comparar los resultados con otros métodos.
* funciona también con matrices no cuadradas si resultan diferentes números de grupos. Luego me alinearía para que los elementos tenga el significado de la diagonal anterior. Las filas / columnas adicionales luego muestran de qué grupos el nuevo grupo obtuvo sus casos.yo , yo
No estás mezclando k-fold cross validation y k-means clustering, ¿verdad?