Estoy buscando hacer clusters de k-means en un conjunto de puntos de 10 dimensiones. El truco: hay 10 ^ 10 puntos .
Estoy buscando solo el centro y el tamaño de los grupos más grandes (digamos de 10 a 100 grupos); No me importa en qué grupo termina cada punto. Usar k-means específicamente no es importante; Solo estoy buscando un efecto similar, cualquier medio k aproximado o algoritmo relacionado sería genial (minibatch-SGD significa, ...). Dado que GMM es, en cierto sentido, el mismo problema que k-means, hacer GMM con los mismos datos de tamaño también es interesante.
A esta escala, el submuestreo de los datos probablemente no cambie el resultado de manera significativa: las probabilidades de encontrar los mismos 10 grupos principales utilizando una muestra de datos de 1/10000 son muy buenas. Pero incluso entonces, ese es un problema de 10 ^ 6 puntos que está en / más allá del borde del tractable.