Me gustaría hacer una reducción de dimensionalidad en casi 1 millón de vectores cada uno con 200 dimensiones ( doc2vec
). Estoy usando la TSNE
implementación del sklearn.manifold
módulo para él y el principal problema es la complejidad del tiempo. Incluso con method = barnes_hut
, la velocidad de cálculo sigue siendo baja. Algún tiempo, incluso se queda sin memoria.
Lo estoy ejecutando en un procesador de 48 núcleos con 130G de RAM. ¿Existe algún método para ejecutarlo en paralelo o hacer uso del abundante recurso para acelerar el proceso?