Según el artículo de Hinton, entiendo que T-SNE hace un buen trabajo al mantener las similitudes locales y un trabajo decente en la preservación de la estructura global (clusterización).
Sin embargo, no estoy claro si los puntos que aparecen más cerca en una visualización 2D t-sne pueden asumirse como puntos de datos "más similares". Estoy usando datos con 25 características.
Como ejemplo, observando la imagen a continuación, ¿puedo suponer que los puntos de datos azules son más similares a los verdes, específicamente al grupo de puntos verdes más grande? O, preguntando de manera diferente, ¿está bien suponer que los puntos azules son más similares al verde en el grupo más cercano que a los rojos en el otro grupo? (sin tener en cuenta los puntos verdes en el grupo rojo-ish)
Al observar otros ejemplos, como los presentados en sci-kit learn Aprendizaje múltiple, parece correcto asumir esto, pero no estoy seguro de si es correcto estadísticamente hablando.
EDITAR
He calculado las distancias desde el conjunto de datos original manualmente (la distancia euclidiana media por pares) y la visualización en realidad representa una distancia espacial proporcional con respecto al conjunto de datos. Sin embargo, me gustaría saber si esto es bastante aceptable de esperar de la formulación matemática original de t-sne y no una mera coincidencia.