¿Pueden considerarse puntos más cercanos más similares en la visualización T-SNE?

Según el artículo de Hinton, entiendo que T-SNE hace un buen trabajo al mantener las similitudes locales y un trabajo decente en la preservación de la estructura global (clusterización).

Sin embargo, no estoy claro si los puntos que aparecen más cerca en una visualización 2D t-sne pueden asumirse como puntos de datos "más similares". Estoy usando datos con 25 características.

Como ejemplo, observando la imagen a continuación, ¿puedo suponer que los puntos de datos azules son más similares a los verdes, específicamente al grupo de puntos verdes más grande? O, preguntando de manera diferente, ¿está bien suponer que los puntos azules son más similares al verde en el grupo más cercano que a los rojos en el otro grupo? (sin tener en cuenta los puntos verdes en el grupo rojo-ish)

Al observar otros ejemplos, como los presentados en sci-kit learn Aprendizaje múltiple, parece correcto asumir esto, pero no estoy seguro de si es correcto estadísticamente hablando.

EDITAR

He calculado las distancias desde el conjunto de datos original manualmente (la distancia euclidiana media por pares) y la visualización en realidad representa una distancia espacial proporcional con respecto al conjunto de datos. Sin embargo, me gustaría saber si esto es bastante aceptable de esperar de la formulación matemática original de t-sne y no una mera coincidencia.

— Javierfdr
fuente

Los puntos azules son los más cercanos a sus respectivos puntos verdes vecinos, así es como se realizó la incrustación. Hablando libremente, las similitudes (o distancia) deben ser preservadas. Pasar de 25 dimensiones a solo 2 resulta muy probable en la pérdida de información, pero la representación 2D es la más cercana que se puede mostrar en la pantalla.

— Vladislavs Dovgalecs

Presentaría t-SNE como una adaptación probabilística inteligente de la incrustación localmente lineal. En ambos casos, intentamos proyectar puntos desde un espacio dimensional alto a uno pequeño. Esta proyección se realiza optimizando la conservación de distancias locales (directamente con LLE, preproduciendo una distribución probabilística y optimizando la divergencia KL con t-SNE). Entonces, si su pregunta es, ¿mantiene distancias globales, la respuesta es no. Dependerá de la "forma" de sus datos (si la distribución es suave, entonces las distancias deben conservarse de alguna manera).

t-SNE en realidad no funciona bien en el rollo suizo (su imagen 3D "S") y puede ver que, en el resultado 2D, los puntos amarillos muy medios generalmente están más cerca de los rojos que los azules ( están perfectamente centrados en la imagen 3D).

Otro buen ejemplo de lo que hace t-SNE es la agrupación de dígitos escritos a mano. Vea los ejemplos en este enlace: https://lvdmaaten.github.io/tsne/

— Robin
fuente

Lo que quiero decir es que no puedes usar la distancia en el espacio inferior como un criterio de similitud. t-SNE mantendrá la estructura global, como los clústeres, pero no necesariamente mantiene las distancias. Esto dependerá de la forma de los datos de alta dimensión y la perplejidad que utilice.

— Robin

OK veo. Gracias por aclararlo. Sí, estoy de acuerdo en que las distancias en el espacio inferior no serían precisas. Ahora, dado que t-sne es práctico para la visualización, ¿puedo usar distancias conceptualmente en la gráfica de dimensiones inferiores? Por ejemplo, en mi diagrama puedo decir con certeza que los puntos azules están más cerca o son más similares a los verdes que a los rojos, dada la separación obvia de los tres grupos en el espacio 2d. ¿O eso también sería difícil de decir?

— Javierfdr

Es bastante difícil de decir. Los puntos en el espacio de baja dimensión se inicializan con una distribución gaussiana centrada en el origen. Luego se reemplazan iterativamente optimizando la divergencia KL. Entonces, diría que en su caso, los puntos azules son más similares al grupo verde, pero ahora hay una manera de evaluar qué tan cerca están del grupo rojo. t-SNE.

— Robin

En conjunto, t-SNE pone énfasis en (1) modelar puntos de datos diferentes por medio de grandes distancias por pares, y (2) modelar puntos de datos similares por medio de pequeñas distancias por pares. Específicamente, t-SNE introduce fuerzas de largo alcance en el mapa de baja dimensión que puede juntar dos (grupos de) puntos similares que se separan al principio de la optimización.

— Robin

Muy buena explicación. Muchas gracias por tu esfuerzo. Creo que sus diferentes comentarios reunieron una respuesta completa.

— Javierfdr