t-SNE: ¿Por qué los valores de datos iguales no son visualmente cercanos?

Tengo 200 puntos de datos que tienen los mismos valores en todas las funciones.

Después de la reducción de la dimensión t-SNE ya no se ven tan iguales, así:

¿Por qué no están en el mismo punto en la visualización e incluso parece estar distribuido en dos grupos diferentes?

visualization dimensionality-reduction tsne

— ScientiaEtVeritas
fuente

Asegúrese de leer distill.pub/2016/misread-tsne

— Emre

¿Puede ser causado por la precisión (doble / flotante) que está utilizando?

— El Burro

La mayoría de los valores son enteros. Y es muy escaso, alrededor de 500 características con ceros en su mayoría. No sé si puede ser causado por la precisión. Pero la distancia entre estos grupos y entre estos puntos de datos es relativamente grande.

— ScientiaEtVeritas

¿Qué racimos? Pensé que todos son iguales, ¿o quieres decir la trama?

— El Burro

Sí, me refiero a los grupos en la trama.

— ScientiaEtVeritas

Tiene razón en que los mismos valores en T-SNE pueden distribuirse en diferentes puntos, la razón por la que esto sucede es clara si observa el algoritmo con el que se ejecuta T-SNE.

$x_1 = [0,1]$ $x_2 = [0,1]$

import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))

También observaría que cambiar el random_staterealmente modifica las coordenadas de salida del modelo. No existe ninguna correlación real entre las coordenadas reales y su salida. Dado que el primer paso de TSNE calcula la probabilidad condicional.

$x_i$ $x_j$ $p_{j | i} = \frac{exp(\frac{-||x_j - x_i||^2}{2\sigma^2})}{\sum_{k \neq i}{exp(\frac{-||x_j - x_i||^2}{2\sigma^2})}}$ $p_{ij} = \frac{p_{i|j} + p_{j | i}}{2N}$ $p_{ij}$ $x_i$ $x_j$

$\mathbb{R}^2$

Entonces, la verdad es que, en lugar de mirar los dos grupos, mire las distancias entre ellos, porque eso transmite más información que las coordenadas mismas.

Espero que esto haya respondido a tu pregunta :)

— PSub
fuente