¿Por qué no se utiliza t-SNE como técnica de reducción de dimensionalidad para la agrupación o clasificación?

En una asignación reciente, nos dijeron que usáramos PCA en los dígitos MNIST para reducir las dimensiones de 64 (imágenes de 8 x 8) a 2. Luego tuvimos que agrupar los dígitos usando un Modelo de Mezcla Gaussiana. La PCA que usa solo 2 componentes principales no produce grupos distintos y, como resultado, el modelo no puede producir agrupaciones útiles.

Sin embargo, usando t-SNE con 2 componentes, los grupos están mucho mejor separados. El modelo de mezcla gaussiana produce grupos más distintos cuando se aplica a los componentes t-SNE.

La diferencia en PCA con 2 componentes y t-SNE con 2 componentes se puede ver en el siguiente par de imágenes donde las transformaciones se han aplicado al conjunto de datos MNIST.

He leído que t-SNE solo se usa para la visualización de datos de alta dimensión, como en esta respuesta , pero dados los distintos grupos que produce, ¿por qué no se usa como una técnica de reducción de dimensionalidad que luego se usa para modelos de clasificación o como Es un método de agrupación independiente?

— willk
fuente

¿Te refieres a clasificación o agrupamiento? El título dice agrupación pero la publicación dice clasificación.

— usεr11852 dice Reinstate Monic el

Lo siento por eso. Quiero saber por qué no se usa como una técnica de agrupamiento o como una técnica de reducción de dimensionalidad para la clasificación. He editado para reflejar esto.

— willk

Casualmente, un artículo publicado recientemente utiliza t-SNE y un algoritmo de agrupamiento no supervisado para etiquetar los procesos de combustión.

— tpg2114

La respuesta que vinculó demuestra cuán engañoso puede ser tSNE. Verá grupos en el gráfico que no existen en los datos. Eso es dañino si no tienes etiquetas. Y no saque demasiadas conclusiones de los datos de MNIST. Ese es un conjunto de datos extremadamente bien comportado ...

— Anony-Mousse

Este artículo me pareció útil para explicar t-SNE y sus inconvenientes. Tiene muchas visualizaciones interactivas que ayudan a enfatizar los puntos principales.

— willk

Respuestas:

$t$ $t$

$t$ $t$ 11También podríamos haber usado la clasificación para comenzar (lo que nos lleva de vuelta al uso de autoencoders).

— usεr11852 dice Reinstate Monic
fuente

La Q parece preguntar más sobre la agrupación que sobre la clasificación. Al menos la agrupación está en el título.

— ameba dice Reinstate Monica

@amoeba: Pensé lo mismo y escribí sobre el uso potencial a través de la agrupación no basada en la distancia (por ejemplo, FMM, DBSCAN), pero luego leí la pregunta: " ¿por qué no se usa como una técnica de reducción de dimensionalidad que luego se usa para la clasificación? modelos? "

— usεr11852 dice Reinstate Monic

Sí, pero el título Q es diferente. ¡Creo que OP podría estar confundido acerca de la diferencia, por lo que podría tener sentido abordar ambos en su A!

— ameba dice Reinstate Monica

OK ... OK ... Eucariota conduciendo esclavos ...: P

— ussr11852 dice Reinstate Monic

(+1) Me interesaría mucho escuchar sus opiniones sobre esta agrupación / t-SNE answer stats.stackexchange.com/questions/263539 que acabo de publicar. CC también a @caseWestern: esto también puede ser de su interés.

— ameba dice Reinstate Monica

t-SNE no preserva las distancias, pero básicamente estima las distribuciones de probabilidad. En teoría, los algoritmos t-SNE asignan la entrada a un espacio de mapa de 2 o 3 dimensiones. Se supone que el espacio de entrada es una distribución gaussiana y el espacio del mapa una distribución t. La función de pérdida utilizada es la divergencia KL entre las dos distribuciones, que se minimiza mediante el descenso de gradiente.

Según Laurens van der Maaten, coautor de t-SNE

t-SNE no retiene distancias sino probabilidades, por lo que es inútil medir algún error entre las distancias euclidianas en alta D y baja D.

Referencia:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-introduction-to-the-t-sne-algorithm

— prashanth
fuente

Como una declaración general: dado un clasificador suficientemente potente (/ adecuado), o agrupador, uno nunca aplicaría ninguna reducción de dimensionalidad.

La reducción de la dimensionalidad pierde información.

Dado que dicho agrupador o clasificador (clasificadores esp, menos agrupadores), incorpora internamente alguna forma de proyección en un espacio significativo ya. Y la reducción de la dimensionalidad es también una proyección hacia un espacio significativo (con suerte).

Pero la reducción de la dimensionalidad tiene que hacerlo de manera no informada: no sabe para qué tarea está reduciendo. Esto es especialmente cierto para la clasificación, donde tiene información supervisada directa. Pero también se aplica a la agrupación, donde el espacio en el que uno desearía proyectar para la agrupación está mejor definido (para este algoritmo) que simplemente "tener menos dimensiones". La respuesta de @ usεr11852 habla de esto. Como dije, la reducción de dimensionalidad no sabe qué tarea para la que está reduciendo: le informa en su elección qué algoritmo de reducción de dimensionalidad utilizará.

Muy a menudo, en lugar de agregar un paso de reducción de dimensionalidad como preprocesamiento antes de la agrupación / clasificación, es mejor usar un clasificador / agrupador diferente que incorpore una proyección útil.

Sin embargo, una cosa que tiene que ver con la reducción de la dimensionalidad en esto es su naturaleza no supervisada para crear la proyección al espacio (con suerte) significativo. Lo cual es útil si tiene pocos datos de etiqueta. Pero a menudo hay otros métodos que están estrechamente vinculados a su clasificador (por ejemplo, para redes neuronales, utilizando autoencoder, por ejemplo, preentrenamiento de redes de creencias profundas) que funcionarán mejor, porque están diseñados teniendo en cuenta esa tarea final. No es la tarea más general de reducción de dimensionalidad.

— Lyndon White
fuente