¿Cuándo es t-SNE engañoso?


37

Cita de uno de los autores:

La incrustación de vecinos estocásticos distribuidos en t (t-SNE) es una técnica ( premiada ) para la reducción de la dimensionalidad que es particularmente adecuada para la visualización de conjuntos de datos de alta dimensión.

Entonces suena bastante bien, pero ese es el autor hablando.

Otra cita del autor (re: la competencia antes mencionada):

¿Qué te has llevado de esta competencia?
¡Visualice siempre sus datos primero, antes de comenzar a entrenar predictores sobre los datos! A menudo, las visualizaciones como las que hice proporcionan información sobre la distribución de datos que pueden ayudarlo a determinar qué tipos de modelos de predicción probar.

La información debe 1 se está perdiendo - después de todo se trata de una técnica de reducción de dimensionalidad. Sin embargo, como es una buena técnica para usar al visualizar, la información perdida es menos valiosa que la información resaltada (/ hecha visible / comprensible a través de la reducción a 2 o 3 dimensiones).

Entonces mi pregunta es:

  • ¿Cuándo es tSNE la herramienta incorrecta para el trabajo?
  • Qué tipo de conjuntos de datos hacen que no funcione,
  • ¿Qué tipo de preguntas parece que puede responder, pero en realidad no puede?
  • En la segunda cita anterior, se recomienda visualizar siempre su conjunto de datos, ¿ debería esta visualización realizarse siempre con tSNE?

Espero que esta pregunta se responda mejor a la inversa, es decir, responder: ¿ Cuándo es tSNE la herramienta adecuada para el trabajo?


Se me advirtió que no confíe en tSNE para decirme cuán fácil será clasificable la información (separada en clases, un modelo discriminatorio). El ejemplo de que fue engañoso fue que, para las dos imágenes a continuación, un modelo generativo 2 era peor para los datos visualizados en el primero / izquierdo (precisión 53.6%) que uno equivalente para el segundo / derecho (precisión 67.2%).

primero segundo


1 Podría estar equivocado sobre esto, puedo sentarme y probar un ejemplo de prueba / contador más tarde

2 tenga en cuenta que un modelo generativo no es lo mismo que un modelo discriminatorio, pero este es el ejemplo que me dieron.


1
AB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R

@Lucas: Ah, por supuesto. (¿Cómo no me di cuenta de eso?)
Lyndon White

¿Qué modelo generativo estás intentando?
WeiChing Lin

@ Wei-ChingLin No estoy seguro de qué tipo de modelo generativo se estaba utilizando. Probablemente algún tipo de Deep Belief Network, Deep Boltzmann Manchine o Autoencoder. No es realmente relevante para el meollo de la pregunta
Lyndon White

Respuestas:


13

T-Sne es una técnica de reducción que mantiene la estructura a pequeña escala (es decir, lo que está particularmente cerca de qué) del espacio, lo que lo hace muy bueno para visualizar la separabilidad de datos. Esto significa que T-Sne es particularmente útil para la visualización temprana orientada a comprender el grado de separabilidad de datos. Otras técnicas (PCA, por ejemplo) dejan los datos en representaciones dimensionales inferiores proyectadas una sobre la otra a medida que desaparecen las dimensiones, lo que hace que sea muy difícil hacer una declaración clara sobre la separabilidad en el espacio dimensional superior.

Entonces, por ejemplo, si obtiene un gráfico T-Sne con muchos datos superpuestos, hay muchas probabilidades de que su clasificador tenga un mal desempeño, sin importar lo que haga. Por el contrario, si ve datos claramente separados en el gráfico T-Sne, los datos de alta dimensión subyacentes contienen suficiente variabilidad para construir un buen clasificador.


3
Esa es una muy buena explicación de lo que es T-SNE, gracias. Pero no veo las respuestas a mis preguntas reales (vea los puntos en la publicación de apertura).
Lyndon White,

55
Esto no responde a la pregunta en absoluto.
ameba dice Reinstate Monica

10

Fuera de la caja, tSNE tiene algunos hiperparámetros, el principal es la perplejidad. Recuerde que heurísticamente, la perplejidad define una noción de similitud para tSNE y se utiliza una perplejidad universal para todos los puntos de datos. Podría intentar generar un conjunto de datos etiquetado donde cada clúster tenga una perplejidad muy diferente. Esto se puede lograr haciendo una mezcla de gaussianos, con una amplia gama de variaciones diferentes. Supongo que esto también causará problemas en la implementación de Barnes-Hut de tSNE, que se basa en datos de cuartil y el uso de vecinos más cercanos. tSNE también tiene un período de relajación inicial, que intenta pasar grupos entre sí. Durante este período, no hay pena o repulsión. Entonces, por ejemplo, si sus datos parecen un grupo de fideos enmarañado (cada fideo representa un grupo dado) Va a ser difícil calibrar el paso inicial, y dudo que tSNE funcione bien. En cierto sentido, creo que esto sugiere que tSNE no funcionará bien si sus datos se entrelazan e inicialmente residen en un espacio dimensional bajo, digamos 5.

t

k

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.