t
t-SNE está tratando de minimizar la suma de las divergencias de Kullback-Leibler entre la distribución de las distancias entre los datos en el dominio original y la distribución de distancias entre los datos en el dominio de dimensión reducida (en realidad, las distribuciones objetivo son las distribuciones de los probabilidades de que un punto elija otro punto como vecino, pero estos son directamente proporcionales a la distancia entre los dos puntos). Se podría argumentar que valores más pequeños de divergencia KL muestran mejores resultados. Esta idea no funciona muy bien en la práctica, pero teóricamente ayudaría a excluir algunos rangos de los valores de perplejidad, así como algunas ejecuciones del algoritmo que son claramente subóptimas. Explico por qué esta heurística está lejos de ser una panacea y cómo podría ser ligeramente útil: El parámetro de perplejidad aumenta monotónicamente con la varianza del gaussiano utilizado para calcular las distancias / probabilidades. Por lo tanto, a medida que aumenta el parámetro de perplejidad en su conjunto, obtendrá distancias más pequeñas en términos absolutos y los valores de divergencia KL posteriores. Sin embargo, si tiene 20 carreras con la misma perplejidad y no puede (no quiere) mirarlas, siempre puede elegir la que tenga la variable más pequeña con la esperanza de que conserve las distancias originales con mayor precisión. Lo mismo vale para el Sin embargo, si tiene 20 carreras con la misma perplejidad y no puede (no quiere) mirarlas, siempre puede elegir la que tenga la variable más pequeña con la esperanza de que conserve las distancias originales con mayor precisión. Lo mismo vale para el Sin embargo, si tiene 20 carreras con la misma perplejidad y no puede (no quiere) mirarlas, siempre puede elegir la que tenga la variable más pequeña con la esperanza de que conserve las distancias originales con mayor precisión. Lo mismo vale para elθθ y luego verificar los costos resultantes debería ser algo informativo. Al final del día, los costos más bajos están asociados con reconstrucciones más fieles. Todo no esta perdido...
kktt-SNE se usó en primer lugar después de todo, si la representación resultante no es informativa para las propiedades que estamos investigando, entonces simplemente no es bueno a pesar de su bajo error de reconstrucción, atractivo visual, etc.
Permítanme señalar que lo que describo son heurísticas . Como se mencionó al principio de mi publicación, la inspección manual de los resultados es una forma indispensable de evaluar la calidad de la reducción / agrupación de dimensionalidad resultante.