¿Alguien usa las métricas o para la agrupación, en lugar de ?
Aggarwal et al.,
Sobre el sorprendente comportamiento de las métricas de distancia en el espacio de alta dimensión,
dijeron (en 2001) que
es consistentemente más preferible que la métrica de distancia euclidiana para aplicaciones de minería de datos de alta dimensión
y afirmó que o pueden ser mejores todavía.
Las razones para usar o podrían ser teóricas o experimentales, por ejemplo, sensibilidad a valores atípicos / documentos de Kabán, o programas ejecutados en datos reales o sintéticos (reproducible, por favor). Un ejemplo o una imagen ayudaría a la intuición de mi laico.
Esta pregunta es un seguimiento de la respuesta de Bob Durrant a Cuando-es-el-vecino-más-significativo-hoy . Como él dice, la elección de dependerá tanto de los datos como de la aplicación; no obstante, informes de experiencia real serían útiles.
Notas agregadas el martes 7 de junio:
Me topé con "Análisis de datos estadísticos basado en la norma L1 y métodos relacionados", Dodge ed., 2002, 454p, isbn 3764369205 - docenas de documentos de conferencia.
¿Alguien puede analizar la concentración de distancia para las características exponenciales iid? Una razón para los exponenciales es que ; otro (no experto) es que es la distribución de entropía máxima 0; un tercero es que algunos conjuntos de datos reales, en particular SIFT, se ven más o menos exponenciales.