Elegir la distancia correcta no es una tarea elemental. Cuando deseamos hacer un análisis de conglomerados en un conjunto de datos, pueden aparecer resultados diferentes usando distancias diferentes, por lo que es muy importante tener cuidado en qué distancia elegir, porque podemos hacer un falso buen artefacto que capture bien la variabilidad, pero en realidad sin sentido en nuestro problema.
La distancia euclidiana es apropiada cuando tengo variables numéricas continuas y quiero reflejar distancias absolutas. Esta distancia tiene en cuenta todas las variables y no elimina las redundancias, por lo que si tuviera tres variables que explican lo mismo (están correlacionadas), pondería este efecto en tres. Además, esta distancia no es invariante de escala, por lo que generalmente tengo que escalar previamente para usar la distancia.
Ejemplo de ecología: tenemos diferentes observaciones de muchas localidades, de las cuales los expertos han tomado muestras de algunos factores microbiológicos, físicos y químicos. Queremos encontrar patrones en los ecosistemas. Estos factores tienen una alta correlación, pero sabemos que todos son relevantes, por lo que no queremos eliminar estas redundancias. Utilizamos la distancia euclidiana con datos escalados para evitar el efecto de las unidades.
La distancia de Mahalanobis es apropiada cuando tengo variables numéricas continuas y quiero reflejar distancias absolutas, pero queremos eliminar las redundancias. Si tenemos variables repetidas, su efecto repetitivo desaparecerá.
La distancia familiar Hellinger , Species Profile y Chord es apropiada cuando queremos hacer énfasis en las diferencias entre variables, cuando queremos diferenciar los perfiles. Estas distancias pesan en cantidades totales de cada observación, de tal manera que las distancias son pequeñas cuando variable por variable los individuos son más similares, aunque en magnitudes absolutas fue muy diferente. ¡Cuidado! Estas distancias reflejan muy bien la diferencia entre perfiles, pero perdieron el efecto de magnitud. Podrían ser muy útiles cuando tenemos diferentes tamaños de muestra.
Ejemplo de ecología: queremos estudiar la fauna de muchas tierras y tenemos una matriz de datos de un inventario del gasterópodo (ubicaciones de muestreo en filas y nombres de especies en columnas). La matriz se caracteriza por tener muchos ceros y diferentes magnitudes porque algunas localidades tienen algunas especies y otras tienen otras especies. Podríamos usar la distancia Hellinger.
Bray-Curtis es bastante similar, pero es más apropiado cuando queremos diferenciar perfiles y también tener en cuenta las magnitudes relativas.