¿Qué distancia usar? Por ejemplo, Manhattan, Euclidiana, Bray-Curtis, etc.

No soy un ecologista comunitario, pero en estos días estoy trabajando en datos de ecología comunitaria.

Lo que no pude entender, aparte de las matemáticas de estas distancias, es el criterio para cada distancia a usar y en qué situaciones se puede aplicar. Por ejemplo, ¿qué usar con los datos de conteo? ¿Cómo convertir el ángulo de pendiente entre dos ubicaciones en una distancia? ¿O la temperatura o la lluvia en dos lugares? ¿Cuáles son los supuestos para cada distancia y cuándo tiene sentido?

distance euclidean

— usuario36491
fuente

La forma confiable de comprender las métricas de distancia, sus suposiciones, significado y aplicabilidad es meditar en sus fórmulas. Ya sabes, la anatomía comparativa ha permitido predecir cómo viven y se comportan los diferentes animales. Además, lea libros / artículos sobre métricas a distancia.

— ttnphns

Nota pedante: Bray – Curtis no es una distancia sino una diferencia.

— Franck Dernoncourt

Respuestas:

Desafortunadamente, en la mayoría de las situaciones no hay una respuesta clara a su pregunta. Es decir, para cualquier aplicación dada, seguramente hay muchas métricas de distancia que producirán respuestas similares y precisas. Teniendo en cuenta que hay docenas, y probablemente cientos, de métricas de distancia válidas que se utilizan activamente, la noción de que puede encontrar la distancia "correcta" no es una forma productiva de pensar sobre el problema de seleccionar una métrica de distancia adecuada.

En cambio, me enfocaría en no elegir la métrica de distancia incorrecta . ¿Desea que su distancia refleje "magnitud absoluta" (por ejemplo, está interesado en usar la distancia para identificar acciones que tienen valores medios similares) o para reflejar la forma general de la respuesta (por ejemplo, precios de acciones que fluctúan de manera similar con el tiempo, pero puede tener valores en bruto completamente diferentes) El primer escenario indicaría distancias como Manhattan y Euclidiana, mientras que el segundo indicaría la distancia de correlación, por ejemplo.

Si conoce la estructura de covarianza de sus datos, entonces la distancia de Mahalanobis es probablemente más apropiada. Para datos puramente categóricos hay muchas distancias propuestas, por ejemplo, distancia de coincidencia. Para la categoría mixta y continua, la distancia de Gower es popular (aunque, en mi opinión, algo teóricamente insatisfactoria).

Finalmente, en mi opinión, su análisis se fortalecerá si demuestra que sus resultados y conclusiones son sólidos para la elección de la métrica de distancia (dentro del subconjunto de distancias apropiadas, por supuesto). Si su análisis cambia drásticamente con cambios sutiles en la métrica de distancia utilizada, se deben realizar más estudios para identificar la razón de la inconsistencia.

— ahfoss
fuente

¿Qué quieres decir con correlation distance? 1- r ?

— ttnphns

@ttnphns sí, es el más común. Vale la pena señalar que para una métrica de similitud dada hay al menos tres fórmulas para convertir a una diferencia: (1) Método de Bhattacharyya , (2) Método de Kolmogorov , y (3) Método de Matusita . Esta es otra área en la que, en la , no creo que la elección sea muy importante, y si lo hiciera, me preocuparía la solidez de mis resultados.

1 - r

$1-r$

ρ \in [- 1, 1]

$\rho \in [-1,1]$

c o s^{- 1} (ρ)

$cos^{-1}(\rho)$

1 - ρ

$1-\rho$

\sqrt{2 - 2 ρ}

$\sqrt{2-2\rho}$

p r a c t i c e

$practice$

— ahfoss

Cita para mi último comentario: Krzanowski (1983). Biometrika, 70 (1), 235-243. Ver página 236.

— ahfoss

OK gracias. Verifique también esta respuesta por favor. Señala el hecho de que r está exactamente relacionado con la distancia euclidiana obtenida en los datos estandarizados (perfiles que se comparan), que reflect overall shape of the responseen sus palabras.

— ttnphns

Buen post. Las dos métricas están relacionadas, como usted señala. Para contextualizar sus puntos en la discusión actual, la diferencia clave es que en las variables de distancia euclidiana no están (generalmente) centradas, pero la fórmula de correlación centra las variables y las escalas por su desviación estándar. Por lo tanto, la correlación es invariante con las transformaciones lineales, mientras que la distancia euclidiana no es necesariamente.

— ahfoss

Elegir la distancia correcta no es una tarea elemental. Cuando deseamos hacer un análisis de conglomerados en un conjunto de datos, pueden aparecer resultados diferentes usando distancias diferentes, por lo que es muy importante tener cuidado en qué distancia elegir, porque podemos hacer un falso buen artefacto que capture bien la variabilidad, pero en realidad sin sentido en nuestro problema.

La distancia euclidiana es apropiada cuando tengo variables numéricas continuas y quiero reflejar distancias absolutas. Esta distancia tiene en cuenta todas las variables y no elimina las redundancias, por lo que si tuviera tres variables que explican lo mismo (están correlacionadas), pondería este efecto en tres. Además, esta distancia no es invariante de escala, por lo que generalmente tengo que escalar previamente para usar la distancia.
Ejemplo de ecología: tenemos diferentes observaciones de muchas localidades, de las cuales los expertos han tomado muestras de algunos factores microbiológicos, físicos y químicos. Queremos encontrar patrones en los ecosistemas. Estos factores tienen una alta correlación, pero sabemos que todos son relevantes, por lo que no queremos eliminar estas redundancias. Utilizamos la distancia euclidiana con datos escalados para evitar el efecto de las unidades.

La distancia de Mahalanobis es apropiada cuando tengo variables numéricas continuas y quiero reflejar distancias absolutas, pero queremos eliminar las redundancias. Si tenemos variables repetidas, su efecto repetitivo desaparecerá.

La distancia familiar Hellinger , Species Profile y Chord es apropiada cuando queremos hacer énfasis en las diferencias entre variables, cuando queremos diferenciar los perfiles. Estas distancias pesan en cantidades totales de cada observación, de tal manera que las distancias son pequeñas cuando variable por variable los individuos son más similares, aunque en magnitudes absolutas fue muy diferente. ¡Cuidado! Estas distancias reflejan muy bien la diferencia entre perfiles, pero perdieron el efecto de magnitud. Podrían ser muy útiles cuando tenemos diferentes tamaños de muestra.
Ejemplo de ecología: queremos estudiar la fauna de muchas tierras y tenemos una matriz de datos de un inventario del gasterópodo (ubicaciones de muestreo en filas y nombres de especies en columnas). La matriz se caracteriza por tener muchos ceros y diferentes magnitudes porque algunas localidades tienen algunas especies y otras tienen otras especies. Podríamos usar la distancia Hellinger.

Bray-Curtis es bastante similar, pero es más apropiado cuando queremos diferenciar perfiles y también tener en cuenta las magnitudes relativas.

— Gonzalo Espinosa Duelo
fuente

Gracias por diferenciar los casos de uso y ejemplos. Encontré esto muy útil en la aplicación a un modelo de clasificación aerodinámica.

— S3DEV

Con respecto a la distancia de Manhattan: Kaufman, Leonard y Peter J. Rousseeuw. "Encontrar grupos en datos: una introducción al análisis de conglomerados". (2005)

Se recomienda el uso de la distancia de Manhattan en aquellas situaciones donde, por ejemplo, una diferencia de 1 en la primera variable y de 3 en la segunda variable es igual a una diferencia de 2 en la primera variable y de 2 en la segunda.

— Franck Dernoncourt
fuente