Estoy tratando de buscar un buen argumento sobre por qué uno usaría la distancia de Manhattan sobre la distancia euclidiana en Machine Learning.
Lo más cercano que encontré a un buen argumento hasta ahora está en esta conferencia del MIT .
A las 36:15 puede ver en las diapositivas la siguiente declaración:
"Por lo general, use métrica euclidiana; Manhattan puede ser apropiado si las diferentes dimensiones no son comparables. "
Poco después de que el profesor diga que, debido a que el número de patas de un reptil varía de 0 a 4 (mientras que las otras características son binarias, solo varían de 0 a 1), la característica de "número de patas" terminará teniendo un valor mucho mayor peso si se usa la distancia euclidiana. Efectivamente, eso es cierto. Pero uno también tendría ese problema si usara la distancia de Manhattan (solo que el problema se mitigaría ligeramente porque no cuadramos la diferencia como lo hacemos en la distancia euclidiana).
Una mejor manera de resolver el problema anterior sería normalizar la función "número de tramos" para que su valor siempre esté entre 0 y 1.
Por lo tanto, dado que hay una mejor manera de resolver el problema, parecía que el argumento de utilizar la distancia de Manhattan en este caso carecía de un punto más fuerte, al menos en mi opinión.
¿Alguien sabe realmente por qué y cuándo alguien usaría la distancia de Manhattan sobre Euclidiana? ¿Alguien puede darme un ejemplo en el que el uso de la distancia de Manhattan arrojaría mejores resultados?