La mayoría de los algoritmos clásicos de agrupación y reducción de dimensionalidad (agrupación jerárquica, análisis de componentes principales, k-means, mapas autoorganizados ...) están diseñados específicamente para datos numéricos, y sus datos de entrada se ven como puntos en un espacio euclidiano.
Por supuesto, este es un problema, ya que muchas preguntas del mundo real involucran datos que son mixtos: por ejemplo, si estudiamos autobuses, la altura, la longitud y el tamaño del motor serán números, pero también podría interesarnos el color (variable categórica: azul / rojo / verde ...) y clases de capacidad (variable ordenada: pequeña / mediana / gran capacidad). Específicamente, podríamos querer estudiar estos diferentes tipos de variables simultáneamente.
Existen varios métodos para extender los algos de agrupamiento clásicos a datos mixtos, por ejemplo, utilizando una diferencia de Gower para conectarse al agrupamiento jerárquico o al escalado multidimensional, u otros métodos que toman una matriz de distancia como entrada. O, por ejemplo, este método, una extensión de SOM a datos mixtos.
Mi pregunta es: ¿por qué no podemos usar la distancia euclidiana en variables mixtas? o por qué es malo hacerlo? ¿Por qué no podemos simplemente codificar ficticiamente las variables categóricas, normalizar todas las variables para que tengan un peso similar en la distancia entre las observaciones y ejecutar los algos habituales en estas matrices?
Es realmente fácil y nunca se hace, así que supongo que está muy mal, pero ¿alguien puede decirme por qué? ¿Y / o darme algunas referencias? Gracias