Tengo un conjunto de datos X que tiene 10 dimensiones, 4 de las cuales son valores discretos. De hecho, esas 4 variables discretas son ordinales, es decir, un valor más alto implica una semántica más alta / mejor.
2 de estas variables discretas son categóricas en el sentido de que para cada una de estas variables, la distancia, por ejemplo, de 11 a 12 no es la misma que la distancia de 5 a 6. Mientras que un valor de variable más alto implica un mayor en realidad, la escala es no necesariamente lineal (de hecho, no está realmente definido).
Mi pregunta es:
- ¿Es una buena idea aplicar un algoritmo de agrupamiento común (p. Ej., K-Means y luego Gaussian Mixture (GMM)) a este conjunto de datos que contiene variables discretas y continuas?
Si no:
- ¿Debo eliminar las variables discretas y enfocarme solo en las continuas?
- ¿Debería mejor discretizar los continuos y usar un algoritmo de agrupamiento para datos discretos?