Así que he leído algunas publicaciones sobre por qué siempre se debe evitar el binning . Una referencia popular para esa afirmación es este enlace .
La escapada principal es que los puntos de agrupamiento (o puntos de corte) son bastante arbitrarios, así como la pérdida de información resultante, y que se deben preferir las splines.
Sin embargo, actualmente estoy trabajando con la API de Spotify, que tiene un montón de medidas continuas de confianza para varias de sus características.
Mirando una característica, "instrumentalidad", las referencias establecen:
Predice si una pista no contiene voces. Los sonidos "Ooh" y "aah" se tratan como instrumentales en este contexto. Las pistas de rap o palabras habladas son claramente "vocales". Cuanto más cercano sea el valor de instrumentalidad a 1.0, mayor será la probabilidad de que la pista no contenga contenido vocal. Los valores superiores a 0.5 están destinados a representar pistas instrumentales , pero la confianza es mayor a medida que el valor se acerca a 1.0.
Dada la distribución muy sesgada hacia la izquierda de mis datos (aproximadamente el 90% de las muestras están apenas por encima de 0, me pareció razonable transformar esta característica en dos características categóricas: "instrumental" (todas las muestras con un valor superior a 0.5) y "no instrumental" "(para todas las muestras con un valor inferior a 0,5).
¿Esto esta mal? ¿Y cuál habría sido la alternativa, cuando casi todos mis datos (continuos) giran en torno a un solo valor? Por lo que entiendo sobre splines, tampoco funcionarían con problemas de clasificación (lo que estoy haciendo).