Digamos que tengo un montón de filas para un problema de clasificación:
Donde son las características / predictores e Y es la clase a la que pertenece la combinación de características de la fila.
Muchas combinaciones de características y sus clases se repiten en el conjunto de datos, que estoy usando para ajustar un clasificador. ¿Me pregunto si es aceptable eliminar duplicados (básicamente realizo una group by X1 ... XN Y
en SQL)? Gracias.
PD:
Esto es solo para un conjunto de datos de presencia binaria donde los anteriores de clase son bastante asimétricos