Eliminar duplicados del conjunto de entrenamiento para la clasificación

9

Digamos que tengo un montón de filas para un problema de clasificación:

X_{1}, . . . X_{norte}, Y

$X_1, ... X_N, Y$

Donde son las características / predictores e es la clase a la que pertenece la combinación de características de la fila. $X_1, ..., X_N$ $Y$

Muchas combinaciones de características y sus clases se repiten en el conjunto de datos, que estoy usando para ajustar un clasificador. ¿Me pregunto si es aceptable eliminar duplicados (básicamente realizo una group by X1 ... XN Yen SQL)? Gracias.

PD:

Esto es solo para un conjunto de datos de presencia binaria donde los anteriores de clase son bastante asimétricos

— cs0815
fuente

13

No, no es aceptable. Las repeticiones son las que proporcionan el peso de la evidencia.

Si quita sus duplicados, un trébol de cuatro hojas es tan significativo como un trébol normal de tres hojas, ya que cada uno ocurrirá una vez, mientras que en la vida real hay un trébol de cuatro hojas por cada 10,000 tréboles regulares.

Incluso si sus antecedentes están "bastante sesgados", como usted dice, el propósito del conjunto de entrenamiento es acumular experiencia de la vida real, lo que no logrará si pierde la información de frecuencia.

— Carlos Accioly
fuente

1

$\frac{1}{4}^{th}$

Cuando despliega ese clasificador en datos completamente nuevos, podría funcionar sorprendentemente mal si no hay muestras similares a las muestras mencionadas anteriormente del 20%.

Argumento : Uno puede argumentar que esta situación apunta a un conjunto de datos defectuoso, pero creo que esto es cierto para las aplicaciones de la vida real.

No es aceptable eliminar duplicados para redes neuronales, modelos bayesianos, etc.

— Rakshit Kothari
fuente

Otra solución factible podría ser ponderar los duplicados en función de su frecuencia de ocurrencia.

— Rakshit Kothari