Supongamos que quiero aprender un clasificador que predice si un correo electrónico es spam. Y supongamos que solo el 1% de los correos electrónicos son spam.
Lo más fácil sería aprender el clasificador trivial que dice que ninguno de los correos electrónicos son spam. Este clasificador nos daría un 99% de precisión, pero no aprendería nada interesante y tendría una tasa de 100% de falsos negativos.
Para resolver este problema, la gente me ha dicho que "reduzca la muestra" o que aprenda en un subconjunto de datos donde el 50% de los ejemplos son spam y el 50% no lo son.
Pero estoy preocupado por este enfoque, ya que una vez que construimos este clasificador y comenzamos a usarlo en un corpus real de correos electrónicos (a diferencia de un conjunto de prueba 50/50), puede predecir que muchos correos electrónicos son spam cuando ' re realmente no. Solo porque está acostumbrado a ver mucho más spam del que realmente hay en el conjunto de datos.
Entonces, ¿cómo solucionamos este problema?
("Upsampling" o repetir los ejemplos de entrenamiento positivo varias veces, por lo que el 50% de los datos son ejemplos de entrenamiento positivos, parece sufrir problemas similares).