Tengo 2 conjuntos de datos, uno con instancias positivas de lo que me gustaría detectar y otro con instancias sin etiquetar. ¿Qué métodos puedo usar?
Como ejemplo, supongamos que queremos entender detectar correo electrónico no deseado en función de algunas características de correo electrónico estructurado. Tenemos un conjunto de datos de 10000 correos electrónicos no deseados y un conjunto de datos de 100000 correos electrónicos para los que no sabemos si son spam o no.
¿Cómo podemos abordar este problema (sin etiquetar manualmente ninguno de los datos sin etiquetar)?
¿Qué podemos hacer si tenemos información adicional sobre la proporción de spam en los datos sin etiquetar (es decir, qué sucede si estimamos que entre el 20 y el 40% de los 100000 correos electrónicos sin etiquetar son spam)?