En aras de la simplicidad, digamos que estoy trabajando en el ejemplo clásico de correos electrónicos no deseados / no deseados.
Tengo un conjunto de 20000 correos electrónicos. De estos, sé que 2000 son spam, pero no tengo ningún ejemplo de correos electrónicos que no sean spam. Me gustaría predecir si los 18000 restantes son spam o no. Idealmente, el resultado que estoy buscando es una probabilidad (o un valor p) de que el correo electrónico sea spam.
¿Qué algoritmo (s) puedo usar para hacer una predicción sensata en esta situación?
En este momento, estoy pensando en un método basado en la distancia que me diga cuán similar es mi correo electrónico a un correo no deseado conocido. ¿Que opciones tengo?
En términos más generales, ¿puedo usar un método de aprendizaje supervisado o necesito necesariamente tener casos negativos en mi conjunto de capacitación para hacerlo? ¿Estoy limitado a enfoques de aprendizaje no supervisados? ¿Qué pasa con los métodos semi-supervisados?