En una clasificación simple, tenemos dos clases: clase-0 y clase-1. En algunos datos solo tengo valores para la clase 1, por lo que ninguno para la clase 0. Ahora estoy pensando en hacer un modelo para modelar los datos para la clase 1. Entonces, cuando llegan nuevos datos, este modelo se aplica a los nuevos datos y encuentra una probabilidad que dice cuán probable es que esos nuevos datos se ajusten a este modelo. Luego, comparando con un umbral, puedo filtrar datos inapropiados.
Mis preguntas son:
- ¿Es esta una buena manera de trabajar con tales problemas?
- ¿Se puede usar un clasificador RandomForest para este caso? ¿Necesito agregar datos artificiales para la clase 0, que espero que el clasificador considere como ruido?
- ¿Alguna otra idea puede ayudar para este problema?