Tengo un conjunto de datos de una bolsa de palabras. Elijo aleatoriamente algunos puntos y los uso para probar y los otros se usan para entrenar.
- caso (1) Simplemente tomo cada punto de datos del conjunto de prueba y lo clasifico como teniendo la misma etiqueta de clase que su punto más cercano del conjunto de trenes.
- caso (2) Hago la clasificación usando cualquier clasificador supervisado conocido.
Siempre obtengo una mejor tasa de reconocimiento en el caso (1). Es decir, no aprender nada, ¡es mejor que usar cualquier aprendizaje supervisado para este conjunto de datos (y otros)! ¿Es esa una situación frecuente?