Recientemente me encontré con un artículo que propone usar un clasificador k-NN en un conjunto de datos específico. Los autores utilizaron todas las muestras de datos disponibles para realizar la validación cruzada de k veces para diferentes valores de k e informar los resultados de la validación cruzada de la mejor configuración de hiperparámetro.
Que yo sepa, este resultado está sesgado, y deberían haber retenido un conjunto de pruebas separado para obtener una estimación de precisión en las muestras no utilizadas para realizar la optimización de hiperparámetros.
Estoy en lo cierto? ¿Puede proporcionar algunas referencias (preferiblemente trabajos de investigación) que describan este mal uso de la validación cruzada?