Si bien los resultados del conjunto de prueba privado no se pueden utilizar para refinar aún más el modelo, ¿no se está seleccionando el modelo de una gran cantidad de modelos basados en los resultados del conjunto de prueba privado? ¿No terminaría usted, solo a través de ese proceso, sobreadaptado al conjunto de prueba privado?
De acuerdo con "Pseudo-Matemáticas y charlatanismo financiero: los efectos del sobreajuste de backtest en el rendimiento fuera de la muestra" por Bailey et.al. es relativamente fácil "sobreajustar" al seleccionar lo mejor de una gran cantidad de modelos evaluados en el mismo conjunto de datos. ¿No está sucediendo eso con la tabla de clasificación privada de Kaggle?
- ¿Cuáles son las justificaciones estadísticas para los modelos con mejor rendimiento en la tabla de clasificación privada que son los modelos que generalizan los datos mejores a los de muestra?
- ¿Las compañías realmente terminan usando los modelos ganadores, o la tabla de clasificación privada está allí solo para proporcionar las "reglas del juego", y las compañías están realmente más interesadas en la idea que surge de la discusión del problema?