¿Es la tabla de clasificación privada de Kaggle un buen predictor del rendimiento fuera de la muestra del modelo ganador?

Si bien los resultados del conjunto de prueba privado no se pueden utilizar para refinar aún más el modelo, ¿no se está seleccionando el modelo de una gran cantidad de modelos basados en los resultados del conjunto de prueba privado? ¿No terminaría usted, solo a través de ese proceso, sobreadaptado al conjunto de prueba privado?

De acuerdo con "Pseudo-Matemáticas y charlatanismo financiero: los efectos del sobreajuste de backtest en el rendimiento fuera de la muestra" por Bailey et.al. es relativamente fácil "sobreajustar" al seleccionar lo mejor de una gran cantidad de modelos evaluados en el mismo conjunto de datos. ¿No está sucediendo eso con la tabla de clasificación privada de Kaggle?

¿Cuáles son las justificaciones estadísticas para los modelos con mejor rendimiento en la tabla de clasificación privada que son los modelos que generalizan los datos mejores a los de muestra?
¿Las compañías realmente terminan usando los modelos ganadores, o la tabla de clasificación privada está allí solo para proporcionar las "reglas del juego", y las compañías están realmente más interesadas en la idea que surge de la discusión del problema?

model-selection overfitting out-of-sample

— rinspy
fuente

Algo relacionado: stats.stackexchange.com/q/235591

— Kodiologist

Podrías ver la diferencia entre los puntajes privados y públicos. Se podría argumentar que un modelo no sobreajustado debería lograr un rendimiento similar en ambos conjuntos de datos.

— shadowtalker

@shadowtalker Esa sería una buena forma de detectar el sobreajuste, pero lo que realmente nos interesa es el poder predictivo fuera del modelo del modelo, no el grado de sobreajuste. Un modelo sobreajustado, es decir, uno que funciona mucho mejor dentro de la muestra que fuera de la muestra, puede tener un mejor rendimiento fuera de la muestra que un modelo que no está sobreajustado. No tengo una referencia a mano, pero creo que a menudo es el caso en dominios complejos, por ejemplo, visión por computadora, cuando se usan modelos complejos, por ejemplo, CNN.

— rinspy

Bueno, los puntos que presenta son justos, sin embargo, creo que hay un problema mucho más real con las personas que se ajustan en exceso en la clasificación pública .

Esto puede suceder cuando se hace más o menos 100 presentaciones, el equipo de prueba pública muy probable que desangrarse a su selección hiperparámetro y por lo tanto sobreajuste. Creo que la tabla de clasificación privada es necesaria a ese respecto.

— M Sef
fuente