Las competiciones de Kaggle determinan las clasificaciones finales en función de un conjunto de pruebas extendido.
Un conjunto de prueba extendido es una muestra; puede no ser representativo de la población que se está modelando. Dado que cada presentación es como una hipótesis, el algoritmo que ganó la competencia puede, por casualidad, haber terminado mejor el conjunto de pruebas que los demás. En otras palabras, si se seleccionara un conjunto de pruebas diferente y se repitiera la competencia, ¿la clasificación seguiría siendo la misma?
Para la corporación patrocinadora, esto realmente no importa (probablemente las 20 presentaciones principales mejorarían su línea de base). Aunque, irónicamente, podrían terminar usando un modelo de primer orden que es peor que los otros cinco primeros. Pero, para los participantes de la competencia, parece que Kaggle es en última instancia un juego de azar: ¡no se necesita suerte para encontrar la solución correcta, se necesita encontrar la que coincida con el conjunto de prueba!
¿Es posible cambiar la competencia para que ganen todos los mejores equipos que no pueden distinguirse estadísticamente? O, en este grupo, ¿podría ganar el modelo más parsimonioso o computacionalmente barato?