Consideremos el problema de clasificar el conjunto de datos MNIST.
Según la página web MNIST de Yann LeCun , 'Ciresan et al.' obtuvo una tasa de error del 0.23% en el conjunto de prueba MNIST usando la red neuronal convolucional.
Denotemos el conjunto de entrenamiento MNIST como , el conjunto de prueba MNIST como , la hipótesis final que obtuvieron usando como , y su tasa de error en el conjunto de prueba MNIST usando como .
Desde su punto de vista, dado que es un conjunto de pruebas muestreado aleatoriamente desde el espacio de entrada independientemente de , pueden insistir en que el rendimiento de error fuera de la muestra de su hipótesis final se limite de la siguiente manera de la desigualdad P de Hoeffding [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ] donde N t e s t = | D t e s t | .
En otras palabras, al menos probabilidad , E o u t ( h 1 ) ≤ E t e s t ( h 1 ) + √
Consideremos otro punto de vista. Supongamos que alguna persona quiere clasificar bien el conjunto de pruebas MNIST. Así que primero miró la página web MNIST de Yann LeCun , y encontró los siguientes resultados obtenidos por otras personas usando 8 modelos diferentes,
y eligió su modelo que mejor se desempeñó en el conjunto de pruebas MNIST entre 8 modelos.
Para él, el proceso de aprendizaje consistía en elegir una hipótesis que funcionara mejor en el conjunto de pruebas D t e s t de un conjunto de hipótesis H t r a i n e.
Por lo tanto, el error en el conjunto de prueba es un error 'en muestra' para este proceso de aprendizaje, por lo que puede aplicar el límite de VC para conjuntos de hipótesis finitas como la siguiente desigualdad. P [ | E o u t ( g ) - E i n ( g ) | < ϵ ] ≥ 1 - 2 | H t r a i n e d | e 2 ϵ 2 N
En otras palabras, al menos probabilidad , E o u t
Este resultado implica que podría haber un sobreajuste en el conjunto de prueba si seleccionamos el modelo que funciona mejor entre varios modelos.
Sin embargo, es obvio que estas dos desigualdades son incompatibles.
¿Dónde estoy haciendo mal? ¿Cuál está bien y cuál está mal?
Si esto último es incorrecto, ¿cuál es la forma correcta de aplicar el límite de VC para conjuntos de hipótesis finitas en este caso?