Espero que los siguientes extractos proporcionen una idea de cuál será mi pregunta. Estos son de http://neuralnetworksanddeeplearning.com/chap3.html
El aprendizaje luego se ralentiza gradualmente. Finalmente, alrededor de la época 280, la precisión de la clasificación prácticamente deja de mejorar. Las épocas posteriores simplemente ven pequeñas fluctuaciones estocásticas cercanas al valor de la precisión en la época 280. Compare esto con el gráfico anterior, donde el costo asociado a los datos de entrenamiento continúa disminuyendo suavemente. Si solo observamos ese costo, parece que nuestro modelo todavía está "mejorando". Pero los resultados de la precisión de la prueba muestran que la mejora es una ilusión. Al igual que el modelo que no le gustó a Fermi, lo que nuestra red aprende después de la época 280 ya no se generaliza a los datos de prueba. Y entonces no es útil aprender. Decimos que la red está sobreajustada o sobreentrenada más allá de la época 280.
Estamos entrenando una red neuronal y el costo (en datos de entrenamiento) está disminuyendo hasta la época 400, pero la precisión de la clasificación se está volviendo estática (salvo algunas fluctuaciones estocásticas) después de la época 280, por lo que concluimos que el modelo se está ajustando demasiado a los datos de entrenamiento posteriores a la época 280.
Podemos ver que el costo de los datos de la prueba mejora hasta alrededor de la época 15, pero después de eso en realidad comienza a empeorar, a pesar de que el costo de los datos de capacitación continúa mejorando. Esta es otra señal de que nuestro modelo está sobreajustado. Sin embargo, plantea un enigma, ¿cuál es si deberíamos considerar la época 15 o la época 280 como el punto en el que el sobreajuste está llegando a dominar el aprendizaje? Desde un punto de vista práctico, lo que realmente nos importa es mejorar la precisión de la clasificación en los datos de la prueba, mientras que el costo de los datos de la prueba no es más que un proxy para la precisión de la clasificación. Por lo tanto, tiene más sentido considerar la época 280 como el punto más allá del cual el sobreajuste domina el aprendizaje en nuestra red neuronal.
A diferencia de la precisión de la clasificación en los datos de la prueba en comparación con el costo de capacitación anteriormente, ahora estamos colocando el costo en los datos de la prueba contra el costo de la capacitación.
Luego, el libro continúa explicando por qué 280 es la época correcta donde comenzó el sobreajuste. Eso es con lo que tengo un problema. No puedo entender esto.
Le estamos pidiendo al modelo que minimice el costo y, por lo tanto, el costo es la métrica que utiliza como una medida de su propia fuerza para clasificar correctamente. Si consideramos que 280 es la época correcta en la que ha comenzado el sobreajuste, ¿no hemos creado de alguna manera un modelo sesgado que, aunque es un mejor clasificador en los datos de prueba en particular, no obstante, está tomando decisiones con poca confianza y, por lo tanto, es más propenso a desviarse? de los resultados que se muestran en los datos de prueba?