Red neuronal sobreadaptada

Aprendí que se puede detectar el sobreajuste trazando el error de entrenamiento y el error de prueba en comparación con las épocas. Como en:

ingrese la descripción de la imagen aquí

He estado leyendo esta publicación de blog donde dicen que la red neuronal, net5 es demasiado adecuada y proporcionan esta cifra:

ingrese la descripción de la imagen aquí

Lo cual es extraño para mí, ya que el error de validación y entrenamiento de net5 sigue cayendo (pero lentamente).

¿Por qué dirían que es demasiado adecuado? ¿Es porque el error de validación está estancado?

neural-networks overfitting

— Olivier_s_j
fuente

El sobreajuste no es solo cuando el error de prueba aumenta con las iteraciones. Decimos que hay un sobreajuste cuando el rendimiento en el conjunto de prueba es mucho más bajo que el rendimiento en el conjunto del tren (porque el modelo se ajusta demasiado a los datos vistos y no se generaliza bien).

En su segunda trama, podemos ver que el rendimiento en los conjuntos de prueba es casi 10 veces menor que el rendimiento en los conjuntos de trenes, lo que puede considerarse como un ajuste excesivo.

Casi siempre se da el caso de que un modelo funciona mejor en el conjunto de entrenamiento que en el conjunto de prueba, ya que el modelo ya ha visto los datos. Sin embargo, un buen modelo debería ser capaz de generalizar bien los datos no vistos y luego reducir la brecha entre el rendimiento en el tren y los conjuntos de prueba.

Su primer ejemplo de sobreajuste se puede resolver deteniéndose temprano, por ejemplo. Su segundo ejemplo puede resolverse mediante la regularización, corrompiendo la entrada, etc.

— jpl
fuente

¿Por qué el sobreajuste es malo en ese caso? Podemos ver que funciona mejor en el conjunto de pruebas, así que generalice mejor, ¿verdad?

— Fractale

@Fractale Hay muchos otros aspectos a considerar más allá del paso de capacitación. Por ejemplo, otro conjunto de hiperparámetros puede dar como resultado un mejor error de prueba y un peor error de entrenamiento (regularización más fuerte). Por lo tanto, dicha configuración daría como resultado menos sobreajuste. El ajuste "sobre" siempre implica una comparación. Cambiar algo tal que resulte en un error de entrenamiento considerablemente mejor pero un error de prueba peor o no significativamente mejor es un ajuste excesivo de los ejemplos de entrenamiento, en comparación con la configuración original. El "cambio" puede ser cualquier cosa: la cantidad de iteraciones de entrenamiento, hiperparámetros, etc.

— isarandi