Tengo un modelo de red neuronal profunda y necesito entrenarlo en mi conjunto de datos que consta de aproximadamente 100,000 ejemplos, mis datos de validación contienen aproximadamente 1000 ejemplos. Debido a que lleva tiempo entrenar cada ejemplo (alrededor de 0.5s para cada ejemplo) y para evitar el sobreajuste, me gustaría aplicar una detención temprana para evitar cálculos innecesarios. Pero no estoy seguro de cómo entrenar adecuadamente mi red neuronal con parada temprana, varias cosas que no entiendo ahora:
¿Cuál sería una buena frecuencia de validación? ¿Debo verificar mi modelo en los datos de validación al final de cada época? (El tamaño de mi lote es 1)
¿Es el caso de que las primeras épocas podrían dar un peor resultado antes de que comience a converger a un mejor valor? En ese caso, ¿deberíamos capacitar a nuestra red durante varias épocas antes de verificar la detención temprana?
¿Cómo manejar el caso cuando la pérdida de validación puede subir y bajar? En ese caso, la detención temprana podría evitar que mi modelo aprenda más, ¿verdad?
Gracias de antemano.