Estaba leyendo el documento de normalización de lotes (BN) (1) y no entendía la necesidad de usar promedios móviles para rastrear la precisión del modelo e incluso si aceptaba que era lo correcto, no entiendo qué están haciendo exactamente.
Según tengo entendido (que puede estar equivocado), el documento menciona que usa las estadísticas de población en lugar del mini lote, estadísticas una vez que el modelo ha terminado la capacitación. Después de una discusión sobre estimaciones imparciales (que me parece tangencial y no entiendo por qué habla de eso), van y dicen:
En su lugar, utilizando promedios móviles, rastreamos la precisión del modelo a medida que entrena.
Esa es la parte que me confunde. ¿Por qué hacen promedios móviles para estimar la precisión del modelo y sobre qué conjunto de datos?
Por lo general, lo que las personas hacen para estimar la generalización de su modelo, simplemente rastrean el error de validación de su modelo (y potencialmente detienen su descenso de gradiente para regularizarse). Sin embargo, parece que la normalización por lotes está haciendo algo completamente diferente. ¿Alguien puede aclarar qué y por qué está haciendo algo diferente?
1 : Ioffe S. y Szegedy C. (2015),
"Normalización de lotes: acelerar la capacitación en redes profundas mediante la reducción del cambio de covariable interno",
Actas de la 32ª Conferencia Internacional sobre Aprendizaje Automático , Lille, Francia, 2015.
Journal of Machine Learning Research: W&CP volumen 37