En SGD, una época sería la presentación completa de los datos de entrenamiento, y luego habría N actualizaciones de peso por época (si hay N ejemplos de datos en el conjunto de entrenamiento).
Si ahora hacemos mini lotes, digamos en lotes de 20. ¿Una época ahora consiste en actualizaciones de peso N / 20, o una época se 'alarga' en 20 para que contenga la misma cantidad de actualizaciones de peso?
Pregunto esto ya que en un par de artículos el aprendizaje parece ser demasiado rápido para la cantidad de épocas indicadas.