En On Large-Batch Training for Deep Learning: Generalization Gap y Sharp Minima hay un par de declaraciones interesantes:
Se ha observado en la práctica que cuando se usa un lote más grande hay una degradación en la calidad del modelo, medida por su capacidad de generalizar [...]
Los métodos de lotes grandes tienden a converger en minimizadores agudos de las funciones de entrenamiento y prueba, y como es bien sabido, los mínimos agudos conducen a una generalización más pobre. norte. Por el contrario, los métodos de lotes pequeños convergen consistentemente en minimizadores planos, y nuestros experimentos respaldan una opinión común de que esto se debe al ruido inherente en la estimación del gradiente.
De mi tesis de maestría : Por lo tanto, la elección del tamaño del mini lote influye:
- Tiempo de entrenamiento hasta la convergencia : parece haber un punto óptimo. Si el tamaño del lote es muy pequeño (por ejemplo, 8), esta vez aumenta. Si el tamaño del lote es enorme, también es más alto que el mínimo.
- Tiempo de entrenamiento por época : más grande computa más rápido (es eficiente)
- Calidad del modelo resultante : cuanto menor sea, mejor debido a una mejor generalización (?)
Es importante tener en cuenta las interacciones de hiperparámetros: el tamaño de lote puede interactuar con otros hiperparámetros, especialmente la tasa de aprendizaje. En algunos experimentos, esta interacción puede dificultar aislar el efecto del tamaño del lote solo en la calidad del modelo. Otra interacción fuerte es la detención temprana para la regularización.
Ver también