Después de un año y medio, vuelvo a mi respuesta porque mi respuesta anterior era incorrecta.
El tamaño del lote afecta el aprendizaje de manera significativa. Lo que sucede cuando coloca un lote a través de su red es que promedia los gradientes. El concepto es que si el tamaño de su lote es lo suficientemente grande, esto proporcionará una estimación lo suficientemente estable de cuál sería el gradiente del conjunto de datos completo. Al tomar muestras de su conjunto de datos, estima el gradiente mientras reduce significativamente el costo computacional. Cuanto más bajo vaya, menos preciso será su estimación, sin embargo, en algunos casos, estos gradientes ruidosos pueden ayudar a escapar de los mínimos locales. Cuando es demasiado bajo, los pesos de su red pueden saltar si sus datos son ruidosos y es posible que no puedan aprender o converjan muy lentamente, lo que afecta negativamente el tiempo total de cálculo.
Otra ventaja del procesamiento por lotes es para el cálculo de GPU, las GPU son muy buenas para paralelizar los cálculos que suceden en redes neuronales si parte del cálculo es el mismo (por ejemplo, multiplicación de matriz repetida sobre la misma matriz de peso de su red). Esto significa que un tamaño de lote de 16 tomará menos del doble de la cantidad de un tamaño de lote de 8.
En el caso de que necesite tamaños de lote más grandes pero no se ajuste a su GPU, puede alimentar un lote pequeño, guardar las estimaciones de gradiente y alimentar uno o más lotes, y luego hacer una actualización de peso. De esta manera obtienes un gradiente más estable porque aumentaste el tamaño de tu lote virtual.
RESPUESTA INCORRECTA, ANTIGUA: [[[No, el tamaño del lote en promedio solo influye en la velocidad de su aprendizaje, no en la calidad del aprendizaje. Tampoco es necesario que los tamaños de lote sean potencias de 2, aunque entiendo que ciertos paquetes solo permiten potencias de 2. Debe intentar obtener su tamaño de lote lo más alto posible que aún se ajuste a la memoria de su GPU para obtener la máxima velocidad posible .]]]]