Cuando implementé el mini lote de gradiente decente, solo promedié los gradientes de todos los ejemplos en el lote de capacitación. Sin embargo, me di cuenta de que ahora la tasa de aprendizaje óptima es mucho más alta que para el gradiente en línea decente. Mi intuición es que esto se debe a que el gradiente promedio es menos ruidoso y, por lo tanto, podría seguirse más rápido. Entonces, tal vez también tenga sentido solo resumir los gradientes de un lote. Los valores pueden ser positivos y negativos de todos modos.
Sé que es solo un factor constante que se puede equilibrar usando la tasa de aprendizaje. Pero me pregunto cuál es la definición que los científicos han acordado para poder reproducir resultados de documentos de redes neuronales.
¿Normalmente se dividen los gradientes sumados de un lote por el tamaño del lote?