Redes neuronales: ¿una época en SGD es lo mismo que una época en mini-lote?

8

En SGD, una época sería la presentación completa de los datos de entrenamiento, y luego habría N actualizaciones de peso por época (si hay N ejemplos de datos en el conjunto de entrenamiento).

Si ahora hacemos mini lotes, digamos en lotes de 20. ¿Una época ahora consiste en actualizaciones de peso N / 20, o una época se 'alarga' en 20 para que contenga la misma cantidad de actualizaciones de peso?

Pregunto esto ya que en un par de artículos el aprendizaje parece ser demasiado rápido para la cantidad de épocas indicadas.

machine-learning neural-networks

— James
fuente

Posible duplicado del tamaño del lote

— Franck Dernoncourt

La pregunta es más sobre la convención, es decir, si alguien declara que ha entrenado una red durante 10 épocas utilizando mini lotes de 20, ¿significa esto que ha habido 10 * N actualizaciones de peso, o 10 * N / 20?

— James

Ya veo, perdón por la confusión, tal vez stats.stackexchange.com/a/164875/12359 responde a tu pregunta.

— Franck Dernoncourt

6

En la terminología de la red neuronal:

una época = un pase hacia adelante y un pase hacia atrás de todos los ejemplos de entrenamiento
tamaño de lote = el número de ejemplos de entrenamiento en un pase hacia adelante / hacia atrás. Cuanto mayor sea el tamaño del lote, más espacio de memoria necesitará.
número de iteraciones = número de pases, cada pase usando [tamaño de lote] número de ejemplos. Para ser claros, un pase = un pase hacia adelante + un pase hacia atrás (no contamos el pase hacia adelante y hacia atrás como dos pases diferentes).

Ejemplo: si tiene 1000 ejemplos de entrenamiento y el tamaño de su lote es 500, se necesitarán 2 iteraciones para completar 1 época.

— Franck Dernoncourt
fuente

1

La respuesta de Franck no es correcta. Se necesita algo de instinto para decir esto porque tiene muchas más repeticiones que yo y muchas personas ya votaron por él.

Epoch es una palabra que significa un solo paso a través de un conjunto de entrenamiento, no todos los ejemplos de entrenamiento.

Entonces sí. Si hacemos mini lotes GD en lugar de un lote GD, digamos en lotes de 20, una época ahora consiste en actualizaciones de peso N / 20. N es el número total de muestras.

Para ser detallado, en un descenso de gradiente por lotes, un solo paso a través del entrenamiento le permite tomar solo un paso de descenso de gradiente. Con el descenso de gradiente mini-lote (tamaño de lote = 5,000), una sola pasada a través del conjunto de entrenamiento, que es una época, le permite tomar 5,000 pasos de descenso de gradiente.

— Aerin
fuente