¿Qué capa consume más tiempo en el entrenamiento de CNN? Capas de convolución vs capas FC

11

En la red neuronal convolucional, ¿qué capa consume el máximo tiempo en entrenamiento? ¿Capas de convolución o capas completamente conectadas? Podemos tomar la arquitectura AlexNet para entender esto. Quiero ver la ruptura del tiempo del proceso de capacitación. Quiero una comparación de tiempo relativa para que podamos tomar cualquier configuración de GPU constante.

neural-networks deep-learning convolutional-neural-networks

— Ruchit Dalwadi
fuente

11

NOTA: Hice estos cálculos de manera especulativa, por lo que algunos errores podrían haber aparecido. Informe de dichos errores para que pueda corregirlos.

En general, en cualquier CNN, el tiempo máximo de entrenamiento va en la retropropagación de errores en la capa totalmente conectada (depende del tamaño de la imagen). También la memoria máxima también está ocupada por ellos. Aquí hay una diapositiva de Stanford sobre los parámetros de la red VGG:

Claramente, puede ver que las capas completamente conectadas contribuyen a aproximadamente el 90% de los parámetros. Entonces la memoria máxima está ocupada por ellos.

$(3*3*3)$ $(3*3*3)$ $224*224$ $224*224*(3*3*3)$ $64$ $224*224$ $64*224*224*(3*3*3) \approx 87*10^6$

$56*56*256$ $56*56$ $(3*3*256)$ $56*56$ $256 * 56 * 56 * (3*3*256) \approx 1850 *10^6$

$stride = 1$

$channels_{output} * (pixelOutput_{height} * pixelOutput_{width}) * (filter_{height} * filter_{width} * channels_{input})$

Gracias a las GPU rápidas, podemos manejar fácilmente estos enormes cálculos. Pero en las capas FC, se debe cargar toda la matriz, lo que causa problemas de memoria, que generalmente no es el caso de las capas convolucionales, por lo que la capacitación de las capas convolucionales aún es fácil. Además, todos estos deben cargarse en la memoria de la GPU y no en la RAM de la CPU.

También aquí está la tabla de parámetros de AlexNet:

Y aquí hay una comparación de rendimiento de varias arquitecturas de CNN:

Le sugiero que consulte la CS231n Lecture 9 de la Universidad de Stanford para comprender mejor los rincones y grietas de las arquitecturas de CNN.

— DuttaA
fuente

4

Como CNN contiene operación de convolución, pero DNN usa divergencia constructiva para el entrenamiento. CNN es más complejo en términos de notación Big O.

Para referencia:

1) Complejidad de tiempo de CNN
https://arxiv.org/pdf/1412.1710.pdf

2) Capas completamente conectadas / Red neuronal profunda (DNN) / Perceptrón multicapa (MLP) https://www.researchgate.net/post/What_is_the_time_complexity_of_Multilayer_Perceptron_MLP_and_other_neural_networks

— ketul parikh
fuente