¿Cómo determinar el número de operadores convolucionales en CNN?

En la tarea de visión por computadora, como la clasificación de objetos, con las redes neuronales convolucionales (CNN), la red proporciona un rendimiento atractivo. Pero no estoy seguro de cómo configurar los parámetros en capas convolucionales. Por ejemplo, una imagen en escala de grises ( 480x480), la primera capa convolucional puede usar un operador convolucional como 11x11x10, donde el número 10 significa el número de operadores convolucionales.

La pregunta es cómo determinar el número de operadores convolucionales en CNN.

— Zhi Lu
fuente

Supongo que cuando dices que 11x11x10quieres decir que tienes una capa con 10, 11x11 filtros. Por lo tanto, el número de convoluciones que realizará es simplemente 10, convolución discreta 2D por filtro en su banco de filtros. Entonces, digamos que tiene una red:

480x480x1    # your input image of 1 channel
11x11x10     # your first filter bank of 10, 11x11 filters
5x5x20       # your second filter bank of 20, 5x5 filters
4x4x100      # your final filter bank of 100, 4x4 filters

Vas a estar haciendo: convoluciones 2D multicanal cada una con una profundidad de 1, 10 y 20 respectivamente. Como puede ver, la profundidad de cada convolución va a cambiar en función de la profundidad del volumen de entrada de la capa anterior. $10 + 20 + 100 = 130$

$10 + 200 + 2000 = 2,210$

Ahora bien, esto sólo se le indica el número de canal único 2D circunvoluciones que estás haciendo, no la forma computacionalmente intensivas cada circunvolución es, la intensidad computacional de cada circunvolución dependerá de una variedad de parámetros que incluyen image_size, image_depth, filter_size, el stride(la distancia que camina entre cada individuo filtro de cálculo), la cantidad de capas de agrupación que tiene, etc.

— sabalaba
fuente