1) C1 en la capa 1 tiene 6 mapas de características, ¿eso significa que hay seis núcleos convolucionales? Cada núcleo convolucional se utiliza para generar un mapa de características basado en la entrada.
Hay 6 núcleos convolucionales y cada uno se usa para generar un mapa de características basado en la entrada. Otra forma de decir esto es que hay 6 filtros o conjuntos de pesos en 3D que simplemente llamaré pesos. Lo que esta imagen no muestra, que probablemente debería, para que quede más claro es que, por lo general, las imágenes tienen 3 canales, por ejemplo, rojo, verde y azul. Entonces, los pesos que lo asignan desde la entrada a C1 son de forma / dimensión 3x5x5 no solo 5x5. Los mismos pesos tridimensionales, o kernel, se aplican en toda la imagen 3x32x32 para generar un mapa de características bidimensionales en C1. Hay 6 núcleos (cada uno de 3x5x5) en este ejemplo, por lo que hace 6 mapas de características (cada uno de 28x28 ya que el paso es 1 y el relleno es cero) en este ejemplo, cada uno de los cuales es el resultado de aplicar un núcleo de 3x5x5 a través de la entrada.
2) S1 en la capa 1 tiene 6 mapas de características, C2 en la capa 2 tiene 16 mapas de características. ¿Cómo es el proceso para obtener estos 16 mapas de características basados en 6 mapas de características en S1?
Ahora haga lo mismo que hicimos en la capa uno, pero hágalo para la capa 2, excepto que esta vez el número de canales no es 3 (RGB) sino 6, seis para el número de mapas / filtros de características en S1. Ahora hay 16 núcleos únicos cada uno de forma / dimensión 6x5x5. cada núcleo de capa 2 se aplica en todo S1 para generar un mapa de características 2D en C2. Esto se hace 16 veces para cada núcleo único en la capa 2, los 16, para generar los 16 mapas de características en la capa 2 (cada 10x10 ya que el paso es 1 y el relleno es cero)
fuente: http://cs231n.github.io/convolutional-networks/