El sesgo funciona por neurona virtual, por lo que no tiene ningún valor tener múltiples entradas de sesgo donde hay una sola salida, eso equivaldría a sumar los diferentes pesos de sesgo en un solo sesgo.
En los mapas de características que son la salida de la primera capa oculta, los colores ya no se mantienen separados *. Efectivamente, cada mapa de características es un "canal" en la siguiente capa, aunque generalmente se visualizan por separado donde la entrada se visualiza con canales combinados. Otra forma de pensar en esto es que los canales RGB separados en la imagen original son 3 "mapas de características" en la entrada.
No importa cuántos canales o entidades haya en una capa anterior, la salida a cada mapa de entidades en la siguiente capa es un valor único en ese mapa. Un valor de salida corresponde a una sola neurona virtual, que necesita un peso de sesgo.
En una CNN, como explica en la pregunta, los mismos pesos (incluido el peso de polarización) se comparten en cada punto del mapa de características de salida. Por lo tanto, cada mapa de características tiene su propio peso de sesgo, así como previous_layer_num_features x kernel_width x kernel_height
pesos de conexión.
Entonces, sí, su ejemplo que resulta en (3 x (5x5) + 1) x 32
pesos totales para la primera capa es correcto para un CNN con la primera capa oculta que procesa la entrada RGB en 32 mapas de características separadas.
* Es posible que se confunda al ver la visualización de los pesos de CNN que se pueden separar en los canales de color en los que operan.