La dimensión de salida de una convolución en el aprendizaje profundo depende de múltiples factores
- el tamaño del filtro (también conocido como kernel)
- el relleno (si agrega ceros o no alrededor de su imagen y cuántos)
- los números de filtro que usas
- el paso
La dependencia más simple es la del número de filtros N
. Le da la cantidad de mapas de características que tiene su salida. Para la entrada que pueden ser los canales RGB, es decir, 3, para la salida, este número se puede elegir libremente.
El siguiente factor es el relleno cero. Si utiliza un tamaño de filtro de (3,3) y un relleno "válido", es decir, sin agregar ceros alrededor de la imagen, terminará con una salida de dimensión.
(100, 100, 3) -> (98, 98, N)
Porque usa un paso de 1. Si mueve el filtro a través de la imagen al final de la imagen en cada dirección, el filtro tocará el borde después de 98 pasos.
Sin embargo, si utiliza el relleno "SAME", compensa el tamaño del filtro, en el caso de un tamaño de filtro de (3,3) que correspondería a una línea de ceros alrededor de la imagen, terminará con:
(100, 100, 3) -> (100, 100, N)
Con una zancada de 2, por ejemplo, cambia la posición del filtro en dos píxeles. Por lo tanto, obtienes
(100, 100, 3) -> (50, 50, N)