Definimos una arquitectura de cuello de botella como el tipo que se encuentra en el documento de ResNet donde [dos capas de conv 3x3] se reemplazan por [una 1x1 conv, una 3x3 conv, y otra 1x1 conv capa].
Entiendo que las capas conv 1x1 se usan como una forma de reducción de dimensión (y restauración), que se explica en otra publicación . Sin embargo, no tengo claro por qué esta estructura es tan efectiva como el diseño original.
Algunas buenas explicaciones pueden incluir: ¿Qué longitud de zancada se utiliza y en qué capas? ¿Cuáles son las dimensiones de entrada y salida de ejemplo de cada módulo? ¿Cómo se representan los mapas de características de 56x56 en el diagrama de arriba? ¿El 64-d se refiere al número de filtros, por qué difiere de los filtros de 256-d? ¿Cuántos pesos o FLOP se usan en cada capa?
Cualquier discusión es muy apreciada!