Esta pregunta se reduce a "cómo funcionan exactamente las capas de convolución .
Supongamos que tengo una imagen en escala de grises . Entonces la imagen tiene un canal. En la primera capa, aplico una convolución de 3 × 3 con k 1 filtros y relleno. Luego tengo otra capa de convolución con 5 × 5 convoluciones y k 2 filtros. ¿Cuántos mapas de características tengo?
Convolución tipo 1
La primera capa se ejecuta. Después de eso, tengo mapas de características (uno para cada filtro). Cada uno de ellos tiene el tamaño n × m . Cada píxel se creó tomando 3 × 3 = 9 píxeles de la imagen de entrada acolchada.
Luego se aplica la segunda capa. Cada filtro se aplica por separado a cada uno de los mapas de características . Esto da como resultado mapas de funciones para cada uno de los mapas de funciones k 1 . Entonces, hay mapas de características k 1 × k 2 después de la segunda capa. Cada píxel de cada uno de los nuevos mapas de características se creó tomando 5 ⋅ 5 = 25 "píxeles" del mapa de características acolchado de antes.
El sistema tiene que aprender parámetros.
Convolución tipo 2.1
Como antes: la primera capa se ejecuta. Después de eso, tengo mapas de características (uno para cada filtro). Cada uno de ellos tiene el tamaño n × m . Cada píxel se creó tomando 3 × 3 = 9 píxeles de la imagen de entrada acolchada.
A diferencia de antes: luego se aplica la segunda capa. Cada filtro se aplica a la misma región, pero todos los mapas de características de antes. Esto resulta en mapas de características en total después de que se ejecutó la segunda capa. Cada píxel de cada uno de los nuevos mapas de características se creó tomando k 2 ⋅ 5 ⋅ 5 = 25 ⋅ k 2 "píxeles" de los mapas de características acolchados de antes.
El sistema tiene que aprender parámetros.
Convolución tipo 2.2
Pregunta
- ¿Se usa típicamente el tipo 1 o el tipo 2?
- ¿Qué tipo se usa en Alexnet ?
- ¿Qué tipo se usa en GoogLeNet ?
- Si dice tipo 2: explique el costo cuadrático ("Por ejemplo, en una red de visión profunda, si se encadenan dos capas convolucionales, cualquier aumento uniforme en el número de sus filtros resulta en un aumento cuadrático de cómputo")
Para todas las respuestas, proporcione alguna evidencia (documentos, libros de texto, documentación de marcos) de que su respuesta es correcta.
Pregunta extra 1
¿La agrupación se aplica siempre solo por mapa de características o también se realiza en múltiples mapas de características?
Pregunta extra 2
Mi investigación
- He leído los dos documentos de arriba, pero todavía no estoy seguro de qué se usa.
- He leído la documentación de lasaña
- He leído la documentación de Theano.
- He leído las respuestas sobre Comprender las redes neuronales convolucionales (sin seguir todos los enlaces)
- He leído Redes neuronales convolucionales (LeNet) . Especialmente la figura 1 me hace relativamente seguro de que el Tipo 2.1 es el correcto. Esto también encajaría con el comentario del "costo cuadrático" en GoogLe Net y con alguna experiencia práctica que tuve con Caffee.