¿Cuál es la diferencia entre Inception v2 e Inception v3?


18

El documento Profundizando en convoluciones describe GoogleNet que contiene los módulos de inicio originales:

ingrese la descripción de la imagen aquí

El cambio al inicio v2 fue que reemplazaron las convoluciones 5x5 por dos convoluciones sucesivas 3x3 y la agrupación aplicada:

ingrese la descripción de la imagen aquí

¿Cuál es la diferencia entre Inception v2 e Inception v3?


¿Es simplemente la normalización por lotes? ¿O Inception v2 ya tiene normalización por lotes?
Martin Thoma

github.com/SKKSaikia/CNN-GoogLeNet Este repositorio contiene todas las versiones de GoogLeNet y sus diferencias. Darle una oportunidad.
Amartya Ranjan Saikia

Respuestas:


22

En el documento Batch Normalization , Sergey et al, 2015. propuso la arquitectura Inception-v1 , que es una variante de GoogleNet en el documento Profundizando en convoluciones , y mientras tanto introdujeron la Normalización de lotes al inicio (BN-Inception).

La principal diferencia con la red descrita en (Szegedy et al., 2014) es que las capas convolucionales de 5x5 se reemplazan por dos capas consecutivas de convoluciones de 3x3 con hasta 128 filtros.

Y en el artículo Rethinking the Inception Architecture for Computer Vision , los autores propusieron Inception-v2 e Inception-v3.

En el Inception-v2 , introdujeron la Factorización (factorizar convoluciones en convoluciones más pequeñas) y algunos cambios menores en Inception-v1.

Tenga en cuenta que hemos factorizado la convolución 7x7 tradicional en tres convoluciones 3x3

En cuanto a Inception-v3 , es una variante de Inception-v2 que agrega BN-auxiliar.

BN auxiliar se refiere a la versión en la que la capa completamente conectada del clasificador auxiliar también está normalizada, no solo convoluciones. Nos referimos al modelo [Inception-v2 + BN auxiliar] como Inception-v3.


3

junto a lo mencionado por daoliker

inicio v2 utilizó convolución separable como primera capa de profundidad 64

cita del papel

Nuestro modelo empleó convolución separable con multiplicador de profundidad 8 en la primera capa convolucional. Esto reduce el costo computacional al tiempo que aumenta el consumo de memoria en el tiempo de entrenamiento.

¿Por qué esto es importante? porque se eliminó en v3 y v4 y en el inicio de rediseño, pero se reintrodujo y se utilizó mucho en mobilenet más tarde.


1

La respuesta se puede encontrar en el documento Profundizando con convoluciones: https://arxiv.org/pdf/1512.00567v3.pdf

Verifique la Tabla 3. Inception v2 es la arquitectura descrita en el documento Profundizando con convoluciones. Inception v3 es la misma arquitectura (cambios menores) con diferentes algoritmos de entrenamiento (RMSprop, regularizador de suavizado de etiquetas, agregando un cabezal auxiliar con la norma de lote para mejorar el entrenamiento, etc.).


1

En realidad, las respuestas anteriores parecen estar equivocadas. De hecho, fue un gran lío con el nombramiento. Sin embargo, parece que se solucionó en el documento que presenta Inception-v4 (ver: "Inception-v4, Inception-ResNet y el impacto de las conexiones residuales en el aprendizaje"):

La arquitectura convolucional profunda Inception se introdujo como GoogLeNet en (Szegedy et al. 2015a), aquí llamada Inception-v1. Más tarde, la arquitectura Inception se perfeccionó de varias maneras, primero con la introducción de la normalización por lotes (Ioffe y Szegedy 2015) (Inception-v2). Más tarde, mediante ideas de factorización adicionales en la tercera iteración (Szegedy et al. 2015b) a las que se hará referencia como Inception-v3 en este informe.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.