Como texto introductorio a todos los temas que usted nombre, recomendaría el libro de aprendizaje profundo . Proporciona una visión general amplia del campo. Explica el papel que desempeña cada uno de esos parámetros.
En mi opinión, es muy útil leer sobre algunas de las arquitecturas más populares (resnet, inicio, alex-net) y extraer las ideas clave que conducen a las decisiones de diseño. Después de leer el libro antes mencionado.
En el plan de estudios de las conferencias a las que se refiere, se explica con gran detalle cómo la capa de convolución agrega una gran cantidad de parámetros (pesos, sesgos) y neuronas. Esta capa, una vez entrenada, puede extraer patrones de significado de la imagen. Para las capas inferiores, esos filtros parecen extractores de bordes. Para capas superiores, esas formas primitivas se combinan para describir formas más complejas. Esos filtros implican una gran cantidad de parámetros y un gran problema del diseño de redes profundas en cómo poder describir formas complejas y aún así poder reducir la cantidad de parámetros.
Dado que los píxeles vecinos están fuertemente correlacionados (especialmente en las capas más bajas), tiene sentido reducir el tamaño de la salida submuestreando (agrupando) la respuesta del filtro. Cuanto más separados están los dos píxeles, menos correlacionados. Por lo tanto, un gran avance en la capa de agrupación conduce a una gran pérdida de información. Hablando libremente. Una zancada de 2 y un tamaño de núcleo de 2x2 para la capa de agrupación es una opción común.
Un enfoque más sofisticado es la red de inicio ( profundizando con convoluciones ) donde la idea es aumentar la dispersión pero aún así lograr una mayor precisión, intercambiando el número de parámetros en una capa convolucional frente a un módulo de inicio para redes más profundas.
Un buen artículo que proporciona pistas sobre las arquitecturas actuales y el papel de algunas de las dimensiones de diseño de una manera estructurada y sistemática es SqueezeNet: precisión de nivel AlexNet con 50 parámetros menos y un tamaño de modelo <0.5 MB . Se basa en ideas introducidas en los modelos mencionados anteriormente.