Como no hay una respuesta detallada y marcada, haré lo mejor que pueda.
Primero comprendamos de dónde proviene la motivación para tales capas: por ejemplo, un autoencoder convolucional. Puede usar un autoencoder convolucional para extraer características de imágenes mientras entrena al autoencoder para reconstruir la imagen original. (Es un método no supervisado).
Tal codificador automático tiene dos partes: el codificador que extrae las características de la imagen y el decodificador que reconstruye la imagen original a partir de estas características. La arquitectura del codificador y el decodificador generalmente se reflejan.
En un autoencoder convolucional, el codificador funciona con capas de convolución y agrupación. Supongo que sabes cómo funcionan. El decodificador intenta reflejar el codificador pero en lugar de "hacer que todo sea más pequeño" tiene el objetivo de "hacer que todo sea más grande" para que coincida con el tamaño original de la imagen.
Lo opuesto a las capas convolucionales son las capas de convolución transpuestas (también conocidas como deconvolución , pero matemáticamente hablando correctamente, esto es algo diferente). Trabajan con filtros, núcleos, zancadas al igual que las capas de convolución, pero en lugar de mapear, por ejemplo, de 3x3 píxeles de entrada a 1 salida, mapean de 1 píxel de entrada a 3x3 píxeles. Por supuesto, también la retropropagación funciona un poco diferente.
Lo opuesto a las capas de agrupación son las capas de muestreo ascendente que en su forma más pura solo cambian el tamaño de la imagen (o copian el píxel tantas veces como sea necesario). Una técnica más avanzada es la eliminación de la agrupación, que revierte la agrupación máxima al recordar la ubicación de los máximos en las capas de agrupación máxima y en las capas de la agrupación, copie el valor exactamente en esta ubicación. Para citar este documento ( https://arxiv.org/pdf/1311.2901v3.pdf ):
En el convnet, la operación de agrupación máxima no es invertible, sin embargo, podemos obtener un inverso aproximado registrando las ubicaciones de los máximos dentro de cada región de agrupación en un conjunto de variables de conmutación. En la descontaminación, la operación de desenrollado utiliza estos interruptores para colocar las reconstrucciones desde la capa superior en ubicaciones apropiadas, preservando la estructura del estímulo.
Para obtener más información técnica y contexto, eche un vistazo a esta explicación realmente buena, demostrativa y profunda: http://deeplearning.net/software/theano/tutorial/conv_arithmetic.html
Y eche un vistazo a https://www.quora.com/What-is-the-difference-between-Deconvolution-Upsampling-Unpooling-and-Convolutional-Sparse-Coding