Así que estoy tratando de hacer un entrenamiento previo en imágenes de humanos usando redes convolucionales. Leí los documentos ( Paper1 y Paper2 ) y este enlace de stackoverflow , pero no estoy seguro de entender la estructura de las redes (no está bien definido en los documentos).
Preguntas:
Puedo tener mi entrada seguida de una capa de ruido seguida de una capa conv, seguida de una capa de agrupación, después de eso, ¿desagrupo antes de dar mi salida (que es la misma que mi imagen de entrada)?
Digamos que tengo varias (135,240) imágenes. Si uso 32, (12,21) núcleos, seguido de (2,2) agrupación, terminaré con 32 (62, 110) mapas de características. ¿Ahora desagrupo para obtener 32 (124, 220) mapas de características y luego los aplanaré? antes de dar mi (135,240) capa de salida?
Si tengo varias capas de conv-pool, ¿debo entrenarlas una por una, como en los autoencoders de ruido sin apilar? O bien, ¿puedo tener algo como input-conv-pool-conv-pool-conv-pool-output (la salida es la misma que la entrada)? En ese caso, ¿cómo se gestiona la agrupación y la descompresión? ¿Debería desagrupar solo en la última capa de agrupación antes de la salida? Y de nuevo, ¿cuál debería ser el factor de cambio de tamaño de ese desagrupamiento? ¿Es la intención de devolver los mapas de características a la forma de la entrada?
¿Debo introducir capas de ruido después de cada capa conv-pool-depool?
Y luego, cuando realice un ajuste fino, ¿se supone que debo eliminar las capas de desagrupación y dejar el resto igual? ¿O debería eliminar tanto las capas de ruido como las capas de desagrupación?
¿Alguien puede señalarme una url / papel que ha detallado la arquitectura de un codificador automático convolucional tan apilado para hacer un entrenamiento previo en las imágenes?