Respuestas:
La salida de las capas convolucionales representa características de alto nivel en los datos. Si bien esa salida podría aplanarse y conectarse a la capa de salida, agregar una capa completamente conectada es una forma (generalmente) barata de aprender combinaciones no lineales de estas características.
Esencialmente, las capas convolucionales están proporcionando un espacio de características significativo, de baja dimensión y algo invariable, y la capa completamente conectada está aprendiendo una función (posiblemente no lineal) en ese espacio.
NOTA: Es trivial convertir de capas FC a capas Conv. La conversión de estas capas FC superiores a capas Conv puede ser útil como se describe en esta página.
Encontré útil esta respuesta de Anil-Sharma en Quora .
Podemos dividir toda la red (para clasificación) en dos partes:
Extracción de características : en los algoritmos de clasificación convencionales, como los SVM, solíamos extraer características de los datos para que la clasificación funcionara. Las capas convolucionales tienen el mismo propósito de extracción de características. Las CNN capturan una mejor representación de los datos y, por lo tanto, no necesitamos hacer ingeniería de características.
Clasificación : después de la extracción de características, debemos clasificar los datos en varias clases, esto se puede hacer usando una red neuronal completamente conectada (FC). En lugar de capas completamente conectadas, también podemos usar un clasificador convencional como SVM. Pero generalmente terminamos agregando capas FC para hacer que el modelo entrene de extremo a extremo.