En los últimos años, las redes neuronales convolucionales (CNN) se han convertido en el estado del arte para el reconocimiento de objetos en la visión por computadora. Por lo general, una CNN consta de varias capas convolucionales, seguidas de dos capas completamente conectadas. Una intuición detrás de esto es que las capas convolucionales aprenden una mejor representación de los datos de entrada, y las capas completamente conectadas luego aprenden a clasificar esta representación en función de un conjunto de etiquetas.
Sin embargo, antes de que las CNN comenzaran a dominar, las máquinas de vectores de soporte (SVM) eran lo último en tecnología. Por lo tanto, parece razonable decir que un SVM sigue siendo un clasificador más fuerte que una red neuronal completamente conectada de dos capas. Por lo tanto, me pregunto por qué las CNN de última generación tienden a usar las capas completamente conectadas para la clasificación en lugar de una SVM. De esta manera, tendría lo mejor de ambos mundos: una representación de características fuerte y un clasificador fuerte, en lugar de una representación de características fuerte pero solo un clasificador débil ...
¿Algunas ideas?