De hecho, ¡supongo que la pregunta es un poco amplia! De todas formas.
Comprender las redes de convolución
Lo que se aprende en ConvNets
intenta minimizar la función de costo para clasificar las entradas correctamente en las tareas de clasificación. Todos los cambios de parámetros y filtros aprendidos son para lograr el objetivo mencionado.
Características aprendidas en diferentes capas
Intentan reducir el costo aprendiendo características de bajo nivel, a veces sin sentido, como líneas horizontales y verticales en sus primeras capas y luego apilándolas para crear formas abstractas, que a menudo tienen significado, en sus últimas capas. Para ilustrar esta fig. 1, que se ha utilizado desde aquí , puede considerarse. La entrada es el bus y el ceñidor muestra las activaciones después de pasar la entrada a través de diferentes filtros en la primera capa. Como se puede ver, el marco rojo que es la activación de un filtro, cuyos parámetros se han aprendido, se ha activado para bordes relativamente horizontales. El marco azul se ha activado para bordes relativamente verticales. Es posible queConvNets
aprenda filtros desconocidos que son útiles y nosotros, como los profesionales de la visión por computadora, no hemos descubierto que pueden ser útiles. La mejor parte de estas redes es que intentan encontrar los filtros apropiados por su cuenta y no usan nuestros filtros descubiertos limitados. Aprenden filtros para reducir la cantidad de función de costo. Como se mencionó, estos filtros no son necesariamente conocidos.
En capas más profundas, las características aprendidas en capas anteriores se unen y crean formas que a menudo tienen significado. En este artículo se ha discutido que estas capas pueden tener activaciones que son significativas para nosotros o los conceptos que tienen significado para nosotros, como seres humanos, pueden distribuirse entre otras activaciones. En la Fig. 2 el marco verde muestra las activatinas de un filtro en la quinta capa de unConvNet
. Este filtro se preocupa por las caras. Supongamos que el rojo se preocupa por el cabello. Estos tienen significado. Como se puede ver, hay otras activaciones que se han activado en la posición de las caras típicas en la entrada, el marco verde es una de ellas; El marco azul es otro ejemplo de esto. En consecuencia, la abstracción de formas se puede aprender mediante un filtro o numerosos filtros. En otras palabras, cada concepto, como la cara y sus componentes, se puede distribuir entre los filtros. En los casos en que los conceptos se distribuyen entre diferentes capas, si alguien mira cada uno de ellos, pueden ser sofisticados. La información se distribuye entre ellos y para comprender esa información, todos esos filtros y sus activaciones deben considerarse, aunque puedan parecer muy complicados.
CNNs
no debe considerarse como cajas negras en absoluto. Zeiler y todos en este sorprendente artículo han discutido que el desarrollo de mejores modelos se reduce a prueba y error si no se comprende lo que se hace dentro de estas redes. Este documento intenta visualizar los mapas de características en ConvNets
.
Capacidad para manejar diferentes transformaciones para generalizar
ConvNets
use pooling
capas no solo para reducir el número de parámetros, sino también para tener la capacidad de ser insensible a la posición exacta de cada entidad. Además, el uso de ellos permite que las capas aprendan diferentes características, lo que significa que las primeras capas aprenden características simples de bajo nivel como bordes o arcos, y las capas más profundas aprenden características más complicadas como ojos o cejas. Max Pooling
Por ejemplo, intenta investigar si existe una característica especial en una región especial o no. La idea de las pooling
capas es muy útil, pero es capaz de manejar la transición entre otras transformaciones. Aunque los filtros en diferentes capas intentan encontrar diferentes patrones, por ejemplo, una cara girada se aprende usando diferentes capas que una cara habitual,CNNs
por sí mismo no tiene ninguna capa para manejar otras transformaciones. Para ilustrar esto, suponga que desea aprender caras simples sin ninguna rotación con una red mínima. En este caso, su modelo puede hacerlo perfectamente. supongamos que se le pide que aprenda todo tipo de caras con rotación arbitraria de caras. En este caso, su modelo tiene que ser mucho más grande que la red aprendida anterior. La razón es que tiene que haber filtros para aprender estas rotaciones en la entrada. Lamentablemente, estas no son todas las transformaciones. Su entrada también puede estar distorsionada también. Estos casos hicieron enojar a Max Jaderberg y a todos . Compusieron este documento para tratar estos problemas a fin de calmar nuestro enojo como suyo.
Las redes neuronales convolucionales funcionan
Finalmente, después de referirse a estos puntos, funcionan porque intentan encontrar patrones en los datos de entrada. Los apilan para crear conceptos abstractos por capas de convolución. Intentan averiguar si los datos de entrada tienen cada uno de estos conceptos o no en capas densas para averiguar a qué clase pertenecen los datos de entrada.
Agrego algunos enlaces que son útiles: