Dentro de los campos del procesamiento adaptativo de señales / aprendizaje automático, el aprendizaje profundo (DL) es una metodología particular en la que podemos entrenar máquinas representaciones complejas.
En general, tendrán una formulación que puede mapear su entrada , hasta el objetivo objetivo, , a través de una serie de operaciones apiladas jerárquicamente (de aquí proviene el 'profundo') . Esas operaciones son típicamente operaciones / proyecciones lineales ( ), seguidas de una no linealidad ( ), como sigue :XyWyoFyo
y = fnorte( . . . F2( f1( xTW1) W2) . . . Wnorte)
Ahora dentro de DL, hay muchas arquitecturas diferentes : una de esas arquitecturas se conoce como red neuronal convolucional (CNN). Otra arquitectura se conoce como perceptrón multicapa (MLP), etc. Las diferentes arquitecturas se prestan para resolver diferentes tipos de problemas.
Un MLP es quizás uno de los tipos más tradicionales de arquitecturas DL que uno puede encontrar, y es cuando cada elemento de una capa anterior está conectado a cada elemento de la capa siguiente. Se parece a esto:
En MLP, las matrices codifican la transformación de una capa a otra. (A través de una matriz multiplicar). Por ejemplo, si tiene 10 neuronas en una capa conectadas a 20 neuronas de la siguiente, tendrá una matriz , que asignará una entrada a una salida , a través de: . Cada columna en , codifica todos los bordes que van desde todos los elementos de una capa a uno de los elementos de la siguiente capa.WyoW ∈ R10 x 20v ∈ R10 x 1u ∈ R1 x 20u = vTWW
Las MLP cayeron en desgracia entonces, en parte porque eran difíciles de entrenar. Si bien hay muchas razones para esa dificultad, una de ellas también fue porque sus conexiones densas no les permitieron escalar fácilmente para varios problemas de visión por computadora. En otras palabras, no tenían la equivalencia de traducción incorporada. Esto significaba que si había una señal en una parte de la imagen a la que debían ser sensibles, tendrían que volver a aprender cómo ser sensibles a ella si esa señal se movió. Esto desperdició la capacidad de la red, por lo que el entrenamiento se volvió difícil.
¡Aquí es donde entraron las CNN! Así es como se ve uno:
Las CNN resolvieron el problema de la traducción de la señal, ya que convolverían cada señal de entrada con un detector (núcleo) y, por lo tanto, serían sensibles a la misma característica, pero esta vez en todas partes. En ese caso, nuestra ecuación todavía se ve igual, pero las matrices de peso son en realidad matrices de convolución toeplitz . Sin embargo, las matemáticas son iguales. Wyo
Es común ver que las "CNN" se refieren a redes donde tenemos capas convolucionales en toda la red y MLP al final, por lo que es una advertencia a tener en cuenta.