Creo que hay un par de cosas que te confunden, así que lo primero es lo primero.
x [ n ]h [ n ]x [ n ]h [ n ]y[ n ] = ( x ⋆ h ) [ n ]
y[ n ] = ∑m = - ∞∞x [ m ] h [ n - m ]
Lo anterior es para señales unidimensionales, pero lo mismo puede decirse de las imágenes, que son solo señales bidimensionales. En ese caso, la ecuación se convierte en:
yon e w[ r , c ] = ∑u = - ∞∞∑v = - ∞∞yoo l d[ u , v ] k [ r - u , c - v ]
Pictóricamente, esto es lo que está sucediendo:
En cualquier caso, lo que hay que tener en cuenta es que el núcleo , en realidad, aprendió durante el entrenamiento de una Red Neural Profunda (DNN). Un núcleo será con lo que involucrarás tu entrada. El DNN aprenderá el núcleo, de modo que resalte ciertas facetas de la imagen (o imagen anterior), que serán buenas para reducir la pérdida de su objetivo objetivo.
Este es el primer punto crucial que hay que entender: tradicionalmente, las personas han diseñado núcleos, pero en Deep Learning, dejamos que la red decida cuál debería ser el mejor núcleo. Sin embargo, lo que sí especificamos son las dimensiones del núcleo. (Esto se llama hiperparámetro, por ejemplo, 5x5 o 3x3, etc.).