Estás en el camino correcto.
Invarianza significa que puede reconocer un objeto como un objeto, incluso cuando su apariencia varía de alguna manera. Esto generalmente es algo bueno, ya que conserva la identidad, la categoría, (etc.) del objeto a través de los cambios en los detalles de la entrada visual, como las posiciones relativas del espectador / cámara y el objeto.
La imagen a continuación contiene muchas vistas de la misma estatua. Usted (y redes neuronales bien entrenadas) puede reconocer que el mismo objeto aparece en cada imagen, a pesar de que los valores de píxeles reales son bastante diferentes.
Tenga en cuenta que la traducción aquí tiene un significado específico en visión, tomado de la geometría. No se refiere a ningún tipo de conversión, a diferencia de, por ejemplo, una traducción del francés al inglés o entre formatos de archivo. En cambio, significa que cada punto / píxel en la imagen se ha movido la misma cantidad en la misma dirección. Alternativamente, puede pensar que el origen se ha desplazado una cantidad igual en la dirección opuesta. Por ejemplo, podemos generar las imágenes segunda y tercera en la primera fila desde la primera moviendo cada píxel 50 o 100 píxeles hacia la derecha.
Se puede demostrar que el operador de convolución conmuta con respecto a la traducción. Si convolucionas con , no importa si traduces la salida convolucionada , o si traduces o primero, entonces convolucionalas. Wikipedia tiene un
poco más .
FsolF∗ gFsol
Un enfoque para el reconocimiento de objetos invariantes de traducción es tomar una "plantilla" del objeto y convolucionarlo con cada ubicación posible del objeto en la imagen. Si obtiene una gran respuesta en una ubicación, sugiere que un objeto parecido a la plantilla se encuentra en esa ubicación. Este enfoque a menudo se denomina coincidencia de plantillas .
Invarianza vs. Equivalencia
La respuesta de Santanu_Pattanayak ( aquí ) señala que hay una diferencia entre la invariancia de traducción y la equivalencia de traducción . La invariancia de traducción significa que el sistema produce exactamente la misma respuesta, independientemente de cómo se cambie su entrada. Por ejemplo, un detector facial podría informar "ENCONTRADO CARA" para las tres imágenes en la fila superior. La equivalencia significa que el sistema funciona igual de bien en todas las posiciones, pero su respuesta cambia con la posición del objetivo. Por ejemplo, un mapa de calor de "cara a cara" tendría protuberancias similares a la izquierda, centro y derecha cuando procesa la primera fila de imágenes.
Esto es a veces una distinción importante, pero muchas personas llaman a ambos fenómenos "invariancia", especialmente porque generalmente es trivial convertir una respuesta equivalente en una invariante, simplemente ignore toda la información de posición).