Con esta respuesta, me gustaría resumir las contribuciones de otros autores y proporcionar una explicación en un solo lugar de la técnica LRN (o normalización contrastante) para aquellos que solo desean conocer qué es y cómo funciona.
Motivación: ' Este tipo de normalización de respuesta (LRN) implementa una forma de inhibición lateral inspirada en el tipo que se encuentra en las neuronas reales, creando competencia para grandes actividades entre las salidas de neuronas calculadas usando diferentes núcleos. « AlexNet 3.3
En otras palabras, LRN permite disminuir las respuestas que son uniformemente grandes para el vecindario y hacer que la activación grande sea más pronunciada dentro de un vecindario, es decir, crear un mayor contraste en el mapa de activación. prateekvjoshi.com afirma que es particularmente útil con funciones de activación ilimitadas como RELU.
Fórmula original: para cada posición particular (x, y) y kernel i que corresponde a una única salida 'pixel' aplicamos un 'filtro', que incorpora información sobre las salidas de otros n kernels aplicados a la misma posición. Esta regularización se aplica antes de la función de activación. Esta regularización, de hecho, se basa en el orden de los núcleos que es, hasta donde sé, solo una desafortunada coincidencia.
En la práctica (ver Caffe ) se pueden usar 2 enfoques:
- WITHIN_CHANNEL. Normalizar sobre vecindad local de un solo canal (correspondiente a un solo filtro convolucional). En otras palabras, divida la respuesta de un solo canal de un solo píxel de acuerdo con los valores de salida de la misma neurona para los píxeles cercanos.
- ACROSS_CHANNELS. Para un solo píxel, normalice los valores de cada canal de acuerdo con los valores de todos los canales para el mismo píxel
Uso real LRN se usó con mayor frecuencia durante los días de los primeros conventos como LeNet-5. La implementación actual de GoogLeNet (Inception) en Caffe a menudo usa LRN en relación con las técnicas de agrupación, pero parece que se hace por el simple hecho de tenerlo. Ni Inception / GoogLeNet original ( aquí ) ni ninguna de las siguientes versiones mencionan LRN de ninguna manera. Además, la implementación de TensorFlow de las redes Inception (proporcionadas y actualizadas por el equipo de autores originales) no utiliza LRN a pesar de estar disponible.
Conclusión La aplicación de LRN junto con la capa de agrupación no dañaría el rendimiento de la red siempre que los valores de hiperparámetros sean razonables. A pesar de eso, no conozco ninguna justificación reciente para aplicar LRN / normalización de contraste en una red neuronal.