Existen algunas variaciones sobre cómo normalizar las imágenes, pero la mayoría parece utilizar estos dos métodos:
- Reste la media por canal calculada sobre todas las imágenes (por ejemplo, VGG_ILSVRC_16_layers )
- Reste por píxel / canal calculado sobre todas las imágenes (por ejemplo , CNN_S , también vea la red de referencia de Caffe )
El enfoque natural sería en mi mente normalizar cada imagen. Una imagen tomada a plena luz del día hará que se disparen más neuronas que una imagen nocturna y, si bien puede informarnos del momento en que generalmente nos preocupamos por las características más interesantes presentes en los bordes, etc.
Pierre Sermanet se refiere en 3.3.3 a la normalización del contraste local que estaría basada en imágenes, pero no he encontrado esto en ninguno de los ejemplos / tutoriales que he visto. También he visto una pregunta interesante de Quora y la publicación de Xiu-Shen Wei, pero no parecen apoyar los dos enfoques anteriores.
¿Qué es exactamente lo que me estoy perdiendo? ¿Es este un problema de normalización del color o hay un documento que realmente explique por qué tantos usan este enfoque?