La idea de aplicar filtros para hacer algo como identificar bordes es una idea genial.
Por ejemplo, puede tomar una imagen de 7. Con algunos filtros, puede terminar con imágenes transformadas que enfatizan las diferentes características de la imagen original. Los 7 originales:
puede ser experimentado por la red como:
Observe cómo cada imagen ha extraído un borde diferente del original 7.
Todo esto es genial, pero luego, digamos que la siguiente capa en su red es una capa de Max Pooling.
Mi pregunta es, en general, ¿no parece esto un poco excesivo? Simplemente fuimos muy cuidadosos y deliberados al identificar bordes usando filtros; ahora, ya no nos importa nada de eso, ¡ya que hemos eliminado los valores de píxeles! ¡Corrígeme si me equivoco, pero pasamos de 25 X 25 a 2 X 2! ¿Por qué no ir directamente a Max Pooling, entonces, no terminaremos básicamente con lo mismo?
Como una extensión de mi pregunta, no puedo evitar preguntarme qué pasaría si, por coincidencia, cada uno de los 4 cuadrados tuviera un píxel con el mismo valor máximo. Seguramente este no es un caso raro, ¿verdad? De repente, todas tus imágenes de entrenamiento se ven exactamente iguales.
The pooling operation provides a form of translation invariance
?