mi opinión es que la agrupación máxima y media no tiene nada que ver con el tipo de características, sino con la invariancia de traducción.
Imagine aprender a reconocer una 'A' frente a una 'B' (sin variación en los píxeles de A y B). Primero en una posición fija en la imagen. Esto se puede hacer mediante una regresión logística (1 neurona): los pesos terminan siendo una plantilla de la diferencia A - B.
Ahora, ¿qué sucede si entrenas para reconocer en diferentes lugares de la imagen? No puede hacer esto con la regresión logística, barriendo sobre la imagen (es decir, aproximando una capa convolucional con un filtro) y etiquetando todos los barridos de la imagen A o B según corresponda, porque el aprendizaje de las diferentes posiciones interfiere, efectivamente intenta aprender el promedio de AB como A / B se pasan a través de su filtro, pero esto es solo un desenfoque.
con la agrupación máxima, el aprendizaje solo se realiza en la ubicación de la activación máxima (que con suerte se centra en la letra). No estoy tan seguro acerca de la agrupación media: me imagino que se realiza más aprendizaje (es decir, ajuste de peso) en la ubicación de activación máxima y eso evita el desenfoque) ...
Le animo a que implemente una red tan simple con 2 clases y 1 filtro para capa convolucional, luego agrupación máxima / media y 1 nodo de salida e inspeccione los pesos / rendimiento.