Por ejemplo, supongamos que estamos construyendo un estimador de edad, basado en la imagen de una persona. A continuación tenemos dos personas en trajes, pero la primera es claramente más joven que la segunda.
(fuente: tinytux.com )
Hay muchas características que implican esto, por ejemplo, la estructura de la cara. Sin embargo, la característica más reveladora es la relación entre el tamaño de la cabeza y el tamaño del cuerpo :
(fuente: wikimedia.org )
Supongamos que hemos entrenado una regresión de CNN para predecir la edad de la persona. En muchos de los predictores de edad que he probado, la imagen anterior del niño parece engañar a las predicciones para que piensen que es mayor, debido al traje y probablemente porque se basan principalmente en la cara:
Me pregunto qué tan bien puede una arquitectura CNN de vainilla inferir la proporción de cabeza a torso.
En comparación con un RCNN regional, que es capaz de obtener cuadros delimitadores en el cuerpo y la cabeza, ¿el CNN de vainilla siempre funcionará peor?
Justo antes del aplanamiento global en la CNN de vainilla (es decir, justo después de todas las convoluciones), cada salida tiene un campo receptivo correspondiente, que debería tener un sentido de escala. Sé que RCNN más rápido explota esto haciendo propuestas de cuadro delimitador exactamente en esta etapa, de modo que todos los filtros convolucionales anteriores entrenan automáticamente a todas las escalas.
Entonces, ¿creo que la CNN de vainilla debería ser capaz de inferir la proporción del tamaño de la cabeza al torso? ¿Es esto correcto? Si es así, ¿es el único beneficio de usar un marco RCNN más rápido para explotar el hecho de que puede haber sido pre-entrenado para detectar personas?