Las palabras claves aquí son priores y escala . Como un simple ejemplo, imagine que está tratando de predecir la edad de una persona a partir de una fotografía. Con un conjunto de datos de imágenes y edades, puede entrenar un modelo de aprendizaje profundo para hacer las predicciones. Esto es objetivamente realmente ineficiente porque el 90% de la imagen es inútil, y solo la región con la persona es realmente útil. En particular, la cara de la persona, su cuerpo y tal vez su ropa.
Por otro lado, podría usar una red de detección de objetos previamente capacitada para extraer primero los cuadros delimitadores para la persona, recortar la imagen y luego pasarla a través de la red. Este proceso mejorará significativamente la precisión de su modelo por varias razones:
1) Todos los recursos de la red (es decir, los pesos) pueden centrarse en la tarea real de predicción de edad, en lugar de tener que buscar primero a la persona. Esto es especialmente importante porque la cara de la persona contiene características útiles. De lo contrario, las características más finas que necesita pueden perderse en las primeras capas. En teoría, una red lo suficientemente grande podría resolver esto, pero sería lamentablemente ineficiente. La imagen recortada también es considerablemente más regular que la imagen original. Mientras que la imagen original tiene un montón de ruido, es discutible que las discrepancias en la imagen recortada estén mucho más correlacionadas con el objetivo.
2) La imagen recortada se puede normalizar para tener la misma escala . Esto ayuda a la segunda red a lidiar con problemas de escala, porque en la imagen original, las personas pueden ocurrir cerca o lejos. La normalización de la escala de antemano hace que se garantice que la imagen recortada tenga una persona que llene toda la imagen recortada (a pesar de estar pixelada si estuvieran muy lejos). Para ver cómo esto puede ayudar a escalar, un cuerpo recortado que tiene la mitad del ancho y la altura de la imagen original tiene 4x menos píxeles para procesar, y por lo tanto, la misma red aplicada a esta imagen tendría 4x el campo receptivo de la red original en cada capa.
Por ejemplo, en la competencia del pulmón kaggle, un tema común en las principales soluciones fue algún tipo de preprocesamiento en imágenes pulmonares que las recortó tanto como fue posible y aisló los componentes de cada pulmón. Esto es especialmente importante en las imágenes en 3D ya que el efecto es cúbico: al eliminar el 20% de cada dimensión, ¡elimina casi la mitad de los píxeles!