Motivo de las imágenes cuadradas en el aprendizaje profundo


12

La mayoría de los modelos avanzados de aprendizaje profundo como VGG, ResNet, etc. requieren imágenes cuadradas como entrada, generalmente con un tamaño de píxel de .224x224

¿Hay alguna razón por la cual la entrada tiene que tener la misma forma, o puedo construir un modelo de convnet con, digamos, también (si quiero hacer un reconocimiento facial, por ejemplo, y tengo imágenes de retrato)?100x200

¿Existe un mayor beneficio con un tamaño de píxel más grande, digamos ?512x512

Respuestas:


10

No se requieren dimensiones de píxeles específicas para que las redes neuronales convolucionales funcionen normalmente. Es probable que los valores se hayan elegido por razones pragmáticas, como un compromiso entre el uso de los detalles de la imagen y el número de parámetros y el tamaño del conjunto de entrenamiento requerido.

Además, si los datos de origen tienen un rango de relaciones de aspecto diferentes, algunos retratos, algunos paisajes, con el objeto objetivo generalmente en el centro, entonces tomar un recorte cuadrado desde el medio podría ser un compromiso razonable.

Cuando aumente el tamaño de la imagen de entrada, también aumentará la cantidad de ruido y la variación que la red necesitará para procesar esa entrada. Eso podría significar más capas, tanto convolucionales como agrupadas. También podría significar que necesita más ejemplos de capacitación y, por supuesto, cada ejemplo de capacitación será más grande. Juntos, estos aumentan los recursos informáticos que necesita para completar la capacitación. Sin embargo, si puede superar este requisito, es posible que termine con un modelo más preciso, para cualquier tarea en la que los píxeles adicionales puedan marcar la diferencia.

Una posible regla general para determinar si desea una mayor resolución es si, para el objetivo de su red, un experto humano podría hacer uso de la resolución adicional y desempeñarse mejor en la tarea. Este podría ser el caso en los sistemas de regresión, donde la red está derivando algunas cantidades numéricas de la imagen, por ejemplo, para el reconocimiento facial que extrae datos biométricos como la distancia entre las características faciales. También podría ser deseable para tareas de procesamiento de imágenes, como el enmascaramiento automatizado; los resultados de vanguardia para estas tareas pueden tener una resolución más baja que las imágenes comerciales en las que nos gustaría aplicarlas en la práctica.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.