Uso de redes neuronales para extraer múltiples parámetros de imágenes

Quiero extraer parámetros de una imagen usando una red neuronal.

Ejemplo:

Dada una imagen de una pared de ladrillos, el NN debe extraer el ancho y la altura de los ladrillos, el color y la aspereza.

Puedo generar imágenes para parámetros dados para entrenar el NN y quiero usarlo para extraer los parámetros de una imagen real.

He investigado las CNN. ¿Puedo realizar esta tarea con ellos? ¿Necesito algoritmos de aprendizaje especiales para extraer múltiples parámetros en lugar de clasificación? ¿Hay alguna NN diseñada para tales tareas?

neural-network deep-learning computer-vision

— H4kor
fuente

¿Podría adjuntar algunas imágenes de muestra que tiene en mente? Las CNN pueden ser excesivas para la tarea, pero por otro lado vale la pena estudiar y experimentar si su principal prioridad es el uso de redes neuronales en contraste con los algoritmos CV "tradicionales".

— NikoNyrh

@NikoNyrh podría proporcionar imágenes de muestra, pero quiero usar la técnica para varias clases de texturas. El objetivo es extraer los parámetros del sombreador de las imágenes. El ejemplo de ladrillo contiene parámetros principalmente intuitivos, pero otros sombreadores probablemente usarán parámetros que no pueden obtenerse fácilmente mediante un algoritmo bien diseñado. Actualmente estoy probando diferentes enfoques y quería probar las redes neuronales, ya que puedo generar datos de entrenamiento "infinitos".

— H4kor

Una CNN podría ser una buena opción para esta tarea si espera una variación en la escala de imagen original, iluminación de rotación, etc., y también tiene muchos datos de entrenamiento.

La arquitectura CNN habitual es tener capas convolucionales cerca de la entrada y capas completamente conectadas en la salida. Esas capas completamente conectadas pueden tener la salida organizada para diferentes tareas de clasificación o regresión como mejor le parezca. Predecir los valores de los parámetros que describen la imagen es una tarea de regresión.

Si desea medidas de tamaño precisas, es posible que deba evitar el uso de capas de agrupación máxima. Desafortunadamente, no usar la agrupación hará que su red sea más grande y más difícil de entrenar; en cambio, podría salirse con la suya si se trata de un problema.

Si sus imágenes de entrada son muy simples y claras (porque siempre son generadas por computadora), entonces otros enfoques pueden ser más confiables. Es posible que pueda realizar ingeniería inversa en la producción de imágenes y derivar reglas simples como identificar líneas, esquinas, círculos y otros componentes de imágenes fáciles de filtrar, y realizar mediciones directas. También puede haber un punto medio en complejidad donde extraer estos datos como características y usarlos para entrenar un NN simple (u otro modelo de ML) tendrá un buen rendimiento.

— Neil Slater
fuente