Una CNN podría ser una buena opción para esta tarea si espera una variación en la escala de imagen original, iluminación de rotación, etc., y también tiene muchos datos de entrenamiento.
La arquitectura CNN habitual es tener capas convolucionales cerca de la entrada y capas completamente conectadas en la salida. Esas capas completamente conectadas pueden tener la salida organizada para diferentes tareas de clasificación o regresión como mejor le parezca. Predecir los valores de los parámetros que describen la imagen es una tarea de regresión.
Si desea medidas de tamaño precisas, es posible que deba evitar el uso de capas de agrupación máxima. Desafortunadamente, no usar la agrupación hará que su red sea más grande y más difícil de entrenar; en cambio, podría salirse con la suya si se trata de un problema.
Si sus imágenes de entrada son muy simples y claras (porque siempre son generadas por computadora), entonces otros enfoques pueden ser más confiables. Es posible que pueda realizar ingeniería inversa en la producción de imágenes y derivar reglas simples como identificar líneas, esquinas, círculos y otros componentes de imágenes fáciles de filtrar, y realizar mediciones directas. También puede haber un punto medio en complejidad donde extraer estos datos como características y usarlos para entrenar un NN simple (u otro modelo de ML) tendrá un buen rendimiento.