En realidad es un tema bastante difícil. La reconstrucción clásica de múltiples vistas en 3D trata con la coincidencia de puntos en primer lugar, es decir, encuentra el mismo punto en cada imagen. Dados los parámetros de la cámara (vista) para cada imagen, se puede reconstruir el punto 3d original. (Con un láser o un proyector, la escena se puede iluminar para que la correspondencia se pueda hacer con relativa facilidad)
La biblia del campo es Geometría de vista múltiple en visión artificial por Hartley y Zisserman
En el libro hay una sección sobre el tensor trifocal, que es una restricción multilineal entre 3 vistas. Contiene no solo restricciones de correspondencia de punto sino también de línea. Se puede usar para reconstruir edificios muy bien.
Por lo tanto, sus contornos deben coincidir en primer lugar, y tal vez puedan reconstruirse conociendo los parámetros de la cámara (la calibración de la cámara también se cubre en el libro). Entonces tendrás contornos en 3d pero nada más. Para superficies reales, debe hacer una coincidencia de puntos densos. Aunque el tensor que mencioné se ve bien, se usa para líneas rectas y estoy seguro de que un automóvil moderno tiene líneas curvas por todas partes.
No sé cómo obtuviste esos contornos, pero al ver la imagen que has publicado, soy bastante escéptico sobre la solidez de ese algoritmo, por lo que la reconstrucción será deficiente.
Otro método que me vino a la mente es el casco visual o la talla del espacio . El contorneado matemático también debe hacerse. Ejecutando el método en cada contorno puede tener el modelo.