Hay dos obstáculos que debes enfrentar para lograr una calidad similar a la de la imagen, la primera es artística y la segunda es técnica (memoria, procesamiento). Primero supongo que ya resolvió su problema artístico, puede hacer los modelos, el arte y los sombreadores, etc. (en parte porque no puedo responder a los problemas de arte)
El principal problema técnico es que al voxelizar esos modelos que creó con un alto nivel de detalle, terminará con una gran cantidad de pequeños vóxeles. Procesar y renderizar una gran cantidad de vóxeles no es trivial. La respuesta a esto se llama Octrees Sparse Voxel
SVO le dará la capacidad de renderizar modelos altamente detallados sin procesar todos los vóxeles, pero solo los visibles. Tenga en cuenta que para renderizar SVO necesitará usar una proyección de rayos en lugar de la técnica de rasterización habitual.
Más detalles sobre SVO en este documento
Aquí hay una implementación de código abierto con licencia BSD de SVO https://code.google.com/p/efficient-sparse-voxel-octrees/
Aquí hay un video que explica la representación basada en polígono vs SVO (pros y contras).