Me parece que su problema es que está intentando probar las métricas de rendimiento que no están bien soportadas en la base de datos subyacente. Esto hace que sea muy difícil comparar el rendimiento entre sistemas porque los enfoques subyacentes son muy diferentes. No creo que sea posible hacer comparaciones de manzanas con manzanas, así como no creo que pueda hacer una comparación de manzanas con manzanas de los enfoques de tipo ORDBMS a los enfoques de tipo RDBMS. Los problemas de rendimiento son demasiado diferentes y si Stonebraker tiene razón en que la optimización de un ORDBMS para las pruebas de TPC-C pierde el punto, entonces, para sistemas que están aún más separados, será imposible. (Creo que él está allí, sin embargo, solo donde entra en juego la funcionalidad ORDBMS).
Creo que lo que necesita para ser honesto es ver cómo usaría cada sistema y crear una herramienta de referencia basada en el enfoque que tomaría con cada uno. Entonces puede decir, al menos para ese flujo de trabajo, que el punto de referencia muestra algo específico. Sin embargo, no veo cómo puedes generalizar. Además, puede ejecutarlo en un generador de perfiles para obtener información adicional sobre dónde se pasa el tiempo en la ejecución de prueba en varios motores.
Sin embargo, la evaluación comparativa de db es muy difícil de hacer significativa en las mejores circunstancias y cuando se comparan sistemas diferentes es imposible generalizar.