Las máquinas comerciales originales para hacer VM no tenían MMU: tenían VM incorporada en el procesador. Mi opinión actual es que las MMU son solo una idea de último momento para colocar la VM en la parte superior de los procesadores que no son VM. VM se desarrolló en la Universidad de Manchester, y los diseñadores de Burroughs estaban convencidos de que deberían incluirlo, aunque eran muy innovadores en ese momento.
Los Burroughs B5000 (ahora máquinas Unisys MCP) usaron descriptores de memoria que imponen los límites de la memoria: salgan de un límite y su programa será abandonado (respetar los límites es la base de una sociedad agradable, pero algunos abusan del privilegio, por lo que los límites deben aplicarse).
Los descriptores contienen una dirección de memoria, longitud de bloque y tipo de datos, pero también el importante bit P o bit de presencia. El bit p indica que el bloque está en la memoria. Un p-bit de cero significa que el bloque está en almacenamiento masivo y la dirección es la dirección de almacenamiento, ya sea en el programa original (código o datos) o en VM (datos desplegados).
Estas máquinas implementaron un modelo de memoria jerárquica. Las MMU parecen compensar las deficiencias de la memoria plana, ya que necesitan asignar objetos de usuario a la memoria plana. JK Iliffe también diseñó máquinas ICL con este modelo:
http://www.computerconservationsociety.org/resurrection/res74.htm#f
https://en.wikipedia.org/wiki/Burroughs_large_systems
La diferencia entre estas máquinas y la mayoría de las actuales es que abordan la arquitectura completa del sistema, no solo una arquitectura de CPU.
Por lo tanto, parece que no solo no son necesarias las MMU, sino que los sistemas están mejor sin ellas.