Realizo muchos trabajos de consultoría de VMware y diría que los porcentajes están más cerca del 80% de la base instalada que usa almacenamiento compartido de alta disponibilidad (FC, iSCSI o NAS de gama alta) y muchos de mis clientes son PYME. El factor clave que he encontrado es si la empresa trata el tiempo de actividad de su servidor como crítico o no, para la mayoría de las empresas actuales lo es.
Ciertamente, puede ejecutar máquinas virtuales de muy alto rendimiento desde el almacenamiento conectado directamente (una HP DL380 G6 con 16 unidades internas en una matriz RAID 10 tendría un disco IO bastante rápido), pero si está construyendo un VMware o cualquier otro entorno virtualizado para reemplazar decenas, cientos o miles de servidores, entonces estás loco si no estás poniendo mucho esfuerzo (y probablemente dinero) en una arquitectura de almacenamiento robusta.
No tiene que comprar una SAN de gama alta para las funciones de agrupamiento: puede implementarlas con un NAS bastante barato (o una SAN virtualizada como HP \ Lefthand's VSA) y aún usar almacenamiento certificado. Sin embargo, si está utilizando almacenamiento compartido y no tiene redundancia en todos los puntos de la infraestructura SAN \ NAS, no debería usarlo durante mucho más que pruebas. Y la redundancia es (como mínimo) doble (independiente) HBA \ NIC de almacenamiento en sus servidores, estructuras independientes dobles, controladores redundantes en la SAN, memoria caché respaldada por batería, desagrupamiento de caché, ventiladores intercambiables en caliente redundantes y fuentes de alimentación, etc. RAID 5 \ 6 \ 10 \ 50 y números apropiados de repuestos activos.
La verdadera diferencia real entre sus sistemas es que si uno de sus sistemas independientes falla de manera catastrófica, tiene mucho trabajo por hacer para recuperarlo e incurrirá en tiempo de inactividad simplemente manteniéndolo parcheado. Con los sistemas conectados a SAN agrupados, parchear los hipervisores, o incluso actualizar el hardware del hipervisor, debería resultar en un tiempo de inactividad cero. Una falla catastrófica del servidor simplemente reduce el servicio por el tiempo que lleva reiniciar la VM en un nodo separado (en el peor de los casos) o si tiene tolerancia a fallas que cubre esas máquinas virtuales, entonces no tiene tiempo de inactividad.