Los servicios alojados en las nubes por Amazon Web Services , Azure , Google y la mayoría de los demás publican el S ervicio L evel A CUERDO , o SLA, para los servicios individuales que proporcionan. Los arquitectos, los ingenieros de plataforma y los desarrolladores son responsables de reunirlos para crear una arquitectura que proporcione el alojamiento para una aplicación.
Tomados de forma aislada, estos servicios generalmente proporcionan algo en el rango de tres a cuatro nueve de disponibilidad:
- Azure Traffic Manager: 99.99% o 'cuatro nueves'.
- SQL Azure: 99.99% o 'cuatro nueves'.
- Servicio de aplicaciones de Azure: 99.95% o 'tres nueve cinco'.
Sin embargo, cuando se combinan en arquitecturas, existe la posibilidad de que cualquier componente pueda sufrir una interrupción que resulte en una disponibilidad general que no sea igual a la de los servicios del componente.
Disponibilidad de compuesto en serie
En este ejemplo, hay tres modos de falla posibles:
- SQL Azure está caído
- El servicio de aplicaciones está inactivo
- Ambos están abajo
Por lo tanto, la disponibilidad general de este "sistema" debe ser inferior al 99.95%. Mi razonamiento para pensar esto es si el SLA para ambos servicios fue:
El servicio estará disponible a partir de las 24 horas.
Luego:
- El Servicio de aplicaciones podría estar fuera entre las 0100 y las 0200
- La base de datos salió entre las 05:00 y las 06:00.
Ambos componentes están dentro de su SLA pero el sistema total no estuvo disponible durante 2 horas de 24.
Disponibilidad en serie y paralela
En esta arquitectura hay una gran cantidad de modos de falla, sin embargo principalmente:
- SQL Server en la Región A está inactivo
- SQL Server en la Región B está inactivo
- El servicio de aplicaciones en la Región A está inactivo
- El servicio de aplicaciones en la Región B está inactivo
- Traffic Manager está caído
- Combinaciones de arriba
Debido a que Traffic Manager es un interruptor automático, es capaz de detectar una interrupción en cualquier región y enrutar el tráfico a la región de trabajo, sin embargo, todavía hay un solo punto de falla en la forma de Traffic Manager, por lo que la disponibilidad total del "sistema" no puede Ser superior al 99,99%.
¿Cómo se puede calcular y documentar la disponibilidad compuesta de los dos sistemas anteriores para la empresa, lo que posiblemente requiera una nueva arquitectura si la empresa desea un nivel de servicio superior al que la arquitectura es capaz de proporcionar?
Si desea anotar los diagramas, los he creado en Lucid Chart y he creado un enlace de usos múltiples, tenga en cuenta que cualquiera puede editar esto, por lo que es posible que desee crear una copia de las páginas para anotar.