Se produce una "tormenta de reintento" cuando los clientes están configurados para reintentar un número determinado de veces antes de darse por vencido, es necesaria una política de reintento debido a que se producirá la pérdida de paquetes en el funcionamiento normal de un servicio.
Toma este ejemplo:
Si, por ejemplo, los servicios en su conjunto se ampliaron para admitir 80,000 solicitudes por segundo y se ejecutan a aproximadamente el 80% de la capacidad, un aumento en el tráfico que hizo que el servicio recibiera 101,000 solicitudes por segundo provocaría que 1,000 de esas solicitudes fallaran.
Cuando entran en vigencia las políticas de reintento, terminas con más de 1,000 solicitudes adicionales, dependiendo de dónde se detectó la falla, lo que empujaría el servicio en su conjunto a 102,000 solicitudes por segundo; a partir de ahí, tu servicio entra en una espiral de muerte duplicando el número de solicitudes fallidas cada segundo.
Aparte del sobreaprovisionamiento masivo de servicios más allá de la transacción pico proyectada, lo que sería ineficiente. ¿Qué estrategias puede emplear para evitar "volver a intentar las tormentas"?