Ok, nuestra nueva compilación tiene picos de CPU del 100% en cada servidor a intervalos aleatorios. Durante largos períodos, hace que el sitio no responda totalmente; esto será en las horas punta cuando personas de diferentes países inicien sesión en el sitio, etc.
Hemos analizado perfmom, perfiladores de memoria, CLR profiler, sql profilers, Red gate ants profiler, probamos pruebas de carga en UAT, pero ni siquiera podemos reproducir el problema. Esto podría significar que solo miles de usuarios que acceden al sitio en vivo hacen que suceda.
Un patrón que notamos fue que el nuevo código, la construcción rota, en realidad usa notablemente menos hilos.
También estamos usando Spring para COI. ¿Tiene esto una reputación de cama?
Para empeorar las cosas, no podemos implementar para vivir debido al impacto comercial, por lo que no podemos reducir el problema al subconjunto de las nuevas funciones que hemos agregado.
Realmente estamos destruidos. ¿Alguien tiene alguna cicatriz de batalla que pueda salvarnos algunas vidas?