Microsoft y la demanda de Azure en el COVID

Increible ejercicio de Microsoft explicando como respondió al crecimiento inesperado de Azure en la pandemia… por un lado el video de @markrussinovich explicando la logica que se siguió, priorización, seguridad, scheduling, networking, hardware, “purposeful degradation” y arquitectura.

A eso le agregaron un post explicando la priorización y el trabajo para sostener lo relacionado con salud como algo esencial y luego ir por fases incluso reescribiendo codigo..

Algunas cosas me llamaron la atención más que otras, pero hay dos que quiero destacar: el “purposeful degradation” implica ir matando pequeñas features a aplicaciones que no son core y que consumen recursos: el mejor ejemplo… en Teams y en O365 desapareció por un tiempo el “Read receipt” y el tiempo de refresco para el indicador de que “XX está escribiendo” como indicadores de presencia… resultado: baja de 30% en uso de cores

In some scenarios we chose to disable prefetching, freeing up capacity on some of our services at the cost of higher latency. In other cases, we increased the duration of prefetch sync intervals. One such example was suppressing calendar prefetch on mobile which reduced request volume by 80 percent

Por otro lado la velocidad del equipo de networking de trabajar con ISPs locales para crear 12 Edge Sites con esos ISPs y hacer mejor uso de la infra, agregaron 110TB de capacidad… lo que se sumó al anális de patrones de uso para mejorar la distribución de capacidad en términos de horario; lo que a un nivel más estratégico: llevó a particionar servicios críticos y ahcer deployments aislados que previenen caídas más grande

  • We plan to transition from VM-based deployments to container-based deployments using Azure Kubernetes Service, which we expect will reduce our operating costs, improve our agility, and align us with the industry.
  • We expect to minimize the use of REST and favor more efficient binary protocols such as gRPC. We will be replacing several instances of polling throughout the system with more efficient event-based models.

Y dos detalles a tener en cuenta, más allá de lo que uno entienda de “la nube” no sólo estamos hablando de productividad y trabajo, también estámos hablando de gaming… nuestra nube corre dos servicios de Gaming gigantes y XBox Live por ejemplo vió un crecimiento de concurrencia del 30% y un 50% de uso de las funciones multiplayer… lo que implica que en total hay un 180% de crecimiento tipico en cualquier lockdown y ¿como evitas que una mundo tire al otro en la pelea por requerimientos?

Si te interesa la parte técnica … vean este video de Mark , y este ejercicio de transparencia en como manejar una de las infraestructuras más grandes del mundo me sorprendió muy gratamente para que se entienda lo qeu implica correr “la nube” y ahora con datos reales luego de meses de pelear con la infra necesaria para que todo siga andando :)