微软Azure延迟5小时因为管理员睡着了

互联网2020-05-06 17:31:27
导读 微软透露,在3月底,它花了5个小时才承认影响欧洲客户的长期中断,因为通知客户的任务依赖于一位美国的事件经理,他当时睡着了。 在家工作:生意的前途渺茫 从500强企业到非常小
音频解说

微软透露,在3月底,它花了5个小时才承认影响欧洲客户的长期中断,因为通知客户的任务依赖于一位美国的事件经理,他当时睡着了。

在家工作:生意的前途渺茫

从500强企业到非常小的企业,大多数每个组织都比预言家敢于梦想的人更快地被推入工作的未来。 在这个勇敢的新工作世界中,哪些因素将决定失败或成功?

多读书

延误影响了欧洲和英国的客户三天,从世界协调时3月24日上午9点左右开始。 然而,在开始的时候,当客户与多余的Azure服务作斗争时,微软错过了10分钟的目标,即广泛地承认问题。

在一次死后,Azure公司的工程主管ChadKimes承认微软“在这次事件中的沟通也是有问题的”,并为这给6136名受影响的客户带来的挫折和困惑道歉。

技术问题本身是由于在流行期间对Azure计算资源的需求激增而造成的虚拟机器容量限制造成的,这导致了21分钟的延迟,影响了微软的管道DevOps服务,以发布针对Azure中Windows和Linux代理的新构建。 据基姆斯说,最长的延误是9个小时。

Kimes在谈到沟通问题时说:“问题在于,我们的现场处理程序对于这些类型的事件有差距。”

当事件涉及客户请求失败或性能影响时,我们有自动工具,在DRI(指定的负责个人)和我们所称的PIM(主要事件管理器)中启动事件和循环。 他补充说:“PIM通常是负责发布外部通信确认事件的人。”

“管道延迟是通过不同的工具检测到的,目前没有为这些类型的事件呼叫PIM。 因此,虽然DRI在理解技术问题和寻找潜在的缓解措施方面很努力,但PIM仍然睡着。 只有当PIM在美国东部大约营业时间开始时加入事件桥梁时,事件才最终得到承认。”

微软表示,它正计划改进其现场流程,以“确保管道延迟事件的初始通信与其他事件类型相同的时间安排”。

免责声明:本文由用户上传,如有侵权请联系删除!