OpenStack运营商详细介绍了如何解决崩溃问题

互联网2020-03-23 16:18:41
导读 当Meltdown和Spectre CPU安全漏洞于1月3日公开披露时,它们引发了全球IT用户和云运营商之间的一系列活动。在5月24日于不列颠哥伦比亚省温

当Meltdown和Spectre CPU安全漏洞于1月3日公开披露时,它们引发了全球IT用户和云运营商之间的一系列活动。在5月24日于不列颠哥伦比亚省温哥华举行的OpenStack峰会上,eWEEK主持的一个小组中,运营商详细介绍了他们如何处理Meltdown补丁以及为何如此耗时。

对于OpenStack,全球最大的运营商都不是CERN,它是大型强子对撞机(LHC)和拥有大约300,000个计算核心的OpenStack云基础架构的所在地。Arne Wiebalck负责CERN OpenStack云的整体操作,当Meltdown和Spectre等漏洞出现时,他有责任做出反应并部署相应的修补程序。

他说:“欧洲核子研究中心通常在寒假期间关闭两周,因此实际上当所有人都不在的时候就知道了这一点。

根据Wiebalck的说法,CERN拥有一支专门负责网络安全的团队。他的运营团队与安全团队进行了协调,以了解需要采取哪些措施来减轻Meltdown和Spectre的风险。

Wiebalck说:“最终实际发生的是我们决定关闭整个云并修补该补丁。”

考虑到CERN的OpenStack云的规模,关闭和打补丁并不是一件容易的事。Wiebalck说,他的团队必须关闭并重新启动30,000多个虚拟机,并告知关闭将要对成千上万的CERN云用户进行。

他说:“我们已经在生产中运行了这种云大约五年了,我认为这是我们第一次必须真正关闭一切。”

Wiebalck表示,CERN并非只是同时关闭所有设备,而是在几天内分阶段执行了修补,关闭和重新启动过程。CERN使用了迭代过程,最初关闭了大约200个虚拟机管理程序,以查看它们是否会回来以及是否存在任何错误。

尽管CERN与大多数大型IT商店一样都使用自动化流程,但在涉及Meltdown和Spectre的修补和重新启动时,Wiebalck表示,它涉及许多人工操作和监视的手动过程。

“是真正的人类。当然,我们实际上有一些工具可以与数百台机器对话,但实际上,实际上是我和我的同事或多或少地手动完成了这项工作,”维巴尔克说。

OpenStack基础架构

Clarke Boylan是OpenStack基础设施项目的项目技术负责人,负责运行用于构建OpenStack软件的系统,该软件在全球的云中使用。像CERN的Wiebalck一样,Boylan必须重新启动大量系统才能修补Meltdown和Spectre。

Boylan表示,OpenStack基础架构团队在员工之间分配了补丁工作,并利用Ansible配置管理技术来确保已安装补丁的内核。

博伊兰说:“我们仍然需要人们仔细观察,以确保服务返回时仍能按预期的方式运行。”

有了Meltdown和Spectre补丁后,人们担心潜在的性能下降问题,这是博伊兰说的,他的团队对此进行了监控。OpenStack基础架构团队的首要任务是尽快部署Linux内核补丁。

更进一步,Boylan指出OpenStack Nova计算项目开发人员在Nova中添加了一项功能,以增强对CPU功能标记的控制,以便云运营商可以限制对CPU较危险部分的访问,并减轻补丁对性能的影响。 。

得到教训

对于像Cisco工程师Dave McCowan这样的OpenStack社区中的人(曾是OpenStack Barbican秘密管理项目的前项目技术负责人),Meltdown and Spectre问题对于云运营商来说是一个很好的教训。

麦考文说:“吸取的教训是为可能发生的事情做计划。” “当您考虑构建云和规划工具时,请知道您可能需要从硬件上修补或替换系统中的任何内容。”

免责声明:本文由用户上传,如有侵权请联系删除!