亚马逊的弗吉尼亚州数据中心在星期天经历了四个小时的服务降级

金融2020-03-23 15:28:17
导读 Amazon Web Services(AWS)于8月25日星期日遭到服务中断,给其US-EAST数据中心可用性区域的客户造成了四个小时的服务质量下降,并使许多虚

Amazon Web Services(AWS)于8月25日星期日遭到服务中断,给其US-EAST数据中心可用性区域的客户造成了四个小时的服务质量下降,并使许多虚拟机实例脱机。降级的服务是单个网络设备出现故障的结果。

亚马逊于周日下午PDT下午1:22首次公开承认其云基础架构存在问题。

亚马逊AWS状态更新报告称: “我们正在调查美国东部地区中单个可用区中某些卷的性能下降。

US-EAST-1地区是位于北弗吉尼亚州的一组Amazon数据中心。亚马逊将其数据中心称为“可用区”(AZ)。AZ概念的目的是在全球范围内具有地理上完全不同的容错性和稳定性。亚马逊目前总共运营八个可用区,其中三个在亚太地区,一个在西欧,一个在南美和三个在美国。US-EAST-1是东海岸唯一的Amazon AZ。其他两个可用区是位于北加利福尼亚的US-WEST-1和位于俄勒冈州的US-WEST-2。

事实证明,尽管直到周日PDT下午1:22为止,亚马逊都没有通过其US-EAST-1的状态更新提要报告任何问题,但问题实际上是在大约30分钟之前开始的。直到太平洋夏令时间下午3:23为止,亚马逊才提供有关该事件的完整详细信息,当时AWS状态更新指出:“从PDT大约12:51 PM到PDT 1:42 PM,网络数据包丢失导致EBS相关API错误率上升在单个AZ中。”

EBS是Amazon的Elastic Block Storage服务,为在Amazon云上运行的虚拟机提供持久性存储。亚马逊指出,由于EBS错误,其“少数”云客户拥有无法访问的虚拟机实例。周日下午受到影响的网站包括Airbnb,Instagram,Flipboard和Vine。

亚马逊在状态更新中指出:“根本原因是网络设备出现“灰色”部分故障,导致部分可用区遭受数据包丢失。”

亚马逊从物理上删除了故障的网络设备,以将US-EAST-1中的服务恢复到正常状态。直到太平洋标准时间下午6:58,亚马逊的状态更新才清楚地表明了正常性能。

周日的US-EAST-1问题并不是亚马逊第一次遇到该数据中心问题。2012年,暴风雨切断了亚马逊东海岸可用区的电源,导致该服务不可用。2011年还发生了一起事件,袭击了位于弗吉尼亚州的东海岸地区。

但是,可用区背后的整个概念是帮助客户减轻任何一个地理区域内断电的风险。

亚马逊的AZ 文件指出:“启动实例时,请选择一个区域,使您的实例更接近特定客户,或者满足您的法律或其他要求。” “通过在单独的可用区中启动实例,可以保护应用程序免受单个位置的故障的影响。

免责声明:本文由用户上传,如有侵权请联系删除!