全球Cloudflare中断导致“软件故障”归咎于此

要闻2020-08-21 16:19:42
导读 Cloudflare解决了一个问题,导致网络和互联网安全公司提供服务的网站昨天半小时显示502个Bad Gateway错误。从BST下午2:42开始,这家网络

Cloudflare解决了一个问题,导致网络和互联网安全公司提供服务的网站昨天半小时显示502个“Bad Gateway”错误。从BST下午2:42开始,这家网络巨头的CPU利用率大幅上升到其网络中,Cloudflare将其归咎于软件部署不当。这影响了遍布全球各地的网站。

一旦这个错误的部署被回滚,其首席技术官John Graham-Cumming解释说,服务恢复正常运行,所有使用Cloudflare的域恢复到正常流量水平。

“这不是一次攻击(正如一些人猜测的那样),我们对此事件的发生感到非常遗憾,”Graham-Cumming说。“我在编写完整的验尸报告时,内部团队正在开会,以了解这是如何发生的,以及我们如何防止这种情况再次发生。”该事件影响了包括加密货币市场在内的几个大型行业,用户无法正确访问CoinMarketCap和CoinBase等交易所。

警告:由于云计算中断,我们从提供商那里得到了不好的数据,这显示了不正确的加密价格。冷静下来,比特币不是26美元。

- CoinDesk(@coindesk),2019年7月2日

Cloudflare昨晚发布了一项更新,表明全球中断是由于在常规部署期间在Cloudflare Web应用防火墙(WAF)中部署了一个配置错误的规则引起的。该公司的目标是改进网络攻击中使用的内联JavaScript的阻止。

它部署的规则之一导致CPU在其全球机器上飙升至100%,随后导致全球各地的网站出现502错误。在停电期间的最差点,网络流量下降了82%。

CPU使用率大幅上升导致主系统和备份系统崩溃。受影响的所有服务。没有证据证明攻击有关。关闭负责CPU峰值和流量恢复正常的服务。深入挖掘根本原因。

- Matthew Prince%uD83C%uDF25(@eastdakota)2019年7月2日

“我们看到了前所未有的CPU耗尽事件,这对我们来说是新颖的,因为我们之前没有经历过全球CPU耗尽,”Graham-Cumming继续道。

“我们在整个网络中不断进行软件部署,并拥有自动化系统来运行测试套件和逐步部署以防止事件发生的程序。

“不幸的是,这些WAF规则一次性全球部署,导致今天中断。”

在BST的下午3:02,该公司意识到发生了什么,并在WAF托管规则集上发布全局查杀,在解决问题并在大约一小时后重新启用规则集之前,将CPU恢复到正常水平并恢复流量。

社交媒体上的许多人在停电期间猜测502 Bad Gateway错误可能是分布式拒绝服务(DDoS)攻击的结果。然而,这些建议很快被撤销,并被公司证实是不真实的。

“Cloudflare中断的影响显示了大规模成功的有时出乎意料的影响 - 就像AWS和其他云提供商的早期中断一样,它提醒人们互联网生态系统如何依赖于单一平台的效用和权宜之计, “451 Research Carl Brooks的云转型渠道分析师告诉IT专业人士。

“Cloudflare有很多功能:它有效地将DDOS作为我们所知道的攻击平台结束,并且它是极其合理价格的重要性能助推器,但它也悄然成为互联网骨干的一部分,和所有其他提供商一样,它会有打嗝。“

免责声明:本文由用户上传,如有侵权请联系删除!