TEL:
2018十大云服务宕机事故盘点
| 发布时间: 2019-01-02 15:27:43 | 1278 次浏览
2018十大云服务宕机事故盘点

依据 IDC 往年 7 月份发布的《中国私有云效劳市场半年度跟踪报告》显示,阿里云的市场占有率已过 45%,腾讯云到达 10%。在全球市场,依据 Gartner 最新数据显示,亚马逊 AWS 占全球份额的 51.8%;微软 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云服务占比 3.3%;随后是 IBM,占比 1.9%。可见,这几大主流云供给商占据全球绝大局部市场,一旦云效劳呈现宕机,受影响的企业将不可胜数。

    2018 年,云计算市场不只开展迅速,而且成绩不时。云供给商与开源社区的矛盾不时晋级,主流云厂商均未逃过宕机事情,更有甚者一年呈现屡次效劳宕机,招致企业对私有云的决心继续走低。本文总结了 2018 年前十大云宕机事故,欢送各位补充阅历过的云效劳至暗时辰。

1 月 18 日:谷歌云自动化生效招致宕机

事故概况:2018 年 1 月 18 日,谷歌云自动化机制生效,招致其 us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。谷歌对此的回应是“网络编程生效”招致 Autoscaler(自动扩展器)效劳无法正常运转,该效劳生效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联络。

弥补措施:工程团队手动切换到交换义务,以恢单数据耐久层正常运转。

宕机工夫:93 分钟

事情后续:谷歌承诺,将来假如配置数据过时,谷歌将中止虚拟机迁移,数据耐久层会在长工夫运转进程时期重新解析对等体(peer),以便毛病发作时迅速切换到交换义务。

3 月 2 日:AWS 宕机致局部 Alexa 失声

事故概况:2018 年 3 月 2 日清晨,依赖 AWS 效劳的局部 Alexa 开端呈现失声成绩,该智能音箱的白色指示灯不停闪烁标明效劳呈现中缀,Alexa 也不断收回零碎内置抱歉声。随后几小时内,Alexa 又接到了不计其数封赞扬。据理解,Alexa 这一毛病源于亚马逊 AWS 的网络效劳呈现成绩,其他依赖 AWS 作爲主干网的使用在当天也遭到了影响,包括软件开发公司 Atlassian,云通讯公司 Twilio 等。

弥补措施:亚马逊 AWS 的在线支持团队对此停止了修复。

宕机工夫:数小时(因事发清晨,未在第一工夫发酵)

事情后续:亚马逊 AWS 未对此毛病停止详细阐明,只泄漏与网络衔接有关。

5 月 31 日:AWS 北弗吉尼亚地域数据中心呈现硬件成绩

事故概况:2018 年 5 月 31 日,因北弗吉尼亚地域的数据中心呈现硬件毛病,AWS 再次呈现衔接成绩。在此事故中,AWS 的中心 EC2 效劳,Workspaces 虚拟桌面效劳以及 Redshift 数据仓库效劳均遭到影响。

弥补措施:人爲修复

宕机时长:30 分钟左右

事情后续:亚马逊公司 S3 的副总裁兼总经理 Mai-Lan Tomsen Bukovec 近日承受采访表示,亚马逊从未见过数据中心解体。这意味着,过来的每一次事故都不曾招致整个数据中心的解体,AWS 也在零碎设计层面停止了改良以避免此类事故发作。

6 月 17 日:微软 Azure 爱尔兰数据中心宕机

事故概况:2018 年 6 月 17 日至 18 日,因爱尔兰数据中心的恒温零碎呈现成绩,微软 Azure 被低温影响招致存储和网络中缀。

宕机工夫:5 小时以上

6 月 27 日:阿里云毛病

事故概况:2018 年 6 月 27 日 16:21 左右,阿里云呈现严重技术毛病,16:50 分开端陆续恢复,官方给出的毛病工夫爲 30 分钟左右,恢复工夫大约破费一小时。经过技术复盘,阿里给出的毛病缘由爲工程师团队上线自动化运维新功用时,执行了一项变卦验证操作,该操作在测试环境中未发作成绩,上线后触发未知 bug。

弥补措施:人工介入,定位并处理成绩。

宕机工夫:30 分钟,恢复工夫破费一小时左右。

事情后续:本次事故被定义爲 S1 级别,即中心业务重要功用不可用,影响局部用户,形成一定损失。阿里云发布官方声明,表示“关于这次毛病,没有借口,我们不能也不该呈现这样的失误!我们将仔细复盘改良自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份拜托。”

7 月 20 日:腾讯云云硬盘毛病

事故概况:2018 年 8 月 5 日,北京清博数控科技无限公司(以下简称“前沿数控”)在官方微博发布了一篇题爲《腾讯云给一家创业公司带来的灾难》的博文,文中标明,2018 年 7 月 20 日,腾讯云云硬盘发作毛病(腾讯云前期给出的事故缘由阐明),招致该公司寄存的数据全部丧失,并且不能恢复,这是该创业公司近千万元级的平台数据,包括经过临时推行导流积聚起来的精准注册用户以及内容数据。

弥补措施:腾讯云表示,监控到异常后第一工夫向用户告知了毛病形态,并立刻组织文件零碎专家并结合厂商技术专家尝试修单数据。但经过多方努力,最终仍有局部数据完好性校验失败。

事情后续:腾讯云提出“赔偿 + 补偿”方案,并承诺会持续与“前沿数控”坚持沟通,协助其停止业务恢复。

7 月 24 日:腾讯云宕机

事故概况:2018 年 7 月 24 日,用户登录腾讯云时重复呈现超时、加入等状况,即使改换运营商,后果也一样。随后,腾讯云发布告诉称初步确定是运营商光缆中缀,运营商曾经找到断点,正在连线中,次要受影响的爲广州区域局部用户。

弥补措施:运营商第一工夫介入抢修。

宕机工夫:宕机工夫不明,恢复工夫破费 30 至 40 分钟

Prime Day:亚马逊 AWS 毛病

事故概况:Prime Day 是亚马逊在全球范围内启动的爲期 36 小时的会员促销活动,活动刚开端,亚马逊网站及 App 就同时发作严重宕机,不光电子商务业务受损,亚马逊的其他产品和效劳都遭到了不同水平的影响。亚马逊对此给出的解释是 AWS 管理控制台呈现全球性成绩。

宕机工夫:毛病继续了将近 6 小时。

事情后续:AWS 发言人表示,间歇性的 AWS 管理控制台成绩并未对亚马逊的消费者业务发生任何有意义的影响。

9 月 4 日:微软 Azure 数据中心遭雷劈宕机

事故概况:9 月 4 日上午,微软 Azure 美国中南区数据中心左近发作雷击在内的恶劣天气,影响冷却零碎的电压,招致多个 Azure 效劳呈现衔接成绩,客户难以拜访存储在该区数据中心的资源。受影响的效劳包括 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。

弥补措施:9 月 5 日上午,微软工程师已恢单数据中心的电力和大少数网络设备,其他效劳也在陆续恢复中。

宕机工夫:超越 24 小时

11 月 9 日:谷歌私有云下的 Kubernetes 效劳(GKE)宕机

事故概况:11 月 9 日,谷歌私有云上提供的 Kubernetes 效劳(GKE)节点池建置功用呈现异常,维运人员无法透过 Cloud Console UI 树立新节点。

弥补措施:谷歌派工程团队调查毛病缘由,并开端着手维修。谷歌表示,受影响的企业用户可以先改爲运用 GCP 内建的 gcloud command,建置新 Kubernetes 节点。

宕机时间:接近 19 小时

总结:

关于很多中小企业来说,自建机房的人力和维护本钱太高,他们希望应用云计算的低本钱、可扩展性、牢靠性和便当性等益处,但却担忧面临风险。这些风险通常是相反的,例如平安破绽、监管成绩,以及缺乏有关如何构建最佳云计算根底设备的知识。而在过来几年,云供给商还发作过数起大大小小的毛病,也阐明企业的担忧不是多余的。随着越来越多的企业和政府机构将数据上云,即使只是一个小小的宕机都能够引发很大的灾难。即使是提供 99.9% 牢靠性的阿里云,那 0.1% 的宕机还是发作了。

思索到企业的这些需求,如今混合云的趋向也比拟分明,很多私有云厂商都在布局混合云市场。借助混合云,企业在进步消费力的同时还能降低本钱,也不必完全投入到私有云当中。但是混合云也还存在兼容性和平安合规性方面的应战,所以爲了尽能够地增加毛病带来的损失,企业不只要树立完善的灾备保证体系,还应该对灾备零碎停止活期演练。