阿里云再次宕机回应称已悉数修复

3月2日23时55分左右,阿里云开始呈现大规模故障,位于华北区域的多家互联网公司的IT运维人员发现多个APP和网站开始堕入卡顿。随后一批程序员赶往公司加班。58高级架构师沈剑在针对此次宕机的回忆文章中称,这场事故继续了三个小时左右,事后观察了两个小时。

3月3日早间,阿里云开始发布布告,开始全面排查。截至现在披露的成果是,华北2地域可用区C部分的ECS效劳器(云效劳器)等实例呈现IO HANG(IO不呼应),经紧迫排查处理后已悉数恢复。阿里云方面向记者证明了这一成果,并表明其他区域未发现此类状况。

针对故障,阿里云表明,将依据SLA协议(效劳合同),尽快处理赔偿事宜。但阿里云并未公开详细的赔偿细节。而依据阿里云开发者论坛上的网友说法,赔偿通常是依照故障时间的100倍进行的,而方案则依据包年包月预付费模式和按量付费模式有所不同,但总额不超过支付的单台云效劳器费用总额。

这是一场发生在周末的宕机时间,因微博的传达而备受重视。第三方机构Forrester分析师戴鲲通知记者,华北2地域是阿里云最早开通效劳的华北地域之一,而ECS效劳器又是阿里云最为核心的IaaS(基础设备即效劳)之一,影响程度应当是相对较大的。

2018年6月,阿里云曾呈现技能故障。虽然官方最终给出的故障时间仅为30分钟,而恢复时间需要1小时。但阿里云最终仍将其界说为S1级别事故,即核心事务重要功用不可用,影响了部分用户,形成了一定损失。

2019年1月,第三方机构IDC陈述数据显示,2018年上半年中国公有云厂商中,阿里云以43%的市场占有率排名第一,适当于第二名至第九名的总和;腾讯排名第二,市场占有率为11.2%。

■ 延展

99.99%的安全性有多可靠?

事实上,宕机工作频频发生。仅2018年一年,全球干流云核算厂商曾发生数十起宕机事故。关于宕机的原因,亚马逊AWS称因数据中心硬件问题,微软Azure数据中心则因高温文打雷,腾讯云因运营和硬盘故障,谷歌则因主动化失效。

但与此同时,多家云效劳商仍在许诺99.99%的安全可靠性。对此,有技能专家表明,这一数字是通过验证的,并且通过布置反馈,故障率确实在0.01%以下。并且,一旦呈现故障,云效劳商也都有相应的容灾方案,可以及时解决问题。

沈剑在上述文章中表明,替换其他方案,也会遇到其他的问题,而自建机房,更是没有自信心比阿里云更好。现在大大都公司仍在事务阶段,考虑投入产出比,所以多机房模式其实不合适所有公司。

怎么防止宕机事故形成重大损失?有业管家士称,需要将重要事务分别放在不同的“篮子”里,也就是选择多个供给商,进行“多云”布置。负责运营微软云效劳落地的世纪互联蓝云首席执行官柯文达表明,真实的企业级市场中,用户一定是期望“多云”布置。