阿里云故障,多家网站瘫痪 宕机教会我们一件事
2019-03-05 09:40:17 来源:览潮网 作者:小青桔 责任编辑:王超

阿里云又出故障了。3月3日,有众多网友发现阿里云疑似出现大规模故障情况,使得多家互联网公司网站和APP瘫痪。目前,阿里云方面回应称已经经过紧急排查确认了问题原因的所在并逐步恢复,并开始根据SLA协议安排赔偿事宜。

云安全无小事,一旦云服务出现宕机,不仅影响到企业的生存,也会对用户体验造成破坏,业内人士建议,多云部署或可避免危机。

阿里云认错承诺尽快赔偿

阿里云宕机这一次发生在午夜。3月2日23时55分左右,阿里云开始出现大规模故障,3月3日凌晨,有不少网友微博上反馈称阿里云疑似出现了宕机故障,博主@ 辣笔小球称,华北相当多的互联网公司都炸了,APP、网站全部瘫痪,一大波程序员和运营、运维专员都从被窝爬起来去公司干活了。

一些受影响的网站和APP随即发布了故障说明公告,表示页面无法加载、APP卡顿、网站停止访问等都是因阿里云故障导致,有的还贴出了阿里云工程师给出的故障通知截图。

58高级架构师沈剑在文章中回忆称,这场宕机事故持续了三个小时左右,事后观察了两个小时。

对此,3月3日早间,阿里云发布公告称,华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后已全面恢复。目前已经全面排查其他地域及可用区,未发现此类情况。针对本次故障,阿里云将根据SLA协议,尽快处理赔偿事宜。

据业内相关人士介绍,所谓IO HANG,就是云服务器的磁盘无响应。这意味着输入输出卡住了,无法使用存储功能。

虽然阿里云承诺尽快处理赔偿事宜,但阿里云并未公开详细的赔偿细节。不过,在阿里云开发者论坛上,曾有网友回复称,赔偿方案通常根据包年包月预付费模式和按量付费模式等有所不同,按每台故障时间的100倍赔偿,赔偿总额不超过支付的单台云服务器费用总额。

互联网厂商云服务宕机时有发生

近年来,越来越多的企业放弃自建机房选择“上云”。IDC2018全球CloudView调研的数据显示,81%的受访企业正在或计划使用公有云。

Gartner数据表明,云计算占全球总IT支出的规模正在不断增加。从2010年的1.99%,上升到2018年的8%,而未来几年向云转移将会直接或间接影响超过1万亿美元的IT支出。

在我国,国家政策成为我国云计算产业发展的第一剂催化剂。云计算相关支持政策不断出台,2018年7月,工信部出台的《推动企业上云实施指南(2018-2020年)》和《扩大和升级信息消费三年行动计划(2018-2020年)》,明确了2020年全国新增上云企业100万家的目标。

另据工信部印发的《云计算发展三年行动计划(2017-2019年)》提出,到2019年,我国云计算产业规模达到4300亿元。而数据显示,“十二五”末期,我国云计算产业规模约1500亿元,这意味着,未来几年内,云计算产业将高速发展。

随着云计算产业规模的不断扩大,资本巨头开始积极布局云计算。初步形成了三大主流竞争阵营,即互联网阵营、IT阵营和电信运营商阵营。

国内云计算市场上,以阿里云、腾讯云、百度云等为首的互联网公司在提供云服务方面起步最早,占据了先发优势,不过,中国电信等运营商也占据着国内较大的市场份额,此外华为、中兴、浪潮等企业也开始加入布局。

这其中阿里云占据了中国市场半壁江山。市场研究机构IDC日前公布的2018年上半年中国公有云厂商市场份额数据显示,阿里云占43%,腾讯云占11.2%,中国电信占7.4%,分列前三。

根据阿里云的官方描述,阿里云在中国公共云市场占有率超过第二名至第五名公司的总和,目前中国有40%的网站都在阿里云上运营,一半独角兽公司也在使用阿里云。

无疑,阿里云在中国市场叱咤风云,然而成绩越大,责任就越大,尽管多家云服务商仍在承诺99.99%的安全可靠性,但自2009年创立以来,阿里云就已出现多次故障。

2012年10月30日,由于电力故障阿里云部分服务器30余分钟无法正常访问,事后阿里云为此次受影响的用户统一提供百倍赔偿。

2013年1月18日,阿里云机房发生临时故障,部分用户服务器无法访问,20分钟修复。

2013年1月23日,阿里云发生网络系统故障,OSS服务无法正常进行,故障持续长达6小时。

2014年11月14日,由于市政施工导致运营商光纤受损,阿里云杭州可用区D网络故障,受此影响,当天不少P2P平台网站无法打开。

2015年6月21日,一些使用阿里云香港数据中心的用户反映,其服务出了问题,服务中止12小时。对此,阿里云公告称因运营商电力问题造成香港机房故障。

2015年9月1日,多位用户曝出,运行在阿里云上的系统命令及可执行文件被删除,严重影响线上服务及运维。虽然阿里云官方声明称,是由于云盾升级触发bug,导致少量文件被系统误删除,并将立即启动百倍时间赔偿,但9月3日,阿里云云盾负责人吴翰清撰文称,事件原因是“工程师粗心大意写错一行代码”,并向受影响的用户道歉。

2016年7月6日,阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响。故障持续长达1小时。

2018年6月27日,阿里云出现大规模访问异常,图片服务等产品无法正常使用,官网账号也无法登陆。阿里云内部人士曾透露,此次故障并非宕机,而是账户登录异常,云服务器不受影响。

事实上,不仅阿里,几乎一年发生一次故障,仅2018年一年,全球主流云计算厂商曾发生数十起宕机事故。

2018年1月18日,谷歌云自动化失效导致宕机,宕机93分钟;

2018年3月2日,亚马逊AWS宕机致部分Alexa失声,宕机数小时;

2018年5月31日,亚马逊AWS北弗吉尼亚地区数据中心出现硬件问题,宕机30分钟左右;

2018年6月17日,微软Azure爱尔兰数据中心宕机,宕机时间5小时以上;

2018年7月16日,亚马逊进行“Prime Day”会员促销活动之际,网站发生约一小时故障;2018年7月20日,腾讯云云硬盘故障,宕机半小时左右,导致创业公司数据完全丢失;

2018年9月4日,微软云 Azure数据中心因高温和打雷宕机,宕机时间超过24小时;

2018年11月9日,谷歌公有云下的Kubernetes服务(GKE)宕机,宕机时间接近19小时。

云服务宕机时间过长,会给企业级用户造成巨大损失,此外更影响着千万亿万普通用户的网络体验,可以说每次云厂商出现故障(即使是很小的故障)也会在网络上引起轩然大波。

多云策略或成企业上云首选

企业上云已成趋势,不可否认的是,受多种条件的限制,当前对数据存储而言没有彻底安全的方式。即便是云服务提供商提供了100% SLA保障,故障还是会发生,根据Veritas发布的《云中的真相》报告指出,59%的全球受访企业(中国:70%)认为,处理云服务中断是云服务提供商的首要责任。

在云信达创始人张兵看来,不管是阿里云还是腾讯云,云厂商频繁发生宕机,数据丢失的事件,从根本上来说是云灾备、数据管理意识普遍不强,没有很健全的灾备建设。“过去像电信这种数据中心,都是有几十年的沉淀,而现在基于云的数据中心普遍建立年份短,技术和意识积淀不深,进而整个数据管理体系不完善。

如何避免宕机事故造成重大损失?有业内人士称,需要将重要业务分别放在不同的“篮子”里,也就是选择多个供应商,进行“多云”部署。

根据451 Research的研究报告显示,69%的受访企业(788家企业参与调研)选择了多云部署来支撑业务的增长,其中36%的企业选择了3种以上的云计算服务。

网络调研公司Kentik的一份调研报告也显示,AWS和Azure虽然是激烈的竞争对手,但两家云服务商经常同时出现在企业用户中。根据IDC预测,2020年时,将有90%的企业使用多种云服务和平台,这也进一步表明多云策略已成为企业上云共识。

在多云部署中,来自运营商的云服务成为一股不可忽视的力量。以中国电信天翼云为例,天翼云的“云网融合、安全可信、专享定制”三大特性为其铸造了坚实后盾。

在云网融合方面,各大互联网厂商更多强调的是云,而非网络,但智能时代的一个先决条件就是网络,网络成为天翼云的专属优势。天翼云目前已经具备了“2+31”的云网基础格局,是国内第一家实现“一省一池”的云服务商;同时天翼云还可实现访问时延不超过20ms、省内入云专线延迟低于2ms、最高100Gbps的大带宽定制服务,真正做到网随云动、入云便捷和云间畅达。中国电信天翼云总经理胡志强指出,5G和光宽带网的进一步建设,将会让云和网络的一揽子服务优势更加明显。

在安全领域,作为云计算公司中少见的“央企队”,天翼云提出了“5S”安全保障体系,从系统、持久、标准、保密和服务五方面为客户提供安全可信的全方位服务。在历年来可信云认证单次/累计通过数量业内第一,12个资源池通过5星+最高级别认证,遥遥领先业界。

在专享定制上,天翼云可为不同客户以及同一客户的不同部门提供专享定制。据了解,天翼云3.0为政企客户提供全流程定制化服务,用户可以根据需求灵活选择包括公有云、专享云、混合云和私有云在内的各种云服务模式。

未来将是多云部署世界,博采互联网公司、IT厂商、运营商云服务众长,不失为企业上云上佳选择。