阿里云再现大规模宕机事故 企业还要为此赔多少钱?

2019年03月04日 08:58 次阅读 稿源:易迈云 条评论

3月3日凌晨,很多还在睡梦中的互联网公司程序员、运营和维护,在睡梦中被紧急叫醒,赶到公司加班,而出现这种情况的原因是因为阿里云没有任何征兆的,突然出现了大规模的宕机故障。因此很多互联网公司的APP和网站,突然出现了用户无法登录以及用户模块出现卡顿等现象。

对此,阿里云官方回应称,宕机原因为,华北2地域可用区C部分ECS服务器等实例出现IOHANG,后经紧急排查处理后逐步恢复。

针对阿里云此次宕机,58高级架构师沈剑称,事故持续了3个小时左右,事后观察了2个小时。

一向号称安全的阿里云,大规模的宕机事件已经不是第一次发生了。在2018年6月27日,阿里云就爆发过一次大面积的故障,当时官方给出的故障原因是部分产品的访问功能出现故障,因此导致了企业用户出现了数小时的故障时间。

2016年10月,阿里云华东1地域可用区B部分也曾发生过ECS服务器IOHANG的事故。

再往前,2015年9月,阿里云云盾的安骑士产品升级触发bug导致了用户ECS里的部分正常文件被误隔离。而这次事故的原因,解释为阿里云的程序员写错了一行代码。

另有媒体统计,2012年、2013年、2014年阿里云都曾出现不同程度的故障。

事实上,仅2018年一年,全球主流云计算厂商曾发生数十起宕机事故。对于宕机的原因,亚马逊AWS称因数据中心硬件问题,微软Azure数据中心则因高温和打雷,谷歌则因自动化失效,腾讯云甚至因硬盘故障导致客户数据完全丢失。由此可见,所谓的云计算大品牌,云服务也未必就一定安全。

如何避免宕机事故造成重大损失?

对今天的企业来说,上云是一种趋势,更是数字化转型的必走之路。我们看到,从AWS、微软Azure到易迈云等,全球任何一家云服务商对服务可靠性的承诺都不是100%,也做不到100%。

尽管大多数公有云企业在签订协议的时候,保证和承诺99.99%的安全可靠性,但谁都有可能是那倒霉的0.01%。所以企业要保持自己公司的数据安全不被破坏,就要至少准备两种应对的策略,首先是对于自己的数据定期备份和更新;另一种则是不把鸡蛋放在同一个篮子里,使用一个以上的云服务提供商,也就是选择多个供应商,进行“多云”部署。

一般情况下,小型企业受限于资金或技术能力等因素,不太会有专门的IT团队和资源对自己的服务和数据进行高可用部署或者容灾部署,那么这个时候,就更应该做好充分的预案,才能避免下一次再次出现的时候手忙脚乱。

第一:应急预案

1.    首先通知业务相关干系人

每种业务是否有对应的接口人;

相应接口人的联系方式是否正确,更新是否及时。

2.    故障或者告警到达一定级别,开始对系统降级

是否有降级方案;

降级方案是否适用;

降级方案是否进行过测试。

千万不要降级方案平时没有测试过,出事的时候拿来就用。降级这种事,如果技术部门心里都没底,如何保证出事时方案一定就可用。所以,降级方案也一定要演练!!!

3.    流量迁移

快速把故障区域的流量迁移到其他可用区域或者云服务商。

第二:问题发生时,故障检查

1.  分别确定前端和后端服务是否正常运行;

2.  确定线业务是否有异常;

3.  后台任务是否正常:例如队列消费,定时任务的执行等。

4.  分析日志是否异常;

5.  梳理故障服务器上部署有哪些服务,以及这些服务的影响范围

第三:暴风过后,怎么调整

1.    系统预警生效了么?

值班人员有没有值守岗位

核心关键系统,必须要制订值班制度

运维、研发人员是否在第一时间收到告警

如果没有收到,那么是为什么没有收到,是没有告警,还是告警覆盖缺失?

如果收到,是否及时按应急预案进行了操作

2.    挑一个大的云服务商?

像阿里云,腾讯云这样的大品牌,虽然广告推广铺天盖地,但是在架构和服务上,与一些其他名气小一些的云服务商基本差不多,在针对性服务上甚至可能还不如一些专业做云服务的公司。具体取舍,需要用过才知道,不过最好就是选取一个备用的云服务商,万一down了一家,还有一家可以顶上去。比如主业务系统跑在阿里云上,备用系统就可以跑在性价比高一点的易迈云上面。

没有绝对的安全和可靠,这些都是相对的。

3.    不相信云服务商的,自己搞一套机房。

投资成本:这个成本是否在可接受范围

可用性:自己托管在IDC机房的安全性和可靠性真的比云厂商高吗?

维护成本:需要一个庞大的IT团队来维护

4.    异地多活,不要有单点故障存在。

在生产系统中,核心重要的系统一定要部署在两台服务器以上,避免出现单点故障。并且这2台部署服务器必须在不同可用区(或者干脆不同的数据中心),因为不同的可用区之间的电力、网络是独立的。

5.    数据备份

数据备份有冷备、热备、本地备份、异地备份,更重要的是数据备份要具有可用性,而且一定要有可用性。

总之,在云平台上部署业务,并不是买几台云服务器部署上去就高枕无忧了,要根据自己的业务情况选择不同的方案。

后话:

对阿里云来说,这不是第一次故障,也不会是最后一次故障。对其他云服务提供商而言,阿里云发生的故障也会在自己身上不断重演。但对上云企业来说,“事故”的一次次发生不断地教训了自己,上云不能全靠云服务提供商,自己要考虑IT系统的高可用性,要考虑做容灾。

最后,数据一定要备份!!! 要备份!!!要备份!!!!!!

再最后,数据备份一定要可用!!! 要可用!!!要可用!!!!!!

访问:

腾讯云

访问:

阿里云 - 最高1888元通用代金券立即可用

对文章打分

阿里云再现大规模宕机事故 企业还要为此赔多少钱?

1 (25%)
已有 条意见

腾讯云

    最新资讯

    加载中...

    今日最热

    加载中...

    热门评论

      Top 10

      招聘


      Advertisment ad adsense googles cpro.baidu.com
      created by ceallan