再就是大半个月前(11月12日),双十一刚过,阿里就以阿里云直接崩溃来收尾,阿里系的钉钉,淘宝,闲鱼,语雀,高德地图等重磅应用全线崩溃,并且还影响到数以万计的客户,那些使用了阿里云OSS服务的公司,无一幸免。
开源节流把干活的一线裁走了,写PPT的留下来,从上面这几个故障来看都是程序测试不够就上线造成的P0级的问题,开源节流,降本增效的最后反而成了开猿节流,降本增笑。
而滴滴这次崩溃损失可谓非常大,预估损失千万订单量和超4亿成交额,滴滴的问题,据说是Kubernetes升级大翻车,这种惊人的恢复时长通常会与存储/数据库有关,合理推测根本原因是:不小心降级了k8smaster,还一口气跳了多个版本——进而etcd中的元数据被污染,最后导致节点全都挂掉,而且无法快速回滚。
再久之前(10月23日)下午两点左右,语雀发生服务器故障,*文档和官网均无法打开。这次事故是由于新的运维升级工具bug导致的:因此华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。最后经过新建存储系统、数据恢复、数据校验、团队联调等过程,最终在22点恢复语雀全部服务,历时近8个小时。
距离上一次阿里云发生P0事故,还不到一年的时间,在去年的12月,阿里云*地区就发生了严重的故障,导致服务中断了超过12小时,而现在一年时间都不到,又发生了类似事件。事后网友分析是:Auth因为配置失当挂了,推测根因是OSS/Auth循环依赖,一改错黑白名单就死锁了。
月27日晚间开始,滴滴APP就开始出现故障,包括网约车和共享单车等业务均无*常使用,一直持续到11月28日午间才恢复正常。滴滴这次覆盖范围甚广的长时间“崩了”,让不少上班族上班迟到,“全勤没了”也因此冲上热搜。
互联网服务的影响越来越大,反过来也说明其“崩溃”带来的损失和危害越来越大,这就对互联网服务提供者特别是大厂有了更高的要求:一方面要加大安全方面的投入,避免网络安全事件的发生;另一方面在发生网络安全事件之后,要采取合理必要的防护措施,按照规定主动报告,同时按照预案有关程序进行处置、尽最大努力降低事件影响。
奇安信网络安全事件响应专家、威胁情报中心负责人汪列军指出,网络安全事件拖延时间越长,其危害性往往越大,后续的故障恢复以及消除影响等工作也更加困难。因此,对于网络安全事件报告的时效性要求非常高。
不只是国内,国外一些知名互联网企业近期也出现过宕机等问题。例如,11月8日,OpenAI旗下的ChatGPT(聊天机器人服务软件)和API(应用程序编程接口)无法使用,宕机时间超过12小时。
为准确评估网络安全事件造成的影响,为全面统筹后续的响应处置、溯源分析以及故障恢复提供有力支撑,报告内容至关重要。为此,《意见稿》第五条明确规定,运营者应当按照《网络安全事件信息报告表》报告事件,至少包括事发单位名称及发生事件的设施、系统、平台的基本情况;事件发现或发生时间、地点、事件类型、已造成的影响和危害;初步分析的事件原因;下一步所需的线索以及进一步采取的应对措施等。
月8日,国家互联网信息办公室起草的《网络安全事件报告管理办法(征求意见稿)》(以下简称《意见稿》),向社会公开征求意见。《意见稿》明确,按照《网络安全事件分级指南》,属于较大、重大或特别重大网络安全事件的,应当于1小时内进行报告。
如今,老百姓的衣食住行乃至购物、娱乐、就医等都与各类APP深度绑定,互联网也变得像水电煤气等基础设施一样,成为生活中不可或缺的一部分。
在汪列军看来,《意见稿》提倡并鼓励有关单位及时、完整、准确地报告网络安全事件,对于迟报、漏报、谎报或者瞒报的网络安全事件,造成重大危害后果的,应按照相关法律进行处罚,这对于网络安全事件发生后的报告工作具有重要意义,在很大程度上能够减少网络安全事件造成的实际危害。
为此,《意见稿》提出,运营者在发生网络安全事件时,应当及时启动应急预案进行处置。按照《网络安全事件分级指南》,属于较大、重大或特别重大网络安全事件的,应当于1小时内进行报告。同时,《意见稿》还明确,因运营者迟报、漏报、谎报或者瞒报网络安全事件,造成重大危害后果的,对运营者及有关责任人依法从重处罚。
有话要说...