11月12日,在双十一购物节庆典结束的次日,淘宝、钉钉和闲鱼等一系列在阿里云服务上运行的阿里系产品崩溃了三个多小时。阿里云方面声称该事件是由于云产品控制台访问和 API 调用的“异常”造成的。

此次大规模宕机是阿里云一年内第二次出现系统故障。去年12月,香港和澳门的云服务发生大规模故障,部分用户站点中断时间长达24小时以上。当时的阿里巴巴首席执行官兼董事长张勇接任阿里云负责人,据称此次故障是“最长的大规模”中断。

长时间的云服务故障可能给客户业务带来损失,与此同时,阿里云的两次崩溃也必然会影响到其现有客户续费率和潜在客户的购买意愿,造成了极大的资产损失。

那么阿里云接连两次问题的出现,到底揭示了其哪方面的不足?对于其他企业来说,又有什么地方可以借鉴或是引以为戒呢?

复杂系统难逃故障,迅速定位问题是第一步

造成阿里云大规模宕机的原因不外乎两点:系统故障与人为因素。

系统故障是系统复杂性的必然后果。阿里云的云平台由众多服务器、网络、存储等组件构成,任何组件故障都会引发整个系统的崩溃。这一庞大而复杂的系统需要众多工程师的维护管理,在维护过程中出现的任何失误,哪怕只是一个疏忽或操作不当,也会导致系统的故障。

不仅是云计算平台,许多企业在数字化转型进程中往往会构建复杂的基础设施,更新现有的应用程序,同时添加多云、虚拟和云原生功能。最终,企业IT人员所管理的则是包含了云、系统、应用程序和数据库基础设施的多样化、复杂的分布式网络。

为了控制由此产生的复杂性,企业选择部署监控和管理工具。阿里云作为国内一流的云服务商,也部署了相应的监控工具。再看这一次事件,从17:39监控发现问题,到18:01已经定位到故障根因所在,此后修复时间约1.5小时。

从问题定位速度来看,阿里云已经算是表现良好。但对于更多企业来说,为了简化系统监督而部署各种监控工具,反而会形成数据孤岛。零敲碎打的监控方式加剧了操作盲点并使得问题解决更加困难,还增加了安全风险。很快,不堪重负的IT运维人员就因其过于复杂而难以跟上应用程序现代化或基础设施动态的步伐。

「敏捷」与「创新」伴随稳定性流失,需要正视IT运维价值

阿里云的研发与运维能力已经是顶尖水平,但仍然没能避免故障。阿里云需要考虑的是如何深入调查和改进其云平台的系统架构和运维管理问题。

在当前数智经济时代,企业面临更开放的市场,各种产品推陈出新,技术周期越来越短,新的监管要求和法规层见迭出。因此,企业为了适应不断变化的市场与环境,也在持续创新,并越来越多地引入敏捷方法。

这种对创新与敏捷的追求,往往伴随着稳定性的代偿,多变的需求以及大规模的协同,更加冲击着整套复杂系统的稳定性。而严格的隔离、冗余、降级和问题排查都会有相应的开发成本和隐形代价。

尽管企业已经意识到IT运维工作的必要性,但仍然并没有意识到IT运维的价值转变,一方面只招聘基础运维团队,在出现问题时又要求运维人员能够快速排查定位和解决问题,受限于人员能力导致损失进一步扩大;另一方面,IT运维与业务收益实际上息息相关,这一点从阿里云事件就可以看出,系统故障直接导致用户体验下滑、业务收益损失和品牌资产损失。

这种情况很常见,但并非不可避免。IT 团队可以部署经济高效的全栈端到端观测平台来克服系统复杂性和孤岛问题,通过观测应用性能和业务数据来验证企业数字化转型的成效。

全栈观测平台比传统监控更能高效辅助IT运维工作

意识到系统性能与业务收益密不可分,就不能忽视IT运维工作的重要性,除了从人员角度增加投入之外,更要革新当前的技术手段,以更智能的全栈观测平台代替传统监控手段,以实现从全局观测复杂系统。

▶ 一个平台透视系统全局

传统监控可帮助IT组织了解其基础设施和应用程序的实际状态。它捕获并处理大量基础设施和应用程序遥测数据和通知,以便IT运维人员可以识别异常情况并在出现问题时进行调查。

监控依赖于面向各种指标的仪表板,该仪表板旨在根据手动或基本统计相关阈值评估遥测数据。监控工具有一定价值,但它们不提供跨域关联、服务交付洞察力、操作依赖性或可预测性。现代系统具有复杂的多云环境和大量的遥测数据,而这就是传统监控工具的短板。

全栈观测平台则通过检查输出来测量系统的内部状态,并查看整个应用程序和系统,包括从最终用户体验到服务器端指标和日志。

除此之外,全栈观测平台也将监控作为一个关键要素。要实现对系统的全面可观测,首先必须通过监控收集信息,然后再定位导致当前问题的原因。

监控汇总并显示数据以确定系统是否按预期运行,将此信息的分析与预期结果和目标进行比较。这使得IT运维人员能够了解其基础设施和应用程序的状态。

▶ 动态观测、自动化分析

全栈观测平台能够帮助企业在复杂、多样化和分布式混合和云环境中不断提高性能、可用性和数字体验。

借助观测平台,组织可以快速发现并解决异常情况。而全栈可观测性不仅仅限于监控和快速解决问题,它通过跨域数据关联、机器学习 (ML) 和人工智能 (AIOps) 为IT运营提供见解、自动化分析和可操作的情报。它适用于大量实时和历史指标、日志和跟踪数据。

全栈观测平台超越了与传统监控的孤岛和零碎方法。当被赋予更多权限时,除了能够帮助IT运维团队加快问题解决速度,它还使ITOps、DevOps和安全团队能够通过不断改进的数字体验和IT生产力来实现业务服务交付的一致性、最优化和可预测。客户、员工以及企业本身也就能够受益于更好运行的系统。

塞讯业务观测验证平台是塞讯验证耗时两年潜心自主研发的一款全栈观测平台,以业务交易为视角,通过监控从基础架构、系统平台、中间件、应用程序到数据库,涵盖应用全部组件的性能指标,实现系统端到端可视化,自动发现系统的业务拓扑,监控事务性能、错误及告警,从而确保业务应用按预期运行,同时也可洞察业务运营数据,挖掘潜在业务商机,提高业务创收。

两年磨一剑!塞讯业务观测验证平台正式上线

我们为各行业各种规模的企业提供全面、集中且经济高效的观测验证体验。当企业开始数字化转型之旅时,目标不是更复杂的系统和应用,但当企业需要更新当前应用程序并向其堆栈添加大量数字化服务和功能时,降低复杂性的关键就是对其性能的观测验证。

塞讯业务观测验证平台简化了数字化转型的过程,帮助企业降低运营噪音,使AIOps、DevOps和安全团队都能受益。他们可以集中精力更加主动地检测问题和异常,以实现最佳的IT性能、合规性和运营弹性。