Uptime发布2025年度停机分析报告

 Uptime Institute今日发布其2025年第七份年度停机分析(Annual Outage Analysis)主题报告。对于数据中心所有者和运营商而言,预防数据中心停机仍然是一项战略重点。基础设施设备有所改进,但现代架构的复杂性以及不断演变的外部威胁带来了新的风险,运营商必须积极应对这些风险。


Uptime Intelligence研究连续第四年表明,总体停机频率以及所报告的停机严重程度的总体水平持续下降。然而,网络安全事件呈上升趋势,并且往往会产生严重且持久的影响。


Uptime Intelligence创始成员兼执行董事Andy Lawrence表示:“总体而言,停机情况有所减少。数据中心运营商面临着越来越多超出他们控制范围的外部风险,包括电网限制、极端天气、网络提供商故障以及第三方软件问题。尽管风险环境更加不稳定,但情况仍在改善。”


Uptime的年度停机分析在行业内独树一帜,它综合了多项调查、Uptime Institute成员及合作伙伴提供的信息,以及其公开报告的停机事件数据库。


主要研究结果包括:

  • 相对于数字基础设施的快速增长,停机事件变得越来越不频繁,严重程度也在降低。这一趋势已持续数年,突显了行业在风险管理和可靠性方面的进步。

  • 电力仍然是导致重大停机事件的主要原因。2024年,由IT和网络问题导致的停机事件有所增加,占重大停机事件总数的23%。这一趋势反映了长期以来向托管服务提供商、云计算及其他第三方服务的转变。虽然外包可能会降低一些企业的风险,但重大故障仍时有发生,有时会造成严重后果。这种增长可能是由于IT和网络复杂性增加,导致变更管理问题和配置错误。

  • 基于软件的分布式弹性工具正在不断扩展。这些系统提高了正常运行时间,但也可能引入新的风险和复杂性。将基于软件的弹性策略与物理故障切换/冗余相结合,无疑有助于整体可用性的提升。然而,增加的复杂性带来了自身的挑战,并且可能会模糊故障责任界限,使根本原因分析和停机分类变得更加复杂。

  • 行业转型的步伐正在加快。对AI的需求激增给现有基础设施设计带来了压力,尤其是在电力和冷却方面。与此同时,电网限制和全球贸易紧张局势给供应链和扩张计划带来了新的不确定性。这些压力共同作用,最终可能会影响当前可靠性趋势的稳定性。


2025年,由未遵循程序导致的人为错误相关停机事件的比例比2024年上升了10个百分点。与上一年相比,员工未遵循程序已成为导致停机的更主要原因,这表明通过培训和流程审查来减少此类事件存在重大机会。绝大多数与人为错误相关的停机事件都涉及忽视程序或程序不完善。在过去三年中,近40%的组织曾遭受过由人为错误导致的重大停机事件。在这些事件中,85%源于员工未遵循程序或流程和程序本身存在缺陷。这种上升的原因尚不清楚,但可能是行业快速增长以及许多地区由此导致的人员短缺的结果。虽然改进文档记录和流程仍然很重要,但更加注重员工培训和实时运营支持可能会更有效地降低风险。


在Uptime追踪公开报告的停机事件的九年时间里,第三方IT和数据中心服务提供商(包括云计算和互联网巨头、电信公司以及托管公司)约占所报告停机事件的三分之二。


2024年,归因于数字服务提供商的停机事件有所增加,而来自云计算/互联网巨头的停机事件则有所减少,这可能是由于超大规模企业在分布式弹性和区域故障切换方面的投资。自2020年以来,金融行业的停机频率连续第三年低于长期平均水平。这种改善可能反映了在2021年之前发生的几起重大且备受瞩目的停机事件之后,更严格的监管和监督所产生的影响。



注:本文转载自国际文传,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权行为,请联系我们,我们会及时删除。