数码之家

 找回密码
 立即注册
搜索
查看: 123|回复: 0

[业界] 谷歌云遭遇黑色星期六:自家"永不断电"系统宕机6小时 机房服务器全趴窝

[复制链接]
发表于 2025-4-15 18:20:22 | 显示全部楼层 |阅读模式
就在微软全家桶用户还在吐槽上周连续两天服务崩溃时,谷歌云这边也在“稍早前”闹出了大新闻。今年3月29日,位于美国俄亥俄州哥伦布市的谷歌云us-east5-c数据中心突发重大故障,原本号称永不断电的不间断电源(UPS)系统竟然集体掉链子,导致该区域云服务瘫痪6小时10分钟。

这场事故的剧本堪称黑色幽默:当天市电中断后,本该立即接力的UPS电池组突发故障,导致基于AMD EPYC和英特尔至强处理器的服务器集体断电。更糟糕的是,备用发电机也未能及时启动,造成该区域虚拟机集体下线,连带引发数据包丢失和部分存储磁盘失联的次生灾害。

谷歌工程师团队紧急上演"抢救大作战":先给不依赖区域资源的服务紧急改道,接着绕过故障的UPS系统直接启动发电机。经过争分夺秒的抢修,太平洋时间29日14点49分总算恢复供电,多数服务在半小时内陆续复活,但仍有部分系统需要手动操作才能完全恢复。

谷歌云负责人亲自出面致歉:"对于受影响客户,我们深表歉意。这绝不是我们应有的服务水准。"为防悲剧重演,谷歌立下三道军令状:1、优化电力故障恢复流程,缩短系统重启时间;2、全面检修未能自动切换的备用系统;3、联合UPS供应商彻查电池组故障原因。

这次事故给所有云服务商敲响警钟——即便强如谷歌,号称固若金汤的电力保障体系也可能在关键时刻掉链子。不过比起微软上周连续两天闹罢工的办公全家桶,谷歌这次至少把故障控制在单个区域,也算是不幸中的万幸了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-1 21:55 , Processed in 0.421201 second(s), 9 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表