|
就在微软全家桶用户还在吐槽上周连续两天服务崩溃时,谷歌云这边也在“稍早前”闹出了大新闻。今年3月29日,位于美国俄亥俄州哥伦布市的谷歌云us-east5-c数据中心突发重大故障,原本号称永不断电的不间断电源(UPS)系统竟然集体掉链子,导致该区域云服务瘫痪6小时10分钟。
这场事故的剧本堪称黑色幽默:当天市电中断后,本该立即接力的UPS电池组突发故障,导致基于AMD EPYC和英特尔至强处理器的服务器集体断电。更糟糕的是,备用发电机也未能及时启动,造成该区域虚拟机集体下线,连带引发数据包丢失和部分存储磁盘失联的次生灾害。
谷歌工程师团队紧急上演"抢救大作战":先给不依赖区域资源的服务紧急改道,接着绕过故障的UPS系统直接启动发电机。经过争分夺秒的抢修,太平洋时间29日14点49分总算恢复供电,多数服务在半小时内陆续复活,但仍有部分系统需要手动操作才能完全恢复。
谷歌云负责人亲自出面致歉:"对于受影响客户,我们深表歉意。这绝不是我们应有的服务水准。"为防悲剧重演,谷歌立下三道军令状:1、优化电力故障恢复流程,缩短系统重启时间;2、全面检修未能自动切换的备用系统;3、联合UPS供应商彻查电池组故障原因。
这次事故给所有云服务商敲响警钟——即便强如谷歌,号称固若金汤的电力保障体系也可能在关键时刻掉链子。不过比起微软上周连续两天闹罢工的办公全家桶,谷歌这次至少把故障控制在单个区域,也算是不幸中的万幸了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|