数码之家

 找回密码
 立即注册
搜索
查看: 134|回复: 9

[业界] 滴滴出行:这起事故的起因是底层系统软件发生故障 并非网传的遭受攻击

[复制链接]
发表于 2023-11-29 19:49:45 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
1.jpg
 楼主| 发表于 2023-11-29 19:51:09 | 显示全部楼层
@Apache9
谣传滴滴那个大事故是 K8s 升错了版本,导致所有 pod 都被杀了,然后控制节点也一起被 kill ,导致无法回滚,所以恢复了十二个小时。
这东西我第一反应是震惊,但仔细想了想从业以来的经历,觉得倒也不奇怪,这个世界就是这么草台班子。
当然,为啥能搞出这么低级的升级错误就不说了,我们还是讨论了一下为啥恢复这么慢的。

首先,一般来说你也不能一个机房里真的就一个集群吧,再降本增效,你也得考虑万一一个集群整体挂了怎么办吧?但看起来滴滴就是真的没有。
第二,真出了这种问题,先分出一部分机器来直接重装,把核心服务拉起来,半个小时一个小时顶天,也能快速恢复起来啊。但看起来滴滴也搞不定。大家想了想,可能几个原因吧。

第一,你也不知道真的核心链路上都有哪些服务。这不是靠人手工填一次就行的,必须上 tracing,真的把请求链路抓出来才是准的。并且平时要做演练,对于非核心链路上的服务,必须真的做到挂了也不影响主流程。但凡平时的功夫没做到位,真到了关键时候,你就是发现所谓“核心服务”都拉起来了,结果请求哪个犄角旮旯没人知道的服务不成功,主流程直接就挂了,最后兜兜转转,差不多所有服务都拉起来了,主流程才真的恢复,这可不大半天就出去了。

第二,虽然说的是上 K8s,但很多公司其实只是为了上而上,根本没有真的改造成无状态的样子,配置里写死 host 写死 path 的地方多如牛毛,pod 换一台机器拉起来服务就挂。那这出了这么大的事,配置全不能用了,那可不得一点一点儿的改?如果真是这样,我觉得滴滴的同仁还挺牛逼的,这么短时间就能改完把服务都拉起来,这东西搞个一周都搞不好太正常了。

最新消息,滴滴致歉声明里领优惠券的页面又挂了,加载不出来了,这脸打的真是啪啪响。。。
总之,如果说前一阵阿里云的故障是打破了互联网大厂的技术神话,滴滴这一把真是把所谓互联网大厂技术光环的底裤都输没了。

最后,还是应了那句话,开猿节流,降本增笑
回复 支持 反对

使用道具 举报

发表于 2023-11-29 20:48:42 | 显示全部楼层
演习还是演戏,下一个会不会是企鹅
回复 支持 反对

使用道具 举报

发表于 2023-11-29 22:31:14 | 显示全部楼层
听说一个人账号一下子多出来几十亿,不知道提现了多少?》
回复 支持 反对

使用道具 举报

发表于 2023-11-29 23:25:49 | 显示全部楼层
现在人对网络依赖太强了。
回复 支持 反对

使用道具 举报

发表于 2023-11-29 23:42:17 | 显示全部楼层
一主一备是不可能的了,为了降本,啥都不考虑了!
回复 支持 反对

使用道具 举报

发表于 2023-11-29 23:42:47 | 显示全部楼层
一主一备是不可能的了,为了降本,啥都不考虑了!
回复 支持 反对

使用道具 举报

发表于 2023-12-1 18:09:57 | 显示全部楼层
别管滴滴了
     
先解决论坛网站问题吧
回复 支持 反对

使用道具 举报

发表于 2023-12-1 21:19:30 | 显示全部楼层
软件发生故障
回复 支持 反对

使用道具 举报

发表于 2023-12-2 00:15:56 | 显示全部楼层
这种就属于没事就想上新功能
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2024-4-28 07:34 , Processed in 0.124801 second(s), 13 queries , Redis On.

Powered by Discuz!

© 2006-2023 smzj.net

快速回复 返回顶部 返回列表