Page 1 of 1

网易云音乐宕机事故 据说是因为整个部门只剩下一个人的原因

Posted: 2024-08-21T04:12:03+00:00
by expl
在地球东八区时间 2024-08-19 14时许,网易云音乐出现 网站500系列错误,至当日17时依然没有恢复。

关于此次事故传言很多,网易云音乐官方给出了“定论”的解释说是新建了机房,在数据中心切换过程中出现了错误,并给出了7天的会员权限补偿。
对此,我们站在技术和企业管理角度来分析一下。

如果网易的官方解释没有撒谎,那么也是有相当大程度的隐瞒的。作为国内为数不多的得到XX保护的互联网企业,网易可以说是只要它想,它就有数不尽的资源可以调用。在这种资源背景下,数据中心的切换本不应该出现任何问题。但是事实是确实出问题了,而且出问题后长达几个小时的时间里都没有解决!这在互联网行业可以说是毁来级的事故了。但是,刚才说了网易是一个得到XX保护的企业,它出这样的事故并不会导致它的毁灭。

我相信网易云音乐的程序并不是外包出去做的,而是它自己组织人员开发的。在这种情况,它内部是非常清楚每一个技术细节的,包括其运行所需要的所有依赖。这也就意味着,只要它的公司技术部门在,运行就不会出现问题。即使万一“不小心”出错了,也能在秒级时间内恢复。最差的情况下也能在分钟级别的时间内恢复。但事实是几个小时都没恢复。于是我开始相信传言中的是由于“降本增效”而把技术部门只剩下了一个新人,新人按着过时的技术文档,在没有深入理解、没有搭建环境作深度测试的情况下就貌然做了整体迁移。

有知道更多内幕的吗?一起聊聊啊