互联网“大厂”频现“宕机门”,降本增效或是“罪魁祸首”

2024-01-11 09:03:46 51VPN服务中心 228

image.png近日,“阿里云崩了”“滴滴崩了”“腾讯视频崩了”相继冲上热搜,对用户购物、企业运营、公共服务、出行、娱乐等均造成不同程度影响,平台“闪崩”导致我们的生活“断片儿”,也不禁让人给互联网应用的稳定性、安全性打上了一个“问号”。

网络安全是数字中国建设的重要基础,近年来,我国网络安全制度体系不断完善,《中华人民共和国网络安全法》《中华人民共和国数据安全法》等法律相继颁布,《关键信息基础设施安全保护条例》《网络安全审查办法》等规范性文件陆续出台,依“法”保障网络安全的“四梁八柱”逐渐成型。

2023年,《数字中国建设整体布局规划》明确提出,“筑牢可信可控的数字安全屏障”。在深度依赖移动互联网APP的当下,互联网企业必须把安全摆在首位,避免出现“寸步难行”的尴尬局面。纵观近年来的宕机事件,其原因或是水灾、火灾等天灾,或是软硬件错误等系统故障,亦或是员工误操作、删库跑路、断电等人为灾难。而从技术上来说,宕机真的不可避免吗?

近几年,随着云计算的渗透、数据量的迅猛增长,越来越多的政府机构、企业等将自己的系统、数据搬上“云”,催生了越来越多的“国民级应用”,但传统的灾备架构已很难满足业务快速恢复的需要。其实,理论上任何技术或者服务出现中断都是不可避免的,仅是概率大小的问题。无论是传统的环境,还是云环境,互联网的服务数据终究要流向数据中心,要汇集到几个中心节点上,这种物理属性决定了数据中心无法规避外界因素,也就无法做到永不宕机,世界一流的科技巨头、云服务公司概莫能外。

虽然所有的云服务都不是绝对安全的,没有办法百分之百保证系统的稳定运行。但大部分情况下,云环境的可用性和可靠性都比传统环境高,这主要是因为云平台的运维更加专业。而对于近期互联网企业的频繁宕机,有人质疑是互联网厂商过度追求“降本增效”、忽视运维导致的。的确,从表面上看,宕机是由于技术故障和不可抗力造成的,但究其根本还是没有提前做好容灾应急预案。

针对不同种类的故障,灾备行业有三种不同等级的防御方式:数据级、应用级、业务级。现在业内主流的容灾架构还是灾备、容灾,属于数据级的容灾方案。专业人士建议,在顶层设计上要留足安全冗余,关键信息数据和技术平台的备份、通信网络容灾机制的设计、数字技术与传统基础设施的融合等方面都需要“从坏处准备,努力争取最好的结果”。

近些年,互联网厂商“沉迷”于降本增效、削减预算、裁员等;同时,受“投入产出比”影响,企业的安全冗余和灾备能力也不可能无限进行备份。阿里云宕机后发布的回应中也承认,事故现场处理不及时导致触发喷淋系统、故障消息发布不够及时,是放大该宕机事件影响的重要原因。

也正是这个回应,让部分业内人士发现了问题要害所在:精简人员、裁掉高薪的资深程序员而过于依赖年轻人,没有双机热备方案、备用机房和多节点集群等应急和防范措施,都是加剧宕机影响的原因之一,而这也是降本增效的“后遗症”。

总而言之,滴滴、阿里、腾讯系应用的宕机是否与降本增效直接相关,是一个复杂的问题。不管有没有直接关系,相信频繁的宕机已经让“大厂”意识到改进基础设施、增加容灾备灾预案和培养高端技术人才的重要性。此外,互联网厂商诸多服务涉及公共行业,应该时刻保持未雨绸缪、防微杜渐的意识,才能在互联网这个危机四伏的“江湖”里,立于不败之地。


服务热线

400-828-7558