前段日子,阿里系的整个应用全部崩溃,很多人说这是史诗级的大崩溃,会波及到很多人,会裁员。
1.怎么评估软件系统的可靠性?
那我们怎么能够确定这次故障是一个非常严重的故障呢?在项目里或者在工业上要怎么做判断呢?
实际上有一个衡量软件可靠性的标准,一般叫做“5个9”或者“4个9”,有同学问“5个9”“4个9”是什么意思,我们可以来看下面这张图。
几个9表示,一年之内你的系统累计故障的时间,1个9大概36天,2个9大概3天,三个9只有8个小时。
在我们软件业最常用的是4个9,正常在美团这样的大公司系统里,例如登录或者支付的核心基础架构,至少应该达到4个9的标准,也就是一年最多宕机50分钟,有的公司可能还会更严格。
再比如微信、支付宝、银行系统这种大家都用的网络技术架构,基本上要保证5个9,就是一年内只会出现5分钟的故障。
但是这次阿里云的整体故障大概两个小时左右,别说5个9了,连4个9也没达到。
2.阿里云这次崩溃确实很严重
所以我们说阿里云这次的故障是非常严重的,是不可接受的。
因为网络的基础架构是不能停的,如果银行系统白天挂两个小时,影响就会很大。
实际上我以前在大厂工作也遇到过这种情况。
我们团队是做支付中心的,我那时候刚工作不到一年,被当作管理来培养。
正好在部门经理休假的时候,系统出现了问题,直接停了快三个小时。
CTO就坐在我旁边,我们的业务型高级开发人员在解决故障,只有我在协调怎么切数据库,怎么切消息涌道,怎么重备份我们的主机。
事件结果,我被扣了一个月的年终奖。但这还不是最痛苦的,当时临近年终答辩,本来我们数据库管理和测试的两个大佬,都是那次答辩应该晋级的。
但是偏偏在答辩前一天出了故障,两个人连答辩都没有去,因为他们知道肯定过不了,所以影响真的比较大。
这种故障出现一次就会吃一次亏,但是有很多公司,尤其是业务进展比较快的公司,大家都一心向前,底层的东西越做越被遗忘,所以很多时候会出现一些逻辑上的问题。
大家工作以后会经常用到这些需要可靠性的系统,特别是商业公司的登录、支付或者订单中心,因为这是公司所有团队都要用的系统,如果挂掉的话就会很麻烦。
比如双11期间,好不容易让消费者下单了,最后发现支付系统故障,付不了钱,那就要承担很大的责任,因为做商业最终的目的就是让人付费。
帖子还没人回复快来抢沙发