前几天在大学同学群里,西安一码通事件引起了大家的关注,不仅因为西安是母校所在的城市,也因为这次事件的责任人刘军是西工大的校友。
看了网上的资料,虽然并没有知情人把事故的原因说清楚,但是通过阅读比较靠谱的分析,结合自己对信息系统的经验,虽然不能确定问题原因,但是也给了我一些启示。
这次西安的疫情突然加重,这是出乎人们意料之外的,也包括西安一码通的设计者们,疫情加重导致系统压力突然增大,就像双11购物节的购物网站,或者春节前的12306网站,这样的压力是对系统的一次考验。
有人说这压力比12306网站的压力小多了,这都扛不住,说明系统做得太烂了。我觉得这样比较太片面了。12306是全国系统,一码通是西安的系统,服务范围不同,意味着设计容量不同,不同设计容量的系统没有可比性,只要实力压力超过设计容量,系统就可能崩掉。12306上线之初也经历过各种问题,后来才逐渐稳定的。其实所有的系统上线之后都要经过一段时间才能稳定运行,只是这次影响太大了。
事故背后到底是什么技术问题不得而知,有人说是网络问题,有人说是数据库问题,有人推测是升级的新版本测试不充分,我只能说都有可能。也看到有人说技术人员要去公司解决问题,但是因为手机查不到绿码门卫不让进楼,从而延误了解决问题的时间,看来不光是技术问题,还有人的问题。
一个问题被看到,我们往往会关注到底是谁出了问题,最后总是有人要负责的,但是问题往往更可能是很多因素共同作用的结果。













网友评论