首页 » 新闻中心 » 直播回看 | 网络慢竟会导致服务器崩溃?!运维人如何应对保险“开门红”等特大活动带来的挑战

直播回看 | 网络慢竟会导致服务器崩溃?!运维人如何应对保险“开门红”等特大活动带来的挑战

by | Jun 2, 2020

近日,天旦资深技术顾问Angu Gao在线与大家分享了《如何应对保险特大营销活动带来的运维挑战》,针对保险“开门红”等特大营销活动中,运维部门面临的挑战及对应解决方案展开了分享。

作为拥有12年+大型保险公司运维项目管理和实施经验的资深技术顾问,Angu Gao曾连续多年服务太平洋保险、太平人寿、天安财险、大地保险等多家大型保险公司,也多次亲身经历保险业的“开门红”等特大营销活动。

曾经有一次“开门红”活动中,就发生了因为网络慢问题导致服务器最终宕机的情况。事情的经过是这样的(以下为直播文字实录):

某次开门红活动的晚上,我接到运维人员的电话说weblogic中间件宕机了,重启也解决不了,让我帮忙想想办法。当时首先想到的是从应用层面去排查问题,结果发现中间件本身一切正常,没有发现任何问题。所以只能用最笨的方法,顺着访问路径一级级往前排查:

◎排查中发现了一个异常情况,那就是整个系统的访问量巨大;

 

◎往前推发现,web服务器也接受了很多请求;

 

◎再往前发现,互联网带宽被占得很满;

 

◎当时第一反应是想是不是发生攻击了?然后逐步排查防火墙、IPS等安全设备,发现也没有问题;

 

◎没有头绪之下,只好又重新把日志全部看了一遍,发现在所有访问中提交这个环节的操作占比过高,远超出正常占比水平;

 

◎抽查部分用户访问记录后,最终找到了问题

问题分析:

1、网络没有规划好,带宽相对不足

2、正值运营商业务高峰期,导致网络较平时要慢

3、由于网络较慢,保险经纪人提交订单不会立即显示成功,此时用户往往会重复点击提交,导致一份保单重复提交多次,最终拖垮了服务器

总结:

一个看似简单的网络慢问题,最终呈现的故障状态却是服务器宕机。这是通常情况下很少遇见的,也给运维排障工作带来较大挑战。而之所以会出现这种情况,是因为“开门红”等特大营销活动具有用户量巨、大交易额巨、大领导更关注等特点,当量的改变足够大,往往会带来质的变化。

例如,在用户量正常情况下(例如100个),可能5%的用户(5个)出问题,影响也不会太大。但是用户量巨大的情况下(例如10000个),哪怕1%的用户(100个)出现问题,影响也是巨大的。

就像上文案例中,应用层面出现问题,但根源却在网络层面。可见,想要做好“开门红”等特大营销活动的保障,光靠某个部门也无法实现,需要网络、业务等运维各部门的通力合作,从各自保障环节出发,才能从整体上保障活动期间系统的顺利运行。

假设,保险公司特大营销活动正在火热进行中,突然接到分公司用户反馈“网络慢”,运维各部门该从何处入手开始检查呢?对于网络运维和应用运维而言,有没有更加高效的故障定位和排查手段呢?

– end –

疫情将我们困在原地,我们却用这种方式走得更远

疫情当前,企业如何在危急中获得转机?那些数字化转型的先行者们,他们安然度过危机的例子,告诉了我们答案。

天旦出席2020年广东金融行业IPv6改造规模推广阶段研讨会

2020年,金融服务机构的IPv6改造将从“初期阶段”步入“规模推广阶段”,天旦呈现最新解决方案。

天旦业务性能管理BPC荣膺金融科技产品创新突出贡献奖

2019中国金融科技年会落幕,天旦BPC荣获金融科技产品创新奖,智能运维开启运维下一个十年。

关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。