网络服务为快速发展中银行的业务持续性提供保障 1月01

Tags

Related Posts

网络服务为快速发展中银行的业务持续性提供保障

2012年11月28日,中国人民银行主办了第九届银行业科技工作座谈会,会议认真学习、传达了《国务院关于大力推进信息化发展和切实保障信息安全的若干意见》以及国务院金融信息与网络安全有关会议的精神。人民银行党委委员、副行长李东荣,银监会党委委员、副主席郭利根出席会议并讲话。其中李东荣副行长强调了银行业金融机构按照党的十八大报告关于“健全信息安全保障体系”的要求,认真做好新时期信息科技和安全保障工作,并提出了三点要求,其中第三点就是要加快建立健全银行业金融机构业务连续性保障机制。

银监会也早在2011年就发布了关于商业银行业务连续性监管的通知,越来越多的银行也充分认识到了这一点。现在的银行业务都运行于网络之上,于是业务的连续性保障理所当然地离不开网络服务的连续性,而落实到银行的科技部门,再具体到网络部门,各家银行的现状和认识又各不相同。而面临的问题,特别是网络运维上的问题,还是有类似之处的。

在与一些中小型银行以及大行分行的交流中,笔者发现了一些普遍存在于银行网络运维中的问题。本文将结合笔者在CrossFlow NPM项目的交流、POC和实施过程中的实战经验进行总结,来看看NPM是如何为网络服务提供持续性保障的。

先来看一下,目前在银行的网络运维工作中经常碰到的一些问题:

1、没有面向服务的网络性能管理方式,不能构建和上层应用一一对应的网络服务视图,缺乏统一的运维视角。这也造成在发生问题时,各部门各自为战,不能及时定位问题所在,耽误了第一时间去恢复服务的宝贵时间。同时,当整个银行都在提倡以服务为导向、面向服务的理念时,网络部门没有很好的手段契合这种管理理念。

2、不能实时呈现承载上层应用的网络通道(TCP连接)的可用性、性能和负载量等指标,无法体现网络运维质量。现在的银行业务实时性要求越来越高,那么对承载上层业务应用的网络服务来说,其性能指标的实时性要求也就不言而喻,特别是银行与人行、银联之间的重要连接通道,一旦出现问题,需要立刻查看到实时的指标来对问题进行快速排查分析。同时,在网络没有问题的情况下,往往没有一种很好的技术手段能够反映网络的服务质量,缺乏足够的证据证明网络服务(TCP连接)没有问题。

3、没有快速自动化故障分析能力,在出现问题时往往过度依赖专家的经验和技能,耗费大量时间和人力,且不能第一时间定位故障,耽误了恢复网络服务的宝贵时间。这点也非常重要,在构建智能化网络运维的今天,传统的故障分析方式已经远远不能跟上现代运维的步伐,特别是在银行的网络环境中,非常需要一种自动化故障诊断的方法,能够去专家化、去专业化,能够自动定位故障,自动分析,甚至能自动生成故障分析报告,来达到卓越运维的目的。

基于这些现实问题,CrossFlow NPM产品应运而生,NPM能快速构建和上层应用一一对应的网络服务视图,以服务为中心,实时呈现网络性能参数指标,快速自动化故障诊断,以帮助银行网络部门及时定位问题快速恢复服务,保障业务持续性发展。

CrossFlow NPM是如何为网络服务提供持续性保障的?

背景:某城商行,连接银联的异步双工长连接通道发生了异常,导致在那个时间段通过该城商行收单发往银联进行转接的业务请求全部失败。该银行前期部署了NPM,并且监控覆盖到了该银行和银联之间的连接通道。

NPM诊断:由于服务端Reset,建连成功率过低。

分析:首先,NPM刻画从了银行到银联的一条网络服务路径,该服务路径囊括防火墙和路由交换设备。当问题发生时,在该银行卡服务器到银联的服务路径通道上,NPM自动给出“建连成功率过低”的分析结论:服务端Reset,导致建连不成功,如图1-1。同时,NPM还会附上数据包样本供参考验。

图1-1 NPM中自动化故障诊断的截图

这样,问题判断的时间仅需要2分钟,并且有理有据,准确可靠,同时这些分析的内容可作为报告进行留存。

同样,在某股份制商业银行的某省级分行,通过部署CrossFlow NPM也取得了同样的卓效,这不仅仅是建立了和上层应用对应的网络服务视图,实时监控了该省分行和人行、银联之间的连接通道,更重要的是运维视角的转变,把对网络运维的高度提升到了以服务为中心,而不是传统的以设备或流量为中心。

背景:11月份,由于该省分行与银联连接的前置机发生问题,导致网络服务异常。

NPM告警:因为前置机的异常,有新建连接发生,触发NPM告警,及时告知网络运维人员进行处理。

分析:在正常情况下,该省分行和银联之间并发4个连接,在NPM中定义的告警触发条件是超过4个并发连接即告警。

NPM自动告警“并发连接数持续高于阈值”,并触发告警。NPM的告警可以通过Syslog发送到银行的统一运维管理平台或事件管理平台进行集中处理。经查看详细指标,确实在该时间点发生了并发连接数异常现象。

同时,通过NPM,我们在该时间点看到了TCP SYN和FIN的参数变化。正常情况下,前置机与银联之间的连接通道是异步长连接,在连接建立成功以后,是不会有任何TCP SYN和FIN发生的,但在长连接通道看到TCP SYN和FIN,说明连接发生了重建和关闭,产生异常情况。

如以上两个案例,NPM可以实时统计与网络可用性、性能和负载量息息相关的指标,同时,支持指标阈值加持续时间点复合告警,除了并发连接数外,还支持以下重要指标告警:流量、客户量、TCP重传、TCP零窗口、TCP SYN、TCP FIN、TCP RST等。另外,NPM还支持对长连接异常终止的告警,包括长连接被RST和长连接超时告警。

敏捷管理,简单易用

如此敏捷、准确的网络性能管理工具,其建设却非常简单快速。NPM的建设只需通过在交换机做镜像获取相关流量,把多段的镜像流量汇总接入Tap Switch进行流量过滤优化,然后把过滤后准确的流量接入NPM服务器即可。

与上层应用一一对应的网络服务路径图,通过鼠标拖拉的方式即可构建。不论是新增、减少或者架构的调整,都可以在WEB界面快速进行。

对于中小银行与一些较大规模的省分行,除了与人行、银联之间的常规连接比较重要外,还有一些外联通道也是值得关注的重点,比如:银企直连、银企对账、财政、市政等,都是支撑这些银行推动地方经济发展的重要力量,NPM可对这些链路持续监控分析,有效保障这些网络服务的连续性。

最后,引用一段某城商行网络科长对NPM的评价结束本文。在使用完NPM后,他说:

“NPM的自动化故障诊断非常有用,原来我们发生过一次和财政局之间的连接异常问题,我们的工程师和集成商的工程师两个人花了一个月的时间才排查清楚,没想到类似的问题用NPM几分钟就搞定了,为我们节省了宝贵的服务恢复时间,这就是在保障我们的业务持续性,非常好!”

—— By Eric