IT运维中的“失联客机” 4月01

Tags

Related Posts

IT运维中的“失联客机”

在一个通过点击鼠标就能轻易获取所需信息的时代,很难想象,寻找一个坠落到海洋中的飞机会这么难。在多国合作、各种高科技投入的情况下,经过数十日的搜索,飞机依然不见踪影。马来西亚航空公司的MH370航班失联事件,让人们理解了海洋究竟有多浩瀚!在多国高科技的支持下,苦苦寻找失联客机的历程告诉了人们几个关键词:有效信息很重要、需要有针对性的高科技、关键信息的获取能力、全盘的理解和协调。

在IT技术引领时代飞速发展的时代,IT运维同样会遇到“失联客机”事件。

首先我们来看两张图:

图1

图2

第一张图是某高人在2006年画的中国国内航班航线路线图,第二张图是某企业网络拓扑图。相信大家在看完两张图之后,都有一个感觉——“好复杂!”。我们进一步对比就会发现,两者竟有着高度的相似。在我们IT环境中,一旦某一个服务不可达,某一个数据发生丢包,或者是某一笔交易失败,我们面临了和马航”失联客机”一样的状况,问题发生在哪里?

在传统的运维体系中,运维组的工程师们会这样做:1、检查每一个网络组件的可用性;2、检查每一个相关网络组件的性能状况;3、检查WEB、中间件、数据库等每一个环节。在协调各个部门工程师、使用若干测试或监控手段之后,在幸运的情况下,我们找到问题所在。但是查找故障点的过程,只会让我们的工程师们理解到IT架构有多么复杂,正如马航“失联客机”事件一样,时间就是生命;在IT故障排查中,时间往往是效益和金钱。

幸运的是,IT技术的飞速发展,同样为网络及应用的稳定运行提供了保障。从我们的Crossflow产品线可以看到,“飞行航线”不再像蜘蛛网一样,寻找故障点不再像以往那么毫无头绪。借助Crossflow产品,我们一目了然地理清了网络及应用监控的思路。

在Crossflow SPVD的帮助下,网络中的访问关系,不再像全国航班线路那样错综复杂,以服务为导向,提取关键节点,理清每个应用从访问到响应经过的每一个组件。在很多已经使用该产品的客户环境中,一旦网络中访问关系或基础架构有变化,工程师就会立即使用SPVD进行快速、便捷的梳理。显然,在SPVD的帮助下,我们快速获取了IT运维必须的信息,提取了关键信息,并对整个IT架构了然于胸。

但是,IT运维不仅需要掌握关键信息,要利用已知信息和现有资源对网络及应用进行实时有效的监控,同时也要在发生问题的情况下,快速分析诊断。Crossflow NPM和BPC 正是利用了服务路径图的概念和网络数据源,实时地监控网络及应用,自动化分析诊断问题。

Crossflow NPM产品,通过已梳理好的服务路径图进行实时展现。通过NPM我们可以得到关系整条服务传输质量的网络关键指标。通过这些信息,智能化的NPM按照成熟的算法实现问题的快速定位。复杂网络环境的故障定位,通过点击鼠标即可实现(图3)。

图3

Crossflow BPC产品,同样利用网络原始数据源进行深度分析,得到应用方面的信息。利用这些信息,基于服务路径图,我们可以分析每一笔交易或服务从”来”到”回”的飞行轨迹(图4),分析每一个节点的繁忙程度,一旦“飞行”过程中发生状况,我们能快速定位故障节点。在Crossflow先进理念的帮助下,让网络及应用监控变得更清晰。

图4

通过近期热门的客机失联事件,我们在为此感到惋惜的同时,作为IT人士,深刻地希望“客机失联”事件不要发生在日常的IT运维之中。作为Crossflow产品服务支持团队的一员,我们需要利用产品有针对性的先进理念,协助客户获取信息、利用资源、分析关键信息,实现网络及应用组件多维度的全面可视化。

最后。载有一百多名国人的马航客机虽然已被宣布“终结”于南印度洋,但是我们依然希望奇迹的发生,为在马航客机所有遇难者祈福!

—— By Jeremy