「BPC」+「云图智能告警」,构建数据中心的第一感知网络

「告警功能」始终是BPC保持行业领先、深受用户喜爱的核心功能。这一次,我们围绕告警智能化和性能升级进行了一系列大跨步的改进和增强,旨在帮助运维部门能够更加高效、敏捷地完成工作,实现业务系统可用性「五个九」(99.999%)。遥想气象卫星的诞生让人们拥有了对天气的精准预测能力,升级后的BPC4.3以全新告警组件「云图智能告警」为中心,构建起数据中心的第一感知网络。

产品化智能告警,运维人员的「筋斗云」

在以前,告警配置是任何性能监控系统部署时相当耗费时间和人力资源的环节。要了解某项业务的性能状态,需要监控哪些数据字段?这些字段又要以怎样的标准作为性能指标?这就像只是热个便当,却必须综合饭盒材质、食物种类去考虑火力大小、加热时长一样。

在「云图智能告警」组件中,告警配置有了彻底的进化。将不同业务系统、不同应用组件的监控需求进行梳理后,BPC4.3将告警场景归纳为五种类型,几乎覆盖了常见的高频故障场景。五大场景化告警并非简单的配置模板,而是根据行业Top客户的实际部署方案与告警案例分析总结出的一整套智能告警算法,针对各种监控场景实现智能、全量、高精度的把控。

天旦BPC4.3 五大场景化告警图示

有了「云图智能告警」,告警配置如同热便当时只需按下「一键加热」一样简单智能,让运维人员工作效率大大提升,让部门迅速完成周全严谨又省时省力的监控部署。

多维度告警分级,告别「事无巨细」的芸芸告警

在告警的事件管理上,每个企业都有自己的处理流程和速度标准,以银行业为例,存在着告警事件发生后5分钟内响应的硬性要求。得益于独特的网络旁路技术,BPC可以做到实时监控告警,但考虑到绝大多数企业的运维需求,BPC默认将告警刷新频率设置为分钟级,有更高敏感度需求的企业,则可以通过BPC提供的全量实时「互联数据」自行构建使用场景

天旦产品经理们在产品设计之初的用户调研中发现,分钟级对于绝大部分事件完全满足,但是对于一些比较敏感的核心业务,企业还是希望达到更为实时的监控。了解到这一点,BPC4.3大力革新告警规则的结构,将单一规则升级为多个维度、多个层级的复合型规则。打个比方:

  • 当被监控业务的成功率从100%下降到99.9%,BPC只会提醒运维人员注意;
  • 而当下降到98%,BPC就会全面告警并启动处理流程;
  • 重要性较低的周边系统可以以较长的分钟级刷新告警;
  • 核心业务模块则在秒级进行告警通知。

通过划分告警的不同级别,BPC4.3「云图智能告警」实现了对事件按照轻重缓急进行判断和匹配不同处理规则,既保证了告警的准确及时,又避免了告警系统遇事就喊「报告大王」,实现了运维作业的精细化管理。 

一键分析故障域,排障的智能「金刚钻」

在过去,运维人员通过BPC排障需要这样操作:

  1. 获得告警信息
  2. 进入历史视图查看指标变化
  3. 在BPC中逐层钻取,深入分析
  4. 最终确认故障原因并处理

而在BPC4.3的「云图智能告警」中仅需2步:

  1. 告警触发,告警通知同时呈现相应节点的指标变化(成功率、响应时间等)
  2. 一键完成故障域的自动下钻分析,呈现最终的故障原因和故障范围

全新「云图智能告警」组件大大缩短事件处理流程,让IT运维从「自动化」转变为「智能化」,提高运维部门响应速度,让告警排障紧跟IT运维的发展趋势。

    AIOps:智能化是运维的未来

    将天旦评为「全球最酷厂商」的Gartner在2016年提出了AIOps的概念(Algorithmic IT Operations,算法驱动的IT运维),并且预测:到2020年,全球50%以上的企业将应用AIOps。而实现运维智能化则是天旦产品自始至终贯彻的前进方向,最终也形成了BPC领先行业的巨大优势:

    • 智能发现:5年自研专利解码引擎,自动发现应用访问关系,自动解析业务数据内容。
    • 智能梳理服务路径图发现,自动梳理业务访问关系,呈现以服务为中心的拓扑视图。
    • 智能告警:五大场景,识别高频业务故障,专有告警功能,精准捕捉并刻画故障异常。
    • 智能预测实时监控,智能算法自动根据历史表现绘制基线,直观发现变化趋势。
    • 智能排障:自动定位故障节点,一键解析造成故障发生的维度和维度值。

    通过总结大量现有客户部署情况和告警案例所得出的场景化告警模型,BPC4.3使得运维人员只需简单配置全面覆盖的告警规则,结合自动故障定位和自动故障域分析,加速故障发现和分析流程,缩短故障恢复时间。进化永远没有尽头,接下来BPC也将通过引入更多自动化组件及智能算法,最终实现全智能式的故障发现、分析、管理。

    人工智能算法的成长离不开对海量案例的分析和学习,而现有的诸多所谓「AI告警」定制化方案受限于远远不足的真实情境下实操案例,需要在部署后耗费繁重人工进行后期调整维护,成为无法预估的人力和工时黑洞,而且算法效果极不稳定。

    在这一点上,天旦作为企业级软件产品公司的优势得以凸显:通过提供全行业通用性的产品而非定制化的解决方案,使得智能算法真正成熟产品化,产品用户共享行业经验、共同受益;而国内银行Top150中120+家的广泛覆盖与横跨银行、证券、电信运营商、大型企业的多维度客户案例,也为算法的极速成长和精准智能提供了能量。天旦也将继续坚持企业级软件产品之路,努力将人工智能算法在运维领域产品化,并且全力推进AIOps的真正实现。

    – end –

    天旦BPC产品中标天津银行,助力城商行金融科技演进之路

    天旦BPC成功中标天津银行股份有限公司数据中心系统环境扩容项目应用运维监控系统软件采购。

    天旦与华为云携手共进,组建云计算运管一体化超能战队

    华为宣布将与合作伙伴成立全功能运管中心,向企业提供多云资源整合、生态开放、智能的统一云管服务。