云时代,如何拨云见日(上篇)

6年13个版本,Openstack从Austin走到了Mitaka。从极客技术圈的讨论,到主流用户的犹豫和怀疑,现在终于步入了国内大型股份制银行的数据中心,承载着全行的关键业务。

 

“2014年年末,2015年年初的时候docker在人们脑子里几乎没什么印象。”高盛(Goldman Sachs)集团技术部负责人Don Duet说。然而未来高盛计划将90%的计算任务切入容器环境中。当然,鉴于他们的主业——投行部门还不忘这时候帮助docker完成了新一轮9500万美元的融资。

 

技术派热衷于讨论产品的新功能,诸如:热切的速度进一步提高。大规模编排变得只需要敲一条命令(docker swarm init)那么简单。这真的是很有用的。我依然记得2000年时候,为了构建200个node并行机群(dual PIII 733 512M内存,Myrinet网络),使用MPICH进行科学运算的时候在机房里睡过的那一个个日日夜夜。因为没有简单的编排技术,浪费了多少“诗和远方”。

 

技术决策者考虑的问题会更加多一些。除了云技术自身带来的好处,包括提高效率、降低成本,他们一般还会从“上云”和“云运营”两个阶段对问题进行考察。

首先是“上云”。这是一个摸清家底的过程。新应用,或者云原生应用对云是友好的。然而现实中大量的既有应用组成的业务系统却承担着当前企业的关键业务。如果不能了解清楚里面的访问关系和属性,业务实际运行情况,那对于“上云”这个过程来说是一个最大的挑战。我们可以对企业内部的关键业务系统进行分级,分批梳理。当确立了重要级别后,需要从业务发起的入口,比如第一道防火墙开始,逐级对整个系统的网络和应用架构进行梳理。

现在企业基本都已经数字化或者在数字化的过程中,单个业务系统自身也已经很复杂。可以从防火墙,到负载均衡器,到web服务器、app服务器和数据库。一旦是双活甚至多活,有灾备,那复杂性就进一步提高。此外,除了按照业务进行梳理外,还需要针对一些关键节点,比如ESB总线进行专题类的梳理。因为这些节点为多个应用同时提供服务。云端网络依靠策略驱动,比如:思科的ACI(C记还有一个VTS)。如果在“上云”过程中不能够全覆盖,无盲区了解到访问关系,那几乎就无法制定EPG(End Point Group,一组特定功能计算节点的组合)和刻画应用的ANP(Application Network Profile),进而造成在现在跑得好好的业务,往云端迁移后各种问题。

梳理完毕后,需要使用业务性能管理产品和网络性能管理产品两个视角对关键业务系统的运行情况进行监测,建立运行基线。这个为将来“上云”之后的持续运营——尤其是性能优化和容量规划提供了有效的依据。从云的运营角度来说,业务基线还可以在技术特性上为业务进行分级,包括:重要和非重要的,全天候的和特定时间段的(比如券商交易,外汇交易就具有这个特点),实时和跑批的,高带宽消耗和低带宽消耗(不要把hadoop HDFS和实时交易业务编排在一台HOST上),时延敏感的和时延不敏感。

 

运营

“云运营”首先带来的是技术挑战。本着不可测量,就不能管理的原则。IT咨询公司Gartner在最新一篇名为《APM Needs to Prepare for the Future》(http://www.gartner.com/document/code/296365 )的研究报告中提到,现有的APM工具在新时代下碰到了如下问题:

1、传统的植入Agent模式在容器化时代有违容器的使用方法和设计哲学。容器变得越来越小,只运行有限功能。

2、在资源编排环境中,比如Kubernetes,Mesos和Yarn,针对特定OS和JVM,提供深度分析的APM变得越来越困难。

3、为了减少性能开销,提供采样功能的APM可能在一个采样周期中都没法捕获一个只运行了几秒钟的容器。

4、每分钟百万级的交易量产生海量的性能数据对采集,存储和分析都是巨大挑战。

 

Gartner在另外一篇名为《Use Data and Analytics Centric Processes With a Focus on Wire Data to Future-Proof Availability and Performance Management》的文章中给出了解药。Gartner认为:现代IT系统正在展现出模块化、动态化、分布式、移动化和内部复杂化的特征,运用传统技术从基础组件中获取数据进行监控和分析显得尤其困难。企业领导者需要采取一种以数据为中心的方法来进行管理监测。“网络大数据(wire data)将会是在未来五年里,成为IT系统性管理方面最重要的信息来源。”

 

Gartner对“网络大数据”的定义是:从网络中传输的数据包和流里面提取的信息。Gartner认为,主要有四大趋势将让“网络大数据”在未来扮演越来越重要的角色:

 

企业数字化转型使得业务越来越依赖网络渠道;

 

越来越多的数据将在网络上交换,而非在系统内部交换;

 

容器化、微服务和快速交付的趋势将使准备预植入代码和充分就绪的日志变得越来越困难;

 

网络数据更加反应最终用户体验;

 

在“云运营”的阶段获取高质量的网络大数据也不简单。首先在云环境下,计算、存储、网络高度融合。尤其是在一些数据中心的设计中,存储平面的数据会共用提供业务逻辑交换的网络交换机。这就给数据获取带来了巨大的挑战,我们来看问题:

1、如果从Spine交换机入手。意味着监控探针需要提供超高速接口(一般是40G,甚至是100G),而且扁平化的网络造成几乎要为每一台Spine交换机都配置上监控探针。但是看到的数据,很可能就是存储平面交换的数据。如果一台分布式存储的节点损坏,进行Rebuild,单机可以很轻松的占用满一个万兆端口,产生海量的数据——然而,这些数据没有很多业务价值。

2、如果从Leaf交换机入口。意味着部署的量一下子陡增,几乎需要为每一台Leaf交换机都配置监控探针。而且由于云编排的特性,我们无法确定一个VM到底运行在哪台Leaf交换机上。

进而,不管是从Spine入手,还是从Leaf入手,都无法解决同一Host中两个vm或者两个容器的数据交换问题。

在Gartner的“面向未来”系列文章发表前的30个月,上海天旦就启动了内部代号“Quantum Leap”的计划,对云端技术进行投入和研究。从内部构建Openstack环境,到将研发和测试全部的系统切入容器环境(早期docker满满都是坑啊),再到和思科、IBM、Docker、Splunk、Cloudera成为技术及解决方案合作伙伴。最后帮助恒丰银行,贯穿整个“上云”过程,将全行业务切入云端并提供持续运营和保障。

具体我们如何解决云端的网络大数据获取和持续提供云运营的能力,且听下回分解。

 

了解更多有关Wire Data(网络真实数据)的相关内容:

IT管理系统迈入发展新阶段 上海天旦BPC助推新一轮商业变革

 

关于天旦

上海天旦网络科技发展有限公司(www.netis.com)成立于2005年,总部位于上海,是国际领先的业务性能管理与网络性能管理的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。中国境内在北京和深圳有分公司,同时在美国硅谷和纽约设有两个海外办事处。

通过以下方式联系我们:

咨询电话:021-58700166

电子邮件:contact@netis.com

天旦微信公众号

联系我们

captcha

在线营销
live chat
web聊天
live chat
在线聊天
live chat