大数据时代 6月01

Tags

Related Posts

大数据时代

仿佛一夜之间,Big Data(大数据)成为了IT领域里最热的词汇。大数据并不是简单的由数据量的大小来定义的。如今主流的定义由三个V组成:Volume(海量)、Variety(多样)和Velocity(迅速)。

这三个单词组合在一起原来很多时候是企业IT人员的噩梦。让我们回想一个场景:某银行信用卡中心市场部门刚刚针对年龄为18-25周岁的人群进行了营销活动。广告界有句名言:我知道一半的广告投放费用被浪费了,但是我不知道是哪一半。而在中国,这个被浪费的平均数是80%。所以市场部门急需了解到举行活动后这些人群的刷卡量,刷卡金额,刷卡渠道,在信用卡商城的消费是不是达到预期。同时他们还需要了解到,同比、环比的增长情况。有了这些数据,他们可以改进他们的营销活动——节省费用或者增加转换效率。IT人员在了解到这些需求之后,脑海中出现的已经是海量的web日志、交易备库中的交易数据,存储上保留的上一年数据以及由无数个join和group by组成的查询语句。在一阵头脑激荡后,他还意识到这些数据尚未集中存储,零散存放在各个主机上,其中还有几台AS400主机,数据需要进行转码后才能分析。这部分数据上次运维会议的时候听AS400管理员说起过,据说有近100G一天。他感觉到一阵晕眩……

大数据原先是一个需要被解决的技术问题,而今却是一个巨大的商业机会,甚至是一个现代化企业的核心竞争力。在金融、运营商、制造业、快消行业以及电商,“数据就是业务本身”已经达成了共识。我们也看到一时间涌现出大量的公司提供大数据的解决方案。

那对于网络管理人员来说,大数据到底意味着什么?

我和不少网络管理人员交流过,他们认为他们接触的最大的数据来自于安全设备的日志,其次是网络设备的日志。而这些看起来似乎和对业务能够提供帮助的大数据没有很显著的关系。然而他们都忽略了一点,那就是在网络上传输的数据报文!

数据报文,不管是TCP/IP、UDP亦或是SNA。他们自身都承载着非常丰富的数据信息。他们海量——每天可以轻松产生几十TB的数据。他们多样——由于上层应用不同,报文内封装的内容也不相同。他们迅速——网络管理员已经习惯使用NetScout对报文进行分析,不过通常意义上,主要是用来进行故障诊断。但是这三点,已经充分满足了大数据的三V定义,只是我们还缺少另外一个V——Value。

如何让网络数据,尤其是数据报文变得有价值,我们需要对数据报文分而治之的来考察。以TCP/IP报文为例:报文头承载了传输层信息,这部分数据可以惠及网路管理人员。通过对报文头的分析,可以明确了解到网络对应用提供的服务是否正常。是否有报文的丢失,连接是否被重置了,网络层传输时延到底是多少等等。其次,通过对应用层数据的实时解码和输出,我们可以了解到交易的笔数、交易的响应时延、成功失败率,为应用服务提供实时的交易性能可视化,惠及应用运维人员。部分数据虽然从应用的日志中可以获取,但是考虑到交易量激增后出现的应用服务器性能问题以及随之出现的海量充正交易。应用服务器已经自顾不暇,很多时候不能提供有效的包含多种字段的日志信息。其次,精确的时间戳对于交易性能分析也非常重要。主机上只能提供百毫秒精度的时间戳,这对于一秒钟有上千笔交易的应用来讲,已经缺乏分析的基础了。更不用说,网络天然的能够提供贯穿全局的能力,在能够实时解码多段应用报文后,依靠大数据分析方法,我们可以提供交易从发起到结束的全面可视化能力。最后,通过对承载应用数据中业务部分数据的分析和挖掘,我们还可以提炼出对业务部门真正有用的数据,诸如实时刷卡的金额,交易的类型,购买的商品等等。

Philip Russom在受IBM委托撰写的《Big Data Analytics》中说道,web日志真正让大数据“大”了起来。但是他忽略了另外一点,那就是网络上的数据。网络上的数据,好比沉睡亿年的石油,只有等挖掘技术、提炼技术和最终使用的通路全部就绪后,才能够引爆人们的生活。

最后引用沈括在《梦溪笔谈》中描述石油的一段文字:“鄜、延境内有石油,旧说高奴县出脂水,即此也。生于水际,沙石与泉水相杂,“惘惘”而出,土人以雉尾挹之,乃采入缶中,颇似淳漆,燃之如麻,但烟甚浓,所沾帷幕皆黑。予疑其烟可用,试扫其煤以为墨,黑光如漆,松墨不及也,遂大为之。其识文为“延川石液”者是也。此物必大行于世,自予始为之。盖石油至多,生于地中无穷,不若松木有时而竭。今齐、鲁松林尽矣,渐至太行、京西、江南,松山太半皆童矣。造煤人盖未知石烟之利也。”

网络报文也正是这样一座未开采的宝藏,在大数据的时代此物必大行于世。

Wizard