沙里淘金 拥抱大数据 2月01

Tags

Related Posts

沙里淘金 拥抱大数据

关于大数据

仿佛突然间,我们吃惊地发现,我们的 PC、手机、平板都已经配备了几十 GB 到几百 GB,甚至 TB 级别的存储空间,并且它们每天还在产生着大量有用的或无用的数据。与个人设备类似,我们正身处的时代,也正在被大量数据淹没,根据 IDC 今日发布的数字宇宙研究报告(Digital Universe)显示,在接下来的 8 年中,我们所产生的数据量将超过 40 ZB (泽字节),相当于 40 万亿 GB,估计是地球上所有海滩上的沙粒数量的 57 倍。

忽如一夜春风来,千树万树梨花开,所有人都在讨论大数据,从Google到Amazon到IBM到EMC到Intel到阿里巴巴,毫无疑问,我们正在走进大数据的时代。

何为大数据?

对于“大数据”(Big data)研究机构 Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据有什么特点?

大数据具有 4 个“V”的特点:第一,数据体量巨大,从 GB级别跃升到TB、PB、EB、ZB 级别;第二,数据类型繁多;第三,产生速度极快;第四,价值密度低。业界将其归纳为4个“V”——Volume,Variety,Velocity,Value,如何以快速的方法从海量数据中获取到价值,是应对大数据的最大的挑战。

如何应对大数据?

为了应对大数据特点的前三个“V”,许多IT业界巨头如IBM、EMC、Microsoft 等都正在努力探索,同时如Splunk、Hadoop 等新晋势力也通过实践提供了许多有效的解决方案:

急速膨胀的数据体量即将超越传统数据库的管理能力,构建分布式数据处理系统提供并行化计算能力能够有效应对大数据体量巨大(Volume)的问题;

经典数据库技术并没有考虑数据的多类别问题,关系型数据库在设计的一开始是没有考虑非结构化数据的,因此为了解决大数据第二个“V”的特点,需要采用新型的非结构化数据库技术;

在传统场景下,从关系型数据库中获取信息用于分析往往遵循一定频率,但现在通过新型的快速索引技术可以有效应对大数据产生速度极快(Velocity)的特点。

沙里淘金,拥抱大数据

英特尔亚太研发有限公司总经理何京翔博士表示:“信息数据就是 21 世界的石油,石油只有经过开采、提炼最后变成汽油等化学品才能够体现出价值。大数据与石油一样,仅仅存储而不进行分析和处理是体现不出它的价值的。”

是的,大数据的价值需要分析处理才能体现,但挖掘大数据的价值却似沙里淘金。譬如视频监控,每天产生 24 小时的视频数据,绝大部分都没有利用价值,可能是几秒镜头捕捉到某罪犯体貌特征,对公安部门而言就是弥足珍贵的。而为了这几秒钟,则必须要保存全部的 24 小时。这就是大数据特点的最后一个“V”,价值密度较低(Value)。

从大数据的沙滩中提取出有价值的金子,自然不是件容易的事情,这里有一个例子:由于 Google 提供大量在线的软件应,当用户免费使用这些产品的同时,Google 也把用户的个人行为、喜好等大量信息进行了收集,因此 Google 对用户的理解就越来越深入,广告越来越精准,广告的价值也越来越高。

大数据甚至能帮助我们获得预知未来的能力:阿里巴巴的马云曾经成功预测 2008 年经济危机,原因是 2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑,于是他提前半年时间从询盘上推断出世界贸易发生了变化。

以上两个都是从数据的沙滩中提炼出金子的典型例子,可是这里有个问题,并不是每个企业都是Google 和阿里巴巴,沙里淘金的成功经验也很难直接从 Google 和阿里巴巴身上套用每一个企业和个人身上。那么对于我们自身感兴趣的“金子”,是否就没有可靠成熟的方法把它从数据沙滩中淘出来?

什么才是金子?

随着市场竞争激烈程度的加剧,企业能否利用数据沙滩中的“金子”做出准确并且有前瞻性的决策正成为提升竞争力的关键。淘金开始之前当然需要鉴定、识别究竟什么类型的数据及分析结果才能算得上是有价值的“金子”,然而确定企业的“金子”本身就是一个广泛而深奥的命题,对于不同行业及企业而言“金子”也不尽相同,限于篇幅和读者的知识水平,本文也只能结合一些互联网行业分析报告概括性地描述几个传统行业的特点,以及它们各自关注的“金子”。

零售行业

零售行业的业务特点主要包括两方面:一方面零售行业需要及时响应客户需求,实现精准营销;另一方面零售行业需要增强产品流转率,实现快速营销。

这就映射出零售行业对于大数据分析的显著需求:

一、精准营销要求零售企业对消费者消费行为以及可能影响消费行为的外部因素进行数据分析 – 消费者消费行为包括对各类商品的消费数量及趋势的分析,也可以结合企业自身广告投入、定价等因素,而有可能影响用户需求及消费行为的外部因素可能包括节假日、天气等,针对这些数据进行分析可以获得有助于改善营销精准度的数据;

二、为了增强产品流转率,实现快速营销,则可通过对条码技术、标签技术、全息扫描技术、零售企业集中管理供应、物流、存货等环节所产生的数据,来改善企业内外供应链管理的高效协同,帮助零售企业强化终端业务的管控,提高对市场的反应速度。

互联网行业

互联网行业的业务特点则显得与大数据自身的特点贴合度更高:一方面来自互联网的数据爆炸增长,结构类型复杂;另一方面用户行为丰富,用户及社群关系极其复杂。

针对互联网行业的业务特点,大数据分析应用的目的也十分明确 – 提升用户体验,增加用户粘性。通过对企业产生的大量数据进行分析,来建立用户模型,针对不同用户模型的分析结果设计针对性产品。可以说,掌握大规模用户行为数据的互联网企业将在大数据时代抢占先机,经过对数据沙滩进行处理分析可以直接或间接带来商业利益,这也凸显了数据对于互联网企业的资产性,数据本身就是互联网企业的资产。

上文中Google及阿里巴巴对于数据分析的应用都是互联网企业大数据应用的典型案例。

电信行业

电信业务作为人们生活中的必需品,其业务的数据特点主要包括两方面:一方面用户及用户产生的数据量激增,且保存时间较长;另一方面电信行业受众群体非常大,市场饱和度也非常高。

因此,对于电信行业企业而言,大数据的应用分析主要应该解决两点需求:

一、通过数据分析以规避同质化竞争,寻找差异化经营方法;

二、解决数据流量暴增问题,向智能化管道转型。

大数据分析的应用帮助电信行业企业重新思考和精准定位,以差异化经营在电信行业竞争中发展,同时转变过去简单粗放的网络经营方式,构建“智能管道”,从数据中发现潜在的信息应用需求,获取更大的商业价值,充分利用自身管道的优势,增加管道运维的价值和营收。

金融行业

对传统行业进行分析,怎能没有金融行业,只要人们要跟钱打交道,就不可避免地需要跟金融行业打交道。对于金融企业而言,其数据环境主要具备两方面特点:其一,金融企业设备种类繁多,功能齐全,每天产生海量运营数据;其二,金融信息环境安全保密要求极高,且服务差异化较小。

鉴于以上特点,金融企业对于大数据应用的主要需求大致如下:

1、利用海量数据支撑金融智能决策。金融行业高度依赖信息数据,应用大数据技术收集、处理、分析金融数据,并对数据进行挖掘提取,寻找其中有价值的信息,将这些信息转化为知识,帮助企业做出及时准确的决策;

2、信息保密及金融服务创新。随着全球金融行业竞争的进一步加剧,信息安全及金融创新已成为影响金融企业核心竞争力的主要因素,且信息安全及金融创新高度依赖信息系统,因此金融业对信息技术的依赖性大,大数据技术帮助金融公司有效通过分析历史数据,明确信息安全事件根源,同时寻找其中的金融创新机会。

淘金小实验

确定了什么是金子,自然就需要有淘金的方法了。上文所描述的理论在缺乏具体实践的情况下都显得比较空洞,不利于理解。因此下文通过一个小小的实验,来描述如何对数据进行收集、提取、分析、和决策,建立一个简单的数据驱动式的决策支持系统。在这个实验中,笔者的目的在于通过对积攒的大量邮件数据进行分析,而决定需要将哪些常见的发件人放到黑名单当中,以减轻广告邮件风暴带来的困扰,同时节约有限的邮箱空间资源。

一、数据收集

在这里笔者首先在Outlook中导入一个N年没有动过的邮箱,相信里面定有大量未读的广告邮件。

果然,这个旧邮箱中已经攒了大量广告邮件。下面尝试将这些广告邮件导入到Splunk中,完成数据收集工作。

现在这些邮件的列表已经从Outlook收件箱中导入到了Splunk中,为了简化实验步骤,我们这里只保留了发件人、邮件主题、接收时间以及邮件大小4个字段。

二、数据提取

数据收集完成后,我们查看一下数据导入的情况。

我们看到,原始的数据已经导入到Splunk的索引checkemail当中,格式也比较规范,并没有乱码的情况出现,下面我们就可以开始数据的提取工作了。

首先需要告诉Splunk我们保留的4个字段分别表示什么,使用Splunk的字段提取功能对它们分别进行定义。

为了方便搜索,我们分别将发件人、邮件主题、接收时间以及邮件大小4个字段重新保存命名为Sender、Title、Date以及Size。完成后查看定义情况,确保我们已经对数据以及字段进行准确标识。

确定无误后,数据提取工作大功告成,可以开始下面的分析阶段了。

三、数据分析

既然我们已经把发件人字段提取成为Sender,那么我们先来看看哪些发件人给我发的邮件比较多吧。使用命令“index=checkemail | top Sender limit=5”看看给我发邮件次数最多的5个发件人都有谁。

现在我们已经知道发件次数最多的是某银行(因为笔者是它的信用卡客户),一共发送了40封邮件,天啊,难道我欠了很多钱??赶紧使用命令“index=checkemail Sender=XX银行 账单”搜索一下在银行发给我的邮件当中,是否包含“账单”、“欠款”、“还钱”之类的字眼。

还好看样子是没有,下面再看一下银行发邮件给我的邮件都是什么时间、什么内容,顺便我们也分析一下银行发邮件给我的趋势情况。使用命令“index=checkemail Sender=XX银行 | table Date,Title”将邮件的接收时间和标题排列称为一张比较方便阅读的表格。

可以看到,银行给我的邮件主要是优惠类的邮件,并且发邮件的趋势也较为平缓,每个月大概只会发给我1-2封邮件。

分析过银行给我发的邮件后,再来看看每个发件人给我发邮件的趋势吧。使用命令“index=checkemail | chart sparkline count by Sender”进行分析。

可以看到有一个叫Orxx的Sender发给我的邮件呈现出直线上涨的势头,一下子给我发了10几封邮件,再看看它发给我的邮件都是一些什么内容。在Splunk搜索界面中键入“index=checkemail Sender=Oray | table Title,Size”进行查看。

看样子这是笔者不知道在什么网站注册了账户之后的后遗症…大部分是一些产品发布的信息。

OK,下面是分析最后一步,由于网上注册的免费邮箱空间有限,出于环保的考虑,我们需要看一下哪些发件人发出来的邮件占用了笔者最多的邮箱空间。使用“index=checkemail | stats sum(Size) by Sender”,并将结果输出成为饼状图。

某某网发给我的邮件总大小竟然高达1341KB,占了所有邮件总大小的21.4%,对于笔者这种只有500MB的免费小邮箱,这个网站发过来的邮件实在太大了。

至此,数据分析告一段落,下面进入最后的决策阶段。

四、决策

根据数据分析结果,我们可以得出以下结论:

第一,某银行给笔者发送的邮件中并无涉及笔者欠款问题的信息,但是考虑到如果将其列入黑名单,如果银行发出还款通知时笔者也有可能看不到,经过权衡其重要性及消耗资源后,笔者决定将其保留在日常阅读的邮件列表当中;

第二,Orxx发件人发给笔者的邮件呈现出直线上涨的势头,最近一个以来更是给笔者发出了10多封邮件,考虑到其邮件多为笔者暂时不关注的产品发布消息,为了避免受到邮件风暴的困扰,笔者决定将其列入黑名单;

第三,某网站虽然发给笔者的邮件数量不算太多,但其邮件占用邮箱空间却非常大,占到所有邮件总大小的21%以上,同时其邮件的重要性也不是太高,因此笔者也决定将其列入黑名单,以将有限的邮箱空间资源保留给更为重要的邮件。

结束语

从前我们对数据的关注主要是存储和传输,在数据每年约60%增长的背景下,企业平均只获取其中25%-30%的数据,作为企业战略资源的数据还远远未被挖掘。因此,在大数据时代来临之际,我们将把数据视为自身的资产,重视对大数据的价值的深入分析与挖掘。

愿我们都能通过不断地努力学习,在数据的沙滩上淘出自己的一把金子,拥抱我们的大数据时代。

 

 

 

——Peter