从数据到决策的大数据时代*

2014-09-06 01:23陈文伟
关键词:数据挖掘决策信息

陈文伟,陈 晟

(1.海军兵种指挥学院三系,广东 广州 510431;2.软通动力信息技术(集团)有限公司,北京 100193)

从数据到决策的大数据时代*

陈文伟1,陈 晟2

(1.海军兵种指挥学院三系,广东 广州 510431;2.软通动力信息技术(集团)有限公司,北京 100193)

根据大数据时代的特点和带来的变化,明确了大数据时代的核心是从数据到决策.对大数据时代兴起的即时决策,从大企业到个人进行全面的分析说明.在数据辅助决策方面,讨论了利用统计方法的辅助决策、从数据中归纳出数学模型、从数据中获取知识等有效方法.大数据与云计算的结合,将会达到相互促进和共同发展.大数据不仅支持大企业和政府的决策,也支持个人的决策.

大数据时代;即时决策;统计方法;数学模型;知识;云计算;决策

1 大数据时代的简介

2012年,“大数据”(Big Data)[1]一词是个热门词汇.《纽约时报》称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析,而非基于经验和直觉.联合国在2012年发布了“大数据政务白皮书”,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行.

大数据的主要来源[1-2]:社交网络数据、遥测数据、传感器数据、监控通信数据、全球定位系统(GPS)的时间数据与位置数据、网络上的文本数据(电子邮件、短信、微博等).这些数据来源是信息化过程(数据设备的广泛使用和数据多渠道大量生成)产生的.

王俊(英国《自然》杂志2012年评出的对世界科学影响最大的10大年度人物之一)说:“生命本身是数字化的,基因传代的过程是数字化的过程,弄懂基因系列,通过基因排序知道哪个基因出了问题,对症下药.”王俊领导的全球最大基因测序机构,每天产出的数据排名世界第一,他说医学健康产业未来就是大数据产业.

人类有个重要发现,2010—2012年的数据总量超过以往400年.可以概括地认为:大数据 = 海量数据 + 复杂类型数据.

大数据具有4个基本特征:(1)数据量巨大.到目前为止,人类生产的所有印刷材料的数据量为200 PB.(2)数据类型多样.现在的数据类型有文本形式、图片、视频、音频、等多类型的数据,个性化数据占绝对多数.(3)处理速度快,时效性要求高.从各种类型的数据中快速获得有价值的信息.(4)价值密度低.例如,1 h的视频,在不间断的视频监控过程中,可能有用的数据仅仅只有一两秒.

大数据将带来的变化[1]:(1)从掌握局部数据变为掌握全部数据.(2)从纯净数据变为混杂数据,可能会发现生活的许多层面是随机而不是确定的.(3)从探求因果关系到掌握事物的相关性.以前总是试图了解事件背后的深层原因,大数据转变为弄清现象之间的联系.大数据主要回答是什么,而不是为什么的问题,通常有这样的回答就足够了.

研究大数据的意义是不断提高“从数据到决策的能力”,实现由数据优势向决策优势的转化.数据是现实世界的记录,它反映了现实世界的现状.数据中包含自然界的规律,也包含人类社会的人的行为.在数据中找出这些自然规律和人的特定行为,用于决策将会取得显著的效果.

2 利用即时数据的决策

国际商用机器公司(IBM)估测,“数据”值钱的地方主要在于时效.对于片刻便能定输赢的华尔街,这一时效至关重要.华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益.利用这些数据可以做很多事,比如华尔街根据民众情绪抛售股票;对冲基金依据购物网站的顾客评论,分析企业产品销售状况;银行根据求职网站的岗位数量,推断就业率;搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;分析全球范围内流感等病疫的传播状况等.

即时数据的有效决策归纳为:跟着当前潮流走;不满足于现状逆着潮流走;跟着新趋势走;从搜索信息中做决策;存在人为制造病毒或者造谣;网络丰富了个人生活和决策.

(1)跟着潮流走.跟着潮流走的典型实例:“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3~4亿微博账户的留言,进而判断民众情绪,再以1~50进行打分,根据打分结果,霍廷决定如何处理手中数以百万美元计的股票.

霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售.这一招收效显著,当年第一季度,霍廷的公司获得了7%的收益率.

(2)逆着潮流走.2013年6月9日,美国国家安全局承包商的爱德华·斯诺登,披露了美国国家安全局一项代号为“棱镜”的计划的细节.斯诺登说:“国家安全局打造了一个系统可截获几乎所有信息.有了这种能力,该机构可自动收集绝大多数人的通信内容.你的电子邮件、密码、电话记录和信用卡信息就都在我手上了.”斯诺登对《卫报》记者说:“我不想生活在一个我的一言一行都被记录在案的世界里.我不愿支持这种事,也不愿生活在这样的控制下.”

2010年陆军情报分析员布拉德利·曼宁,向维基揭秘网发送了几十万份机密文件.他说:“我希望人们看到真相,因为如果不知情,公众就不可能做出明智的决定.”

斯诺登和曼宁都知道披露美国国家安全局这样势力强大情报机关的秘密是非常危险的,他们是逆着潮流走的典型.

(3)跟着新观念走.跟着新观念走的典型实例:IBM在上一个10年抛弃了PC,成功转向软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点.IBM执行总裁罗睿兰认为:“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源.”

在个人决定前途时的选择,跟着新观念走的实例:海事大学信息科学技术学院某副院长说,他在完成学业以后,看见《计算机世界报》(1997年)首次向国内介绍“数据挖掘”新技术后,决定今后就选择“数据挖掘”作为方向,从而形成了他的人生新轨迹.

(4)互联网络上搜索信息.信息不对称现象普遍存在于社会,特别在市场经济活动中,各类人员对有关信息的了解存在很大的差异.掌握信息多的人,有更多的机会从差距中找商机获利.(信息不对称理论是由乔·阿克尔洛夫等3位美国经济学家提出的,从而获得2001年诺贝尔经济学奖.)

解决信息不对称现象,需要利用互联网络进行搜索,“知识在于搜索”是当今获取知识的新趋势,它是“知识在于学习”和“知识在于积累”的补充.这也造就了Google(谷歌)、百度等搜索公司的辉煌成就.例如,在识别流感疫情时,谷歌比疾病控制和预防中心更有效掌握疫情,因为谷歌利用监测无数个搜索词(比如“最好的咳嗽药”)并加入详细地址的追踪,所以有效掌握疫情区域.

搜索当前信息后做决策,已经成为即时决策的新趋势.

(5)开源软件激发了人的创新热情.开源软件是在开源网站上交流,相互之间激发出的创新热情.有的人通过软件开发锻炼自己,有的人想打破垄断,也有的人想展示自己的才能.各自充分发挥自己的智慧,在别人的研究基础上,增加更有用或更有效果的功能,共同开发出免费的软件.例如,Linux操作系统打破了微软的Windows操作系统的垄断,MySQL数据库软件使大家对数据库的应用更方便.

(6)制造病毒或者造谣.制造病毒数据,破坏网络系统或个人计算机.各国之间的隐形战争就是制造病毒破坏敌方的网络系统.

制造虚假信息进行造谣,让受骗者做愚蠢的决策,送钱或银行帐号及密码给骗子.例如在电话中,冒充公安机关人员,说你家人犯罪,要你交钱赎人;或者说你中奖,要你寄钱后发奖品给你等等.这些受骗者都是严重的信息缺乏者,也是典型的法盲.最近,武汉警方查获号称“中国最大的网络推广网站”的特大网络造谣团伙,其中参与谣言传播的“大V”的微博粉丝数量达2.2亿.该公司在1年间经营获利多达100多万元.

(7)网络丰富了个人生活和决策.个人上网可以在自己喜欢的网站上阅读信息,下载音乐、电影,与友人通信、交谈等.个人可以建网站、微博来发表自己的见解,也在制造数据.个人想从事学术研究或者商业活动,都可以在网络上找到自己所需要的信息,发表自己的成果和信息.个人已经享受到了大数据时代好处,大数据时代也支持个人决策.

大数据时代突出了即时决策.大数据时代既支持重大问题的决策,支持领导者的决策,也开创了个人决策的信息支持.

3 利用统计方法的辅助决策

分析数据离不开统计.在统计学中用总量、平均数、百分比、比率等数值,建立起对大数据的概括认识,用同类单位的比较或者用自己的历史数据比较,来发现问题和找出差距,为辅助决策提供依据.“统计与对比”已经得到广泛的应用.

统计语言学成功地实现了计算机上的自然语言处理.自然语言属于上下文有关文法,一个单词有多个解释,对于比较复杂的句子,用语法规则来理解遇到了困难(基于规则的自然语言处理).以前花了很大的代价一直在用语法规则进行自然语言处理,但是进展不大.

利用统计语言模型有效地解决了自然语言处理:一个句子s(它由一串特定顺序排列的词w1,w2,…,wn组成)是否合理,就看它的可能性(概率P(s)).统计语言模型给出了计算概率P(s)的公式为

P(s)=P(w1w2…wn)=P(w1)·P(w2︱w1)·P(w3︱w2)·…·P(wn︱wn-1).

(1)

(1)式中反映了单词的上下文关系,如w2与w1,w3之间的条件概率,因此用这种方法有效地判断了句子s的合理性.

统计学还有很多方法用于数据分析迏到辅助决策效果[3].如回归分析是研究一个变量与其他多个变量之间的关系,建立回归方程;假设检验是根据样本对关于总体所提出的假设做出是接受还是拒绝该假设的判断;聚类分析是将样品或变量进行聚类的方法;主成份分析是将多个变量化为少数的几个综合变量等等.

统计数据以及指标的对比是决策的依据.

4 从数据中归纳出数学模型

自然科学发展的最重要方法是从数据中归纳出规律,用数学模型(公式或方程)这种数量形式描述[3-4].例如,牛顿的运动三大定律、牛顿的万有引力定律、开普勒的行星运动三大定律、麦克斯韦的电磁方程组、爱因斯坦质能方程、纳维-斯托克流体力学方程、薛定谔量子方程等等.下面具体用典型例子说明.

(1)开普勒的行星运动三大定律的发现过程.

天文学家开普勒是利用他老师第谷一生观察的天文数据,自己也用了一生来归纳总结出行星运动的三大定律.

开普勒先从火星的观测数据中想找出它的运动规律,试探将它用一条曲线表示出来.一开始开普勒按传统观念,认为行星做匀速圆周运动,因此他采用传统的偏心圆轨道方程来试探计算.但是经过反复推算发现,不能算出与第谷观测相符的结果.开普勒开始大胆设想,火星可能不是作圆周运动.经过多年的艰苦计算,终于发现了火星沿椭圆轨道绕太阳运行,得到行星运动的第一定律(椭圆轨道定律).经过了9 a的苦战,开普勒终于得出行星公转周期的平方与它距太阳的距离的立方成正比的结论(p2/d3= 常数).这就是著名的开普勒行星运动第三定律.

(2)欧拉常数和公式以及陈文伟常数和公式的发现[5-6].

欧拉在研究调和级数与lnn之间,在n越大时,它们之间的差接近一个常数.他在求证它们之间的差的极限后,得到如下公式和值,该数称为欧拉常数:

陈文伟研究了调和级数公式,证明了尾项εn的级数和收敛为一个常数,定义常数为μ,它的计算公式为

(2)

它的值为μ=0.130 330 700 753 906 311 477 07….陈文伟再利用阿贝尔求和公式,证明了自然对数的底e、圆周率π和新常数θ三者存在一个新公式

(3)

其中θ=1+γ+2μ=1.837 877 066 409 345 483 560 65….

(2),(3)式均将2个著名常数e和 π紧密联系起来,它们都是形式化的公式.

自然界中,电和磁、质量和能量、圆周率π和自然对数的底e,它们都是不同概念,将它们联系起来既开阔了人们的视野,也开辟了科学的新天地.可以说,包含不同概念的简洁公式反映了科学的本质,也体现了自然之美.斯坦福大学教授德福林说:“联系、结合在一起的事物比相互分开的事物更为重要、更有价值,也更加绚丽多姿.”

(3)2013年诺贝尔奖化学奖的“复杂化学系统的多尺度模型”.

马丁·卡普拉斯等3位科学家将量子力学和经典力学计算相结合,用量子化学计算小区间(小分子计算量庞大)的化学反应,用经典力学处理小区间外的环境(大分子计算简单)的影响,弥补了经典力学无法模拟反应过程及量子化学无法完成环境的海量计算的缺陷.

诺贝尔经济学奖的获得者中,不少是利用大量的数据建立经济学的数学模型,用于解释当前世界经济现象的.

(4)计算机上利用数据归纳出数学模型的方法是数据挖掘的公式发现.

典型的方法有Pat Langley研制的BACON系统、陈文伟研制的FDD系统.FDD系统的启发式中包含了初等函数,这就使FDD系统发现的公式比BACON系统发现的更广泛.

5 从数据中获取知识

在计算机中,知识属于定性的,一般表示为规则形式.从数据中获取知识主要是利用数据挖掘技术,典型的数据挖掘方法大的分类有[4]:属性约简方法、信息论挖掘方法、集合论挖掘方法、Web挖掘、流数据挖掘等.每个大类中又有很多具体的方法.下面概括说明.

(1)属性约简.例如,汽车数据库(CTR)有9个条件属性(类型、汽缸、涡轮式、燃料、排气量、压缩率、功率、换档、重量),1个决策属性(里程).利用属性约简方法,可以得到等价的4个条件属性(燃料、排气量、压缩率、重量),1个决策属性(里程).数据库约简后成精练的数据集.

(2)集合论挖掘方法.集合论原理是数据挖掘的重要理论基础,可用于分类问题、聚类问题和关联规则挖掘.

集合论原理用于分类问题时,主要是利用集合之间的覆盖关系,如粗糙集方法是对条件属性和决策(类别)属性中的等价类(1个或多个属性取值均相同的元组)之间的覆盖关系;AQ11方法是对覆盖正例排斥反例的种子(多个属性取值的“与”关系),构成规则知识.

集合论原理用于聚类问题时,主要是按数据集中元组间的距离远近或相似度大小,聚成多个类别集合.如K-均值聚类方法.

集合论原理用于关联规则挖掘时,计算数据项(如商品)集在整个集合中和部分集合中所占的比例,大于阈值(支持度和可信度)时构成数据项之间关联规则.

(3)信息论挖掘方法.信息论方法一般用于分类问题.在已知有各实例的类别的数据中,找出确定类别的关键的条件属性.求关键属性是计算是各条件属性的信息量,再从中选出信息量最大的属性,构造决策树或决策规则树.

(4)Web挖掘.Web挖掘是从数以亿计存储大量多种多样信息的Web页面及其链接和用户对页面的访问中挖掘出需要的有用知识.Web挖掘分为3类:Web内容挖掘(网页内的信息和知识)、Web结构挖掘(网页之间的链接信息)和Web应用挖掘(浏览和使用页面链接的信息).

(5)流数据挖掘.卫星给地球传回大量的图像流数据;监控摄像机能够连续不断(比如每秒)地产生图像流;Web网站收到的流数据包括各种类型.例如,谷歌1 d收到几亿个搜索查询;雅虎的各个不同网站上收到数10亿个“点击”.基于这些流数据可以学习到很多有趣的结果,比如“咽喉痛或咳嗽”之类的查询频次的上升能够让人们对病毒的传播进行跟踪.

流数据挖掘中,一种通常的办法是在工作存储器上保存流数据的滑动窗口.

6 大数据与云计算的结合

云计算是继个人计算机、互联网之后第3次信息技术革命[7],它与大数据的结合,将会极大推动科学技术与社会的发展.

(1)大数据与云计算是相辅相成的.

云计算与大数据的关系相当于动与静的关系.云计算强调的是计算,这是动的概念;而数据则是计算的对象,是静的概念.大数据时代需要处理大数据的能力(数据获取、清洁、转换、统计等能力),这正是云计算的优势.大数据是宝藏,而云计算就是挖掘和利用宝藏的利器.

(2)大数据根植于云计算.

云计算关键技术中的海量数据存储技术(用分布式方式存储数据和冗余存储方式保证系统可靠)、海量数据管理技术、分布式编程模型(MapReduce,用于并行处理大规模数据集的软件框架),它们也都是大数据的关键技术.云计算有它独特的地方,即虚拟化技术和云计算平台管理技术.

(3)大数据技术与云计算相结合.

大数据与云计算的结合主要体现为:利用云计算的强大计算能力(SaaS软件服务、IaaS基础设施服务、PaaS平台服务),可以更加迅速地处理大数据中的丰富信息,为有效的决策支持服务.

对大数据的处理(海量数据存储、海量数据管理和分布式并行计算),又为云计算提供了最有价值的实际应用.即大数据为云计算提供了很有价值的用武之地.

7 结语

大数据时代是信息时代的延伸和发展(数据和信息本质是同一个东西,数据是信息的符号表示,信息是数据的含义).信息时代的特点是实现信息化、数字化,其目的就是充分利用计算机来提高各行业的管理和决策的水平.信息时代的基础在于计算机.信息化过程中数字设备的进步(如传感器、GPS和手机)以及数据的多元化(各种渠道)产生,极大地促进了大数据时代的来临.大数据时代的基础在于网络.网络数据已经遍及各行各业,也进入了家庭和个人.

生活在大数据时代,就应该充分获取大数据中所需要的数据,利用统计方法,或者从数据中归纳出数学模型,或者从数据中获取知识等手段,得到辅助决策信息.

领导者需要的是粗粒度数据.对于海量数据分析,只能告诉你“大概是什么”,其精髓就是“客观”.利用计算机从海量的数据中发现模式,体现了数据中的共性和客观性.

个人需要的是细粒度数据.在长期的知识积累的基础上,并通过网络上的新知识搜索,再进行横向或者纵向的比较,辅助个人的决策.

大数据使决策从“支持政府和企业”走向“支持个人”.大数据时代,只要能从大数据中通过不同的方法,获得所需要的信息就能获益.未来,数据将会像土地、石油和资本一样,成为社会、经济和军事的根本性资源.

[1] [英]维克托·迈尔-舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2013.

[2] [美]弗兰克斯.驾驭大数据[M].北京:人民邮电出版社,2013.

[3] 陈文伟.决策支持系统及其开发[M].第4版.北京:清华大学出版社,2014.

[4] 陈文伟.决策支持系统教程[M].第2版.北京:清华大学出版社,2010.

[5] 陈文伟.数据仓库与数据挖掘教程[M].第2版.北京:清华大学出版社,2011.

[6] 陈文伟.论新常数μ、θ和新公式 π=1/2eθ[J].高等数学研究,2009,4(4):2-5.

[7] CHEN Wenwei.Two New Constantsμ,θand a New Formula π=1/2eθ[J].Octogon Mathematical Magazine,2012,20(2):472-480.

(责任编辑 向阳洁)

EraofBigData:FromDatatoDecision

CHEN Wenwei1,CHEN Sheng2

(1.Naval Arms Command Academy,Guangzhou 510430,China;2.SoftStone Information Technology (Group) Co.,Ltd.,Beijing 100193,China)

According to the characteristics of the era of Big Data and the changes it brings,it is clear that core of Big Data era is from data to decision making.The rise of real ̄time decision ̄making in the era of Big Data,from large enterprises to individual,is comprehensively analyzed and described in the paper.In the aspect of data ̄aided decision making,this paper discusses the effective methods of using statistic methods to support decision ̄making,deriving mathematical formula from data and acquiring knowledge from data.The combination of big data and cloud computing will achieve the mutual promotion and common development.Finally,this paper puts forward that big data not only support large enterprises and government making decision,but also support the personal decisions.

Big Data era;instant decision;statistic method;mathematic model;knowledge;cloud computing;decision

1007-2985(2014)03-0031-06

2013-11-12

国家自然科学基金资助项目(61273306)

陈文伟(1940-),男,江西人,海军兵种指挥学院三系教授,博士生导师,主要从事决策支持系统、数据仓库、数据挖掘等研究.

TP301

A

10.3969/j.issn.1007-2985.2014.03.008

猜你喜欢
数据挖掘决策信息
为可持续决策提供依据
探讨人工智能与数据挖掘发展趋势
决策为什么失误了
订阅信息
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
展会信息
基于GPGPU的离散数据挖掘研究
关于抗美援朝出兵决策的几点认识
湘赣边秋收起义的决策经过