姚瑶(中州大学信息工程学院,郑州450044)
大数据环境下的数据分析及应用研究
姚瑶
(中州大学信息工程学院,郑州450044)
大数据蕴含着巨大的商业价值和社会价值。针对大数据的分析与应用面临的新挑战,文章重点阐述了文本分析、Web分析、网络分析及移动数据分析等数据分析技术,并从商务智能挖掘、公共安全预警等领域介绍了大数据分析与挖掘的热点应用。
大数据;文本分析;Web分析;网络分析
随着社会信息化和网络化的快速发展,数据量急速增长。据统计,全球每秒发出的E-mail有290万封,每分钟上传到YouTube上的视频长20小时,每天Twitter上发布的微博有5000万条。早在2008年,Google一天的数据处理量就有20PB,目前已经达到每天处理24PB的数据量。同时,科学计算、医疗卫生、金融、零售业等各行业也有大数据在不断产生,预计到2015年全球信息总量会达到8ZB[1],数据计量单位如表1所示。互联网、物联网、社会化网络的应用对数据的增长起主要作用,当前已进入了大数据(Big Data)时代。
相对于传统数据,大数据不仅仅表现在巨大的数据量,还具有如下几方面的新特征。
第一,数据来源更加广泛。传统的数据来源于科学研究产生的数据、企业数据、互联网数据等。随着移动网络、物联网及社会网络的发展,移动设备数据、传感器数据、RFID(射频识别)数据及网络自媒体数据增长迅速,且生成形式更加灵活、多样。云计算、物联网、社交化媒体、地理信息系统(GIS)为大数据提供了丰富的数据来源。因此大数据中包括的每个网络用户的身份、地点、时间、喜好、厌恶、社会关系等大量的信息。
第二,大数据的数据类型更加复杂。包括图片、音频、视频等结构化、半结构化、非结构化数据等类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%[2]。
第三,数据处理平台并行性更高。因大数据的移动和传输会消耗较大的计算资源,基于SQL的关系数据库系统已满足不了大数据的深度分析。以Google公司的MapReduce、Apache的Hadoop为代表性的非关系数据管理、存储和分析技术具有良好的扩张性、容错性和大规模并行处理的特点,成为大数据分析的主流架构和平台。
表1 数据计量单位表
数据处理和分析技术主要有数据库技术、数据挖掘技术、机器学习、经济计量学、商业智能技术、数据统计及数据可视化等。当前,数据分析的面向内容有:基于DBMS(数据库管理系统)的结构化数据的内容,基于Web的非结构化内容,基于移动网络和传感器网络的数据内容。大数据分析的研究领域主要有文本分析、Web分析、网络分析及移动数据分析等。
2.1文本分析
文本分析技术主要包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理等。文本分析技术起源于信息检索和计算语言学。当前,存在于Web页面、E-mail和社会媒体中的相应文档,它们的内容通常都是非结构化的。信息检索、文献表示法和查询处理是提升向量空间模型的基础。布尔检索模型和概率检索模型成为现代数字图书馆、搜索引擎、和企业搜索管理系统的支撑技术。在计算语言学中,自然语言处理(Natural Language Processing,NLP)统计技术用来进行词语识别、词义消歧、词性标注、概率上下文文法等方面。另外,文档和查询表示、用户模型和相关反馈技术在改进查询性能方面都很重要。
20世纪90年代,在成熟的商业系统就引入了搜索引擎技术,包括快速、分布式的爬虫系统;高效的倒排索引;基于内链接的网页排序;搜索日志分析。它们广泛应用在基于文本的企业搜索和文档管理系统中。
由于大数据和自然语言统计处理工作的发展,文本分析技术又继续应用于几个新的领域。例如,信息抽取、主题建模、问答系统和意见挖掘。信息抽取主要研究如何自动地从文档中抽取特定分类的结构化的信息。信息抽取的一个应用为实体识别,即从文本中识别原子数据项,并分成指定的类别(名字、地点、时间等);主题建模是设计一些算法,用来在大量非结构化的文档中发现特定的主题。像LDA这种新主题建模算法和其他概率统计模型都在实际中有所应用。问答系统依据与NLP、信息检索和人机交互技术。最初的问答系统仅限于实际的问题和回答(例如,何人、何事、何时、何地等)。问答系统需要用到问题分析、大案抽取、来源检索、问题表示等技术。问答系统常用于教育、健康和攻防领域中。IBM公司的Watso和Apple公司的Siri问答系统做的很成功。
意见挖掘指利用计算技术从文本内容中来抽取、分类、理解和评定相关的意见表达,文本内容来自在线新闻、社会媒体评论、其他媒体产生的内容等多个方面。情绪分析是意见挖掘技术的一个具体应用,常用于在线文本内容的识别情绪、情感、主观意愿及其他情绪状态。Web2.0和社会媒体内容已经产生了大量且能引起刺激公众情绪的机会,包括社会事件、政治运动、企业战略、市场竞争的认知。文本分析技术体系如表2所示。
表2 文本分析技术体系
除了上述研究方向外,文本分析还在如下几个方向具有重要的研究机遇和挑战:Web在线文档作者归属分析、Web文档的多语种检索分析、大规模文本可视化工作。而多媒体信息检索和移动信息检索是除了核心的多媒体和移动技术外,也需要文本分析技术支持的另外两个领域。同大数据分析一样,文本分析也要用到MapReduce、Hadoop和云计算等服务,这些会促进文本分析研究方向的进一步发展。
2.2Web分析
在过去的10年,Web分析技术一直是个活跃的研究领域。Web分析面临着特有的分析挑战和机遇。基于HTTP/HTML的超链接Web站点、相关联的Web搜索引擎、Web内容定位系统,它们都促进了基于Internet特有的技术:Web站点爬虫、Web页面更新、Web站点排序、搜索日志分析。针对用户的访问记录进行Web日志分析通常用在内容推荐系统,然而,随着Web服务和Web2.0系统的发展,Web分析技术会有更多的应用。
基于XML格式和Internet协议(HTTP、SMTP),Web服务可以重用和集成第三方或者代理系统的功能。新的Web服务功能和相应的API(应用程序接口)部件能使开发者很容易地从不同的Web应用系统集成丰富的内容。例如,在调用远程服务时的状态转移表示、新闻推送的RSS、轻量级数据交换的JavaScript对象表示等。同样,Google Web服务的应用程序接口支持搜索、地图API、Google翻译、Google应用程序引擎等。
Web信息的多样性决定了Web挖掘的多样性。Web挖掘研究可以分为三类,如图1所示。
图1 Web挖掘的分类
Web内容挖掘:从Web内容中发现有用的信息,Web内容主要包括文本、图形、图像、音频、视频等。
Web结构挖掘:研究Web链接结构的建模分析,主要用于搜索引起结果排序、Web网站结构优化及其他Web应用。
Web使用挖掘:Web使用挖掘旨在通过对网络日志进行有效的数据挖掘,发掘隐藏在日志数据背后的Web用户访问模式[3]。利用数据挖掘技术分析Web搜索日志,来找出用户兴趣方式。
目前,在Web分析技术中一个主要的领域为云计算服务平台的发展,该平台包括通过Internet部署的应用系统、系统软件、硬件设备等。基于面向结构的服务、服务器虚拟化和效用计算方式的实现,云计算可以看作一种软件服务、一种基础设施服务或者一种服务平台。
当前的Web分析技术涵盖了社会网络搜索与挖掘、声誉机制系统、社会媒体分析、Web可视化等研究领域。另外,基于Web的拍卖、Internet货币、Web隐私与安全等方面也和Web分析技术相关联。
2.3网络分析
现代社会典型的特征是“网络”和“信息”。“网络”是现代社会发展形成的社会结构的一种实例。例如人们的社会关系、不同阶层的人群、商业活动、交通、通信、计算机网络、犯罪组织、虚拟网络社会等,都体现了一种“网络”关系。网络社会分析的主要内容有:网络社会构成、网上社会行为与互动、网上人与人之间的关系、网上群体、网上组织、网络社区、Web2.0、博客、微博、网络公共领域、互联网上的社会网络分析、网络社会秩序、网络犯罪及其它网络社会问题等。网络分析技术还处于初始的研究阶段,主要包括文献引用统计分析、在线社区计算模型、社会网络分析等。不同的社会网络理论、网络性能指标、网络拓扑结构、网络模型用来衡量网络属性及其相互联系。
最近的网络分析研究集中在链接挖掘和社区发现上。通过链接挖掘,可以发现或预测一个网络中节点间的链接关系。在网络中,节点可以代表消费者、终端用户、产品和(或者)服务;节点间的链接可以表示社会联系、合作关系、E-mail收发或者产品的采用等。甚至仅利用拓扑信息就可以进行联结挖掘。近邻关系(Common Neighbors)、群落系数、Adamic Adar Measure、卡茨传递方式等理论常用来预测丢失或未来的链接。准确的链接挖掘还可以进一步推测节点及其链接属性的关联性。社区发现也是一个研究热点。若用图形表示网络,可以利用图分割算法来找出最优割截图,以便在用户团体中得到密集子图。
社会网络分析理论适合于社会网络和计算机网络形成各种网络关系的分析方法。网络关系可以用图2的方式表示。
图2 常见的网络关系图
常见的社交软件,网络关系图具有一定的规律性。例如QQ好友的网络关系、微博的网络关系图如图3所示。
图3 微博关注的网络关系图
多种技术被应用在研究动态的社会网络中。例如,采用智能主题仿真模型来研究疾病传播网络、罪犯或恐怖分子网络。在线虚拟社区、罪犯或恐怖分子网络、社会政治网络、信任与声誉网络等将是网络分析应用的新场所。
除了文本分析、Web分析、网络分析领域外,当前发展迅速的还有移动数据分析技术。移动计算在IT行业中增长迅速。随着智能手机的广泛普及,Android(安卓)系统从2010年就占据移动平台上的首位。这个基于Java和XML的开源平台易于掌握,成为IT行业流行的应用环境。移动数据分析的研究领域包括:用于位置确定和活动识别的移动感知应用、移动社会网络和群包、移动可视化、移动应用的个人和行为建模。
当前数据分析的热点应用主要有智能商务(例如,电子商务和市场预测)、电子政务及管理、科学技术应用、智能健康和福利、公共安全等领域。
3.1商务智能挖掘
商务智能(Business Intelligence,BI)挖掘是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,以获取更大的利益的技术。上世纪美国零售业巨头沃尔玛对自己的商品销售数据库发现了“啤酒和尿不湿”的关联是数据挖掘中最经典的案例。
大数据时代下的商务智能称为BI2.0,不仅仅只是对企业内部数据进行收集、处理和分析,还需要对互联网上网络浏览、微博、微信等非结构数据进行处理,这样才能建立一个具有全面、完整的数据价值发展平台。不管是商务智能的应用还是大数据的处理,都是为企业的决策分析服务的,只有将两者有机的结合起来,才能挖掘出真实有效的信息和知识[4]。国内知名的电子商务企业京东商城从2012年推出的“数聚汇”功能,通过深度分析8000多万用户,页面汇集了来自全国各地的网络购物信息和数据,分析本年度用户的购物行为,挖掘数据背后的信息。比如,根据网购电视机的尺寸来推断同一客户拥有的客厅面积大小、根据不同地区客户网购加湿器的数量来推断该地区的干湿程度、根据不同地区网购电饭煲的容量推断相应家庭成员的数量及结构组成等。
传统的数据挖掘是指在结构化的数据中发现潜在的关系和规律,但随着商业竞争的白热化,非结构化的数据如各种文本、图像、音频、视频等达到空前规模,如何把散布在网络上的资源整合起来,从中挖掘出有价值的信息,是当前数据挖掘面临的最大挑战之一,迫切需要更加高端的数据挖掘的方法和技术[5]。为了充分运用大数据资源,国外的互联网企业Google、eBay、Facebook、Twitter及国内的百度、腾讯、阿里巴巴等都投入巨大的力量来进行用户行为分析、企业决策推荐、社交媒体分析等应用。
3.2公共安全预警
数据分析技术在公共安全预警的主要应用领域有:智能预警、边界和运输安全、国内反恐、重要基础设施(包括网络)保护、突发事件应对。公共安全问题监测与信息预警是现代社会公共管理的重要内容[6]。利用大数据可以有效地预测相关领域的未来趋势。早在2009年,Google根据人们网络搜索的关键词数据成功预报了流行病的出现,比疾病控制中心早一周左右。2010年惠普实验室利用Twitter的数据精确预测了好莱坞电影的票房收入。
大数据能够揭示人类行为的社会规律。从“9·11”事件以来,公共安全研究得到各国的重点关注,尤其是全球安全越来越依赖于数字化的技术和方法。计算科学、信息系统、社会科学等领域的专家学者都在和愈加频繁的暴力、恐怖、网络犯罪及其他危害网络安全的行为作斗争。可以利用网络舆情分析进行公共安全预警、基于威胁情报分析的安全防范预警、多源数据的融合与舆情分析、大数据热点情报跟踪等。
在信息化社会中数据就是财富。针对于不同数据的文本分析、Web分析、网络分析及移动数据分析技术在大数据时代必将得到更广泛的应用。但在新媒体环境下,时刻记录我们的位置数据、通话数据、网络行为数据等可以轻易获得,留下了数据安全的隐患。在进行大数据分析的同时,如何保护大数据的安全值得重点关注。
[1]冯登国,张敏.大数据安全与隐私保护[J].计算机学报,2014(1):246-258.
[2]马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013(2):10-17.
[3]郭岩,白硕.网络日志规模分析和用户兴趣挖掘[J].软件学报,2005(9):1483-1496.
[4]范明武,瞿斌.大数据下商务智能课程体系产学结合教学研究[J].才智,2014(24):172-172.
[5]李艳玲.大数据环境下的技术变革与管理创新[J].控制工程,2014(21):142-145.
[6]欧三任.社会公共安全预警信息发布研究[J].重庆邮电大学学报:社会科学版,2013(9):107-112.
(责任编辑赵冰)
Research on Data Analysis and Application in Big Data Environment
YAO Yao
(School of Information Engineering,Zhongzhou University,Zhengzhou 450044,China)
The big data contains enormous commercial and social value.Based on the new challenges brought by the analysis and application of big data,this paper aims at expounding different analysis technology:the analysis of text,web,network and mobile data.Meanwhile,the analysis of big data and mining are also introduced in different fields such as the intelligent mining of business data and the early warning public security.
big data;text analysis;Web analysis;network analysis
10.13783/j.cnki.cn41-1275/g4.2015.01.028
TP311
A
1008-3715(2015)01-0120-04
2014-10-23
2015年度河南省高等学校重点科研项目(15A120014)
姚瑶(1982—),女,湖南保靖人,硕士,中州大学信息工程学院讲师,研究方向为网络信息技术。