大数据及其发展趋势研究

2013-04-29 10:03李斌
广西教育·C版 2013年9期
关键词:云计算物联网大数据

李斌

【摘 要】介绍大数据产生背景,详细剖析大数据的基本概念及其特征,同时提炼了大数据的五种关键技术,指出大数据与云计算、物联网和数据空间相结合的发展趋势,以揭示需要研究的关键内容,为大数据的相关研究者提供参考。

【关键词】大数据 云计算 物联网

数据空间

【中图分类号】G【文献标识码】A

【文章编号】0450-9889(2013)09C-

0190-03

随着社交网络、移动互联、电子商务、互联网和云计算的兴起,音频、视频、图像、日志等数据正在以指数级增长,互联网的边界和应用范围不断被扩展。据麦肯锡的预测,2010年全球范围内硬盘存储的新数据超过7EB(1EB=10亿GB),而到2020年,全球数据总量将达到约35ZB(1ZB=10亿TB),大数据正以其多源、海量、异构的特性冲击着社会的各个领域,为传统的数据库系统在存储、访问和管理大数据方面带来严峻的考验,无论是在学术界还是工业界,都引起人们高度的关注。

2008年,国际顶级学术期刊Nature以“Big Data”为专刊,讨论了大数据给各个领域带来的冲击和挑战;2011年,国际顶级学术期刊《Science》推出“Dealing with data”专刊,重点探讨了对大数据的处理技术;2011年5月,全球著名咨询机构麦肯锡公司发布题为“大数据:下一个创新、竞争和生产力的前沿”的报告,明确提出应对大数据快速发展的策略,是第一份系统阐述大数据的专题研究成果;2011、2012年,中国举办了第一届、第二届“大数据世界论坛”,邀请了微软、甲骨文、因特尔等国际资深专家,覆盖金融、电信、能源等各个领域,共同探讨大数据前沿技术与发展态势,以应对持续增长的海量数据;2012年1月达沃斯世界经济论坛把大数据作为主题之一,探讨如何挖掘大数据的商业价值,为企业带来更好的社会效益;2012年3月,美国奥巴马政府耗资2亿美元研究“大数据研究和发展计划”,引导工业界、学术界和非营利机构改进和提高访问、收集、组织大数据的技术和方法。

大数据已经成为一种战略资源,具有广阔的应用前景。为了有效地管理大型复杂的数据和高效提取有价值的知识,还需要进一步把握大数据特性,选择合理的处理方式。

一、大数据的基本概念和特征

(一)大数据的基本概念。大数据是继云计算、物联网后的又一全球热点问题,因其潜在的巨大价值而受到各界的广泛关注。大数据从2009年开始流行于互联网,专家们从不同角度定义了大数据,由于大数据本身具有较强的抽象性,目前还没有一个统一公认的定义。

在早期,著名的Apache的开源项目Nutch用大数据描述用于批处理或分析的大规模数据集。大数据研究机构Gartner将大数据定义为一种具大规模、多样性和高增长特性的信息资产,其结构与现有的数据库处理系统不兼容,需新的并行数据处理平台或技术从大数据中提取潜在有价值的决策、优化信息。《著云台》团队认为,大数据是各种机构或组织在生成或交互过程中产生的大规模半结构化、非结构化数据,需要比关系型数据库有更强的数据存储和计算能力。全球排名第一的企业数据集成软件商Informatica认为大数据包括海量数据和复杂数据类型,其规模超过传统数据库系统进行管理和处理的能力。著名的存储解决方案公司NetApp定义大数据包含分析、带宽和内容三要素,侧重于大数据的实时分析、高速处理和高可扩展性。维基百科则认为大数据是超过当前现有的数据库系统或数据库管理工具处理能力,处理时间超过客户能容忍时间的大规模复杂数据集。

大数据概念上虽然与“海量数据”和“大规模数据”相似,但仍存在重要的差别。在内涵方面,它不仅包含了“海量数据”和“大规模数据”,而且还包括了更为复杂的数据类型;在数据处理方面,数据处理的响应速度由传统的周、天、小时降为分、秒的时间处理周期,需要借助云计算、物联网技术降低成本,提高处理大数据的效率。

(二)大数据的基本特征。大数据通常是指数据规模大于10TB以上的数据集。其特征是具有典型的“4V”(Volume、Variety、Velocity、Value),即规模性、多样性、高速性和价值性。

1.规模性。随着信息化技术的高速发展,数据开始爆发性增长。社交网络(微博、Twitter、Facebook)、移动网络、各种智能终端等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;Facebook约10亿的用户每天产生的日志数据超过300TB;Google每天通过云计算平台处理的数据超13.4PB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

2.多样性。由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大体可以分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。

3.高速性。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

4.价值性。大数据中有价值的数据所占比例很小,大数据的价值性体现在从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,运用于农业、金融、医疗等各个领域,以创造更大的价值。

二、大数据的关键技术

(一)存储技术。随着Internet技术的迅猛发展,各个领域数据急剧增加,目前已达到PB级海量数据,传统的数据库管理系统已经不适应存储数量巨大、形式多样的数据,迫切需要新的技术应对规模急速增长、结构复杂多样的数据存储。为满足大容量存储,需构建分布式存储系统,如当前流行的hadoop海量分布式平台,当数据量增加时,通过增加存储节点来保持数据分布的平衡,保持系统的易扩展性;为存储结构复杂多样的数据,应摒弃当前只针对结构化数据的存储方案,根据不同格式数据选取不同的存储策略。对结构化、半结构化和非结构化的数据可依次采用类似shared-nothing分布式并行数据库系统、面向文档的分布式存储系统、面向文件的分布式存储系统,以兼具多种数据格式,快速应对海量数据统计、查询和更新操作。

(二)机器学习技术。从数量巨大、结构复杂的大数据中挖掘出有用的知识和规律,人工操作已无能为力,必须利用机器学习技术,更深层次智能分析数据,更高效获取数据中隐藏的有效知识。随着大数据时代的到来,文本数据、图形图像数据、网络流量数据等不断涌现,用于处理大数据的机器学习新技术被提出并受到广泛关注。传统的机器学习方法如支持向量机、决策树、贝叶斯、神经网络等,因泛化能力有限,已经不适应大规模网络的快速分析。能同时利用有标记样本和无标记样本的半监督学习技术、整合多个具有差异性学习器的集成学习技术、充分积累历史学习结果的增量学习技术,凭借其对高维采集、查询和存储方面的优势,已被引入到处理大数据的并行技术中,为大数据的研究提供了新的思路。

(三)高性能计算技术。大数据的出现对计算能力的要求越来越高,大容量数据中心维护,并发任务的访问,高速的传输率和各设备间的负载均衡都需要高性能技术的支持,具体来说,在计算成本方面,需采用价格低廉的分布式计算节点,通过大量廉价节点进行并行计算,降低传统计算方式的成本;在计算实时性方面,引入各种高效机器学习算法,同时借助软硬件协同的优势,根据客户的计算任务,快速创建数据、分析数据、计算数据,并给用户提供毫秒级的体验;在数据格式方面,对各种不同的数据要采用不同的格式处理方法,计算难度和开销增大,各种数据平台的兼容和软硬件平台的协同是提高高性能技术的关键之一。

(四)统一描述技术。由于大数据的数据源异构、地理位置分散、表现形式多样,这使得数据间存在不一致性问题。对大数据进行处理的第一步是对不同格式的数据进行统一描述,数据的统一描述有两方面的优势:一是提供统一的数据结构,简化系统的处理复杂度;二是减少系统上层应用程序处理数据的开销。RDF(Resource Description Framework)即资源描述框架在描述资源的一致性方面具有通用性、智能性等特点,但其建模语言不丰富,逻辑推理能力有限,还需要一个具体的语法体系对其进行扩展。为应对大数据,基于本体的数据描述成为研究热点,主要集中在对数据描述的模型一致性、逻辑一致性和关系一致性方面。目前的研究只是在小规模的数据集上得到验证,还未有成功统一描述PB级及以上数据的案例。因此,研究基于RDF的数据描述框架,构建本体元数据模型,并对其进行有效地分层描述,解决格式各异的数据的统一描述问题,对大数据的预处理十分关键。

(五)可视化技术。数据可视化是把数据转换图形的过程。通过可视化技术,大数据可以以图形图像、曲线甚至动画的方式直观展现,使研究者观察和分析传统方法难以总结的规律。可视化技术主要可以分为图形技术、几何技术、图标技术、分层技术等。无论哪种可视化技术,都需与扭曲和交互技术相协同。针对海量、异构的大数据,目前数据可视化研究的热点包括:其一,层次可视化。Inxight公司成功将Hyperbolic tree层次数据处理技术用于解决focus+context平滑过渡难题,并广泛运用于图书分类和目录结构的应用。其二,多维可视化。研究中心Xcrox Palo Alto提出多维可视化结构table lens,由于其对大型数据有很好的适应能力,已使用到相关的产品中。其三,文档可视化。面对纷繁复杂的文档、电子邮件等数据,西太平洋国家实验室提出SPIRE可视化技术,能高效地确定大型文档中文件间的关系,对数据挖掘有极大的推动作用。其四,web可视化。随着Internet的发展,web数据持续膨胀,Chi等人成功地把7000多个节点连接成一棵树形,运用网站可视化变换技术,实时展现网站内容和访问量的变化情况。可视化技术的研究和发展,是实现大数据可视化的关键。

三、大数据的发展趋势

(一)大数据与云计算。为解决互联网应用对大规模计算能力、数据存储能力的迫切需求,云计算的概念被提出。云计算是一种分布式计算平台,通过虚拟技术将海量的硬件资源和虚拟资源虚拟成虚拟资源池,并根据需求任务的大小,向虚拟资源池获取相应的计算和存储资源。在大数据处理的需求下,出现了许多优秀的云计算平台,例如Apache开源的Hadoop、 Google的MapReduce、微软的Dryad等。在处理格式多样的大数据时,云计算能协调组织众节点,提供廉价的资源和服务,具有较可靠的可扩展性和容错性。然而,对于大规模复杂的应用系统来说,云计算还有诸多的技术问题有待深入研究。为应对数据密集型服务,云计算提供分布式并行编程技术、分布式并行数据库技术,可通过开源的编程接口和工具来调用服务,其优势是能高效处理结构简单的大数据,但对关系复杂的大数据的处理,在效率和准确率方面还不能令人满意。

大数据技术的目标是解决应用中多源、异构、海量数据的管理和使用问题,但其本身不具备处理大规模数据的存储资源和计算资源的能力,因此必须在已有成熟的技术基础上,引入新的与之相对应的大数据存储和计算平台。云计算以数据为中心,对大数据集进行处理,并向用户返回高效服务,具有并行化、虚拟化、按需服务等特点。从数据管理角度来说,大数据技术是对数据组织结构的描述,研究重点是数据的查询、更新、索引等操作技术;而云计算则是一种分而治之,按需索取的大数据分布式服务模式。这两个概念提出的背景都是为满足海量异构数据的组织和管理要求。从相互之间的影响来看,前者为后者提供了广阔的应用背景,后者为前者数据管理提供了存储和计算资源,两者相互促进,相互依存。

(二)大数据与物联网。随着智能交通、智能家居、智能物流、智慧景区等应用的兴起,物联网已成为未来经济的新增长点。美国、德国、英国、意大利和丹麦等国家争先推出物联网相关发展策略,使物联网规模不断扩大。互联网到物联网的跨越,极大地推动了大数据的发展。物联网是指把所有物品通过信息传感设备与互联网连接起来,实现智能化识别和管理。它从结构上分为四层,即实体层、感知层、网络层和应用层。其每层都与数据的产生或者处理息息相关。大数据与物联网的结合是机遇与挑战并存。

首先,产生数据的平台多样化。从原来的个人电脑扩展为传感器、智能手机、各种业务系统、平板电脑、监控录像等,这使得感知层需要感知的数据呈现多样化。目前主流的感知技术有视频文字采集技术、红外线技术、传感器技术和蓝牙技术等,但随着感知的数据数量级的不断增加,相应的感知技术也要不断地改进和完善。其次,物联网技术的局限性。事物的发展需要一个过程,处于发展初始阶段的物联网还受到一些技术的约束。在大数据的传输和处理方面,物联网技术还存在通信距离短、外部环境适应力不强、异构网络兼容性差等问题。传感器链接的距离范围是100米到1000米,不适合长距离的通信;当外部的环境发生变化,传感器的稳定性能大幅度下降,对具有高性能计算存储系统的安全带来风险;物联网的标准是建立在广电网、通信网和互联网等异构网的基础之上,还没有统一完善的标准体系。

(三)大数据与数据空间。大数据来自不同组织,它的跨域、分布、异构性以及海量的特点给传统的数据库管理系统带来巨大挑战,目前,管理着世界上最大数据的谷歌、雅虎和微软等公司,都不使用传统的数据管理系统,而是另辟蹊径去寻找可以满足大数据管理需要的技术。M.Franklin等人提出了数据空间的概念。数据空间是M.Franklin等人为应对信息量不断增长以及数据信息管理需求而引入的一种信息管理新概念。

目前关于数据空间技术的研究主要集中在个人数据空间方面,并取得了一定成果。国外的研究工作主要以iMeMex和SEMEx两个个人数据管理系统为代表。iMeMex由瑞士联邦理工学院开发,它推动了信息抽取和查询技术的进步,但缺点是不支持语义查询;SEMEx由华盛顿大学开发,成功把语义关联应用到实例中来高效提取信息。同时,麻省理工学院计算机科学系的David R.Karger等人研发了个人数据管理系统Haystaek,该系统采用了URF(Uniform Resource Identifier)半结构化数据模型统一表示用户数据,体现了数据空间“pay as you go”的数据集成思想。美国华盛顿大学数据库研究组的sharedviews项目实现了名为Homeview的原型系统,该系统能够支持个人动态数据的共享,但数据的类型和共享方式有限。

在国内,数据空间技术已经开始受到广泛关注。中国人民大学孟小峰教授等人对数据空间的概念、实现数据空间支撑平台所需的关键技术进行了详细的阐述与分析,并带领中国人民大学网络与移动数据管理实验室研究团队研发了具代表性的个人数据空间原型系统orientsPac。在综合考虑数据的模型、组织形式和分类方法基础上,提出了与数据相关的eorespaee模型和与任务相关的TaskSPace模型,但该系统的不足之处是用户不能自己定义关联。

综上所述,以物联网、云计算技术作为数据收集、数据管理手段,用数据空间技术来组织大数据,实现多层次、多粒度的大数据挖掘,是处理大规模数据行之有效的途径,也符合大数据管理和服务的需求。

【参考文献】

[1]孟小峰,慈祥.大数据的管理:概念、技术与挑战[J].计算机研究与发展,2013(1)

[2]王涛,余顺争.基于机器学习的网络流量分类研究进展[J].小型微型计算机系统,2012(5)

[3]袁平鹏,刘谱,张文娅,等.高可扩展的RDF数据存储系统[J].计算机研究与发展,2012(10)

[4]孙扬,封孝生,唐九阳.多维可视化技术综述[J].计算机科学,2008(11)

[5]王鹏.走进云计算[M].北京:人民邮电出版社,2009.

[6]宁焕生,徐群玉.全球物联网发展及中国物联网建设若干思考[J].电子学报,2010(11)

[7]A.Halevy,M.Franklin,and .Maier.Principles of Dataspace System. The Twenty-Fifth ACM SIGACT- SIGMOD-SIGART Symposium on Principles of Database Systems, Illinois,ACM,2006:1-9

[8]JP. Dittrich. A Platform for Personal Dataspace Management. SIGIR PIM Workshop.Personal Informat ion Management - A SIGIR 2006 Workshop.Seattle, CM.2006:40-43

[9]L.Blunschi.JP. Dittrich,OR. Guard. The iMeMex personal data space management system. Third Biennial Conference on Innovative Data Systems Research. Asilomar, ACM.2007:114-119

[10]Karger DR,Bakshi K,Huynh D,et al. A customizable general- purpose information management tool for end users of semistructured data. 2nd Biennial Conference on Innovative Data Systems Research. Asilomar ,ACM.2005:13-27

[11] Roxana G, Magdalena B, et al. Home views: peer-to-peer middle ware for personal data sharing applications.26th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. Beijing,ACM. 2007:235-246

[12] OrientSpace[EB/OL].(2013-03-05)[2013-03-05].http://idke.ruc.edu.cn/

OrientSpace

(责编 黎 原)

猜你喜欢
云计算物联网大数据
基于高职院校物联网技术应用人才培养的思考分析
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
基于大数据背景下的智慧城市建设研究
中国或成“物联网”领军者