大数据的特征和相关技术分析与趋势研究

2015-07-21 00:55李东兴
中国教育技术装备 2015年12期
关键词:数据仓库结构化数据挖掘

◆李东兴

作者:李东兴,北京师范大学全球变化与地球系统科学研究院助理工程师,研究方向为高性能计算、大数据分析与处理(100875)。

1 绪论

李克强总理在2014年国务院会议上曾指出:“积极支持云计算、物联网与移动互联网络的发展,催生基于云计算的在线研发设计、教育医疗、智能制造等新业态。在疾病防治、灾害预防、社会保障、电子政务等领域开展大数据应用示范。”大数据汹涌来袭,同互联网的出现一样,绝不仅仅是信息技术领域的革命,还是启动透明政府、创造无限商机、加快企业创新、引领社会变革的利器[1]。互联网、SNS和传感器技术的发展使得每一个网民成为大数据的贡献者,当然也是大数据的消费者和受益者。随着人们对数据重视程度的提升和收集数据意识的增强,大数据正在不断改变人们的工作、生活和思维方式。

2 什么是大数据

数据指客观事物的符号表示,包括文字、声音、图形图像等多种表现形式。信息是把数据放置到一定的情境中,对数字的解释。与信息不同,数据是信息的数字化记录,是信息的载体,是与语义不可分隔的。大数据(Big Data),指的是数据规模巨大到无法通过传统工具,在合理的时间内达到收集、存储、管理、处理、维护并整理成为服务于企业和社会的更积极的信息[1]。

从大数据的定义可以看出,之所以称为大数据,其一是数据量大到一定程度。但是,具体多大的数据才能称之为“大”,业界也没有统一的标准。当前,数据正在呈指数级增长趋势,十年之前TB甚至GB级别的数据可能是大数据,现在达到PB级别的数据才能称为大数据,再过一段时间,也许ZB级别的数据方能称为大数据。其二是数据价值大。大数据之“大”更多的意义在于人类可以“分析和使用”的数据在大量增加,通过对这些数据本身及它们内在联系的整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”“大智慧”,更好地服务全社会,推动智慧地球朝着更文明的方向发展。

大数据技术是指从各种各样类型的海量数据中,快速获得有价值信息的技术。整个过程包括大数据采集、大数据预处理、大数据存储与管理、大数据分析及挖掘、大数据展现和应用。其中大数据的存储与管理、大数据的分析与挖掘是整个过程的核心。

3 大数据的特征和本质

与小数据相比,大数据有4V特征,即:Volume、Velocity、Variety、Value。

Volume 数据量巨大,表现为存储量和计算量巨大。目前达到PB级容量的大数据出现在众多领域,据麦肯锡估计,全球企业2010年硬盘上存储了超过7 EB的新数据,消费者在PC等设备上存储的新数据超过了6 EB(相当于美国国会图书馆中存储数据的4000多倍[1])。我国建成的四大超级计算机中心,不仅存储容量达到PB级,其浮点计算能力也达到亿万亿次每秒。

Velocity 高速,表现为大数据量的增长速度日新月异;大数据的存储、传输、更新、处理等技术发展突飞猛进。据Facebook统计,每秒有4.1万张照片上传,2011年以发图1400亿张成为世界上最大的照片库。

Variety 多样性,表现为:数据来源增多;数据类型繁多;数据表现形式不断扩展。从数据来源上看,传统数据以交易事务型数据为主,而互联网和物联网的发展,则带来了微博、社交网络、传感器等多种数据来源;从数据类型上看,传统数据以结构化数据为主,互联网数据以半结构化和非结构化数据为主,大数据的数据类型是几种类型的复杂组合,其中半结构化和非结构化数据占80%左右;从数据的表现形式上看,从传统的声音、文字、图片不断扩展到网络日志、系统日志、视频、地图等形式。

Value 价值,表现为数据价值大和价值密度低。从数据价值上看,小数据的价值适用于小众群体和对小范围地区更有实用意义,大数据的价值不仅具有普及性、普遍性和说服力,而且更有个性化,能说明任何实体之间的相关性;从价值密度上看,大数据的价值密度低,假如同种类型的数据的潜在价值是固定的,数据量越大,价值密度必然越小。以机房网络监控日志为例,要查看的仅仅是报警和错误日志。

大数据的核心和本质是预测,通过分析方法和工具探索隐藏在数据表面背后的本质和规律,从而使企业在未来的商业活动中更具有主动性,政府制定社会治理决策更准确、更有针对性,个人在未来的生活和学习活动中更能找到适合自己的方式方法。这一过程又称“知识发现”。著名的“啤酒与尿布”理论,沃尔玛超市利用大数据发现了这一规律并应用到商业活动中,从而使自身的利润获得质的飞跃;美国管理学家、统计学家爱德华·戴明所言“除了上帝,任何人都必须用数据说话”,引领奥巴马政府上任伊始就树立了开放型政府的目标;作为“世界上量化最极致的人”,美国人克里斯·丹西克里斯利用谷歌眼镜等无线传感设备每天记录自己的饮食、情绪变化等,通过这些数据,他可以把自己的身体和情绪调整到最健康的状态。

4 大数据技术

大数据分析是一门涉及计算机科学、信息科学、统计学等多门学科的交叉学科,大数据的应用可以扩展到与人类相关的任何领域、任何角落,尤其是社会学、新闻学、教育学等社会学科。随着计算机技术的进步、统计分析水平的提高,越来越多的方法和技术会应用到大数据的分析过程中。以下重点介绍目前大数据分析涉及的相关技术。

人工智能 人工智能是关于知识的一门学科,是关于如何表示知识以及怎样获得知识和使用知识的学科[2]。随着互联网和社交网络的发展,大数据中的非结构化数据占据了主要地位,如电子邮件、图形图像、视频等数据资源。结构化数据的管理一般通过关系数据库实现,由SQL进行分析;非结构化的数据分析需要利用自然语言处理、图像解析、语音识别等技术,而这些技术正是人工智能的研究领域。将大数据与人工智能结合运用的经典是Google语义搜索和Apple的语音识别技术Siri,这些技术的进步,不仅需要理论的支撑,更需要大数据作为基础[3]。大数据与人工智能的结合已经给传统行业带来新的创新模式,其也必将在更广的领域改变人类的思维方式和实践能力。

数据仓库 数据仓库之父W. H. Inmon认为,数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程。从W. H. Inmon对数据仓库的定义可以看出,数据仓库有四方面的特征,即面向主题、数据集成、随时间而变化、数据不易丢失,这也是数据仓库与关系数据库的区别所在。

在大数据中,数据类型繁多,既有结构化数据,更存在大量的非结构数据,针对异构数据的存储和融合,应采用混合存储方式。结构化数据存储与处理借助于传统的关系型数据库,大量的非结构化数据则需要借助于NoSQL非关系型数据库。当前大量的非关系型新型数据库应用到大数据的存储中,如面向集合模式自由的文档数据库MongoDB、基于内存的键值存储数据库Redis、分布式MPP架构/列存储数据库HBase等。除了基本的存储功能,数据仓库还可以用来进行信息处理和分析处理,特别是对大数据的联机分析处理是其最重要的用途。

数据挖掘 数据挖掘是指通过特定的计算机算法对大数据进行自动分析,从而揭示数据的价值、发展趋势和数据之间的相关关系,为决策者提供新的依据。在大数据中挖掘知识就像在矿山中掘金一样,困难重重,任务繁重,是一个长期的反复的过程。大数据的积累使得从中提取有用的数据成为巨大的挑战。由于大数据与传统数据相比,具有4V特性,无法使用传统工具达到用户的诉求。数据挖掘很好地将传统的数据分析方法和处理大数据的复杂算法相结合。数据挖掘不仅要发现隐藏在数据内部的客观规律,而且对相关领域未来趋势进行预测。预测是大数据的核心,预测的技术支撑就是数据挖掘,挖掘数据的价值和内含的规律。数据挖掘是大数据分析的核心技术,只有寻求到更合理的挖掘算法,才能准确有效地挖掘出大数据的真正价值,而且更能实现对动态发展数据的分析。

分布式技术 分布式技术是一种基于网络的技术,把网络上物理位置不同的、分散的、闲置的资源整合起来,完成大型、复杂、大数据的计算与存储[4]。该技术主要是应对传统集中式技术存在的缺陷而产生的。它的目标是充分利用资源和提高大型任务的完成效率。所以它主要是针对那些大型任务,为了缩短时间,提高效率,通常把任务按照一定的规则或算法分配到不同的子节点,由子节点完成子任务,然后对每个子结果进行汇总,各个子任务在不同的子节点上并行执行,在充分利用子节点资源的同时,也降低了单个节点的负载。

分布式技术从20世纪80年代至今经历了网格计算、对等计算、并行计算、云计算等几个阶段。进入21世纪,Google推出分布式技术领域的三大典型技术——GFS、MapReduce、BigTable。当前国内外把分布式技术广泛应用于高性能计算领域。分布式技术在国内成功应用的案例是我国四大超算中心的建立,使得分布式技术广泛应用于气候、环境、医疗卫生、经济等领域。另外,很多NoSQL数据库也是借助分布式技术实现的,如HBase、MogoDB等。

可视化技术 1983年,耶鲁大学的政治学教授爱德华·塔夫特系统地考证了人类用“图形”表达“数据”和“思想”的渊源,整理了种种历史古籍中的图形瑰宝,并结合计算机的发展给统计领域带来的革命,出版了《定量信息的视觉展示》一书[5]。这本书后来被公认为是“数据可视化”作为一门学科的开山之作[5]。

人工智能、数据仓库、数据挖掘等大数据技术是面向机器和数据分析专业人员的,而可视化技术面向的是最终用户。不管是数据分析专业人员还是普通的用户,数据可视化是数据分析的最终目标。可视化可以直观展示数据之间的内在联系以及可能的潜在趋势,让数据说话,让观众看到更形象的结果,决策才能更有信服力,目标才更能接近成功。

互联网、通讯技术和传感器技术的发展使得全球数据量呈指数级增长趋势。美国互联网中心和IBM研究中心统计,从2011年开始,数据每年增长50%,每两年翻一番。而大数据技术只有飞速发展方能解决不断增长的数据分析需求。

5 大数据的研究趋势

人类已经进入一个无时不网、无处不网的“智慧世界”时代,大数据将在人们的社交网络、电子商务等互联网领域更好地服务人们的生活。更重要的是,其将在社会管理、经济管理、医疗与健康、数据新闻、物联网、教育科技等诸多领域有更好的应用并推动各领域的发展与进步。但大数据的发展也面临诸多挑战。大量的数据中心每年正在成倍出现,1998年,美国拥有432所数据中心,专门负责各类数据的存储和维护工作;2010年,数据中心的总数跃升到2094所,翻了几倍。就像物流成为电子商务的发展瓶颈一样,制约数据中心发展的核心难题是日益攀升的能耗问题。未来可能通过收集更多的数据中心的能耗数据并进行大数据挖掘技术,破除影响其发展的屏障。

另外,随着互联网的发展,数据收集的途径多种多样,数据门类繁杂,可能会造成大量私密数据泄露和“人肉搜索”等不道德现象。因此,针对未来大数据运动的狂潮,应该法律法规先行,并在数据收集、管理、处理和共享过程中建立完善的道德规范。

数据的整理和管理也是大数据时代面临的重大挑战。在这个数据爆炸时代,数据的数量、速度和多样性都在呈现爆炸式增长,大量数据相互联系、紧密交织在一起,而且呈螺旋状发展,因此,开发高效的工具、方法和规范以及有效地归类、整理、管理这些数据是必要的。■

[1]朱淑华.暨南大学公开课:开启“智慧生活”的大数据[EB/OL].http://www.icourses.cn/viewVCourse.action?course Code=10559V003.

[2]张妮,徐文尚,王文文.人工智能技术发展及应用研究综述[J].煤矿机械,2009,30(2):4-7.

[3]王喜文.人工智能与大数据怎样结合?[N].中国电子报,2014-7-17(3).

[4]宁葵,严毅.分布式计算技术发展研究[J].微机发展,2004,14(8):14-16.

[5]涂子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].广西:广西师范大学出版社,2012.

猜你喜欢
数据仓库结构化数据挖掘
促进知识结构化的主题式复习初探
探讨人工智能与数据挖掘发展趋势
结构化面试方法在研究生复试中的应用
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于图模型的通用半结构化数据检索