蔡江辉,杨雨晴
(太原科技大学计算机科学与技术学院,太原 030024)
2008年9月,《大数据:PB时代的科学》一文在《nature》杂志上发表,大数据开始慢慢进入人们的社会生活。如今,“大数据”不仅仅是网络热词,其相关技术已经渗透到各行各业。赛迪顾问分析显示,中国大数据产业规模从2015年的2 231.6亿元增长至2019年的5 386.2亿元,年复合增长率达24.6%[1];互联网数据中心和IBM的研究数据表明,信息将以每年50%的速度快速的增长,每两年会增加一倍[2]。2008年全球数据总量仅为 0.49 ZB,2012年已达到 2.8 ZB,2020年有望达到40 ZB[3].上述数据充分表明,当今世界已经处于数据爆炸式增长的“大数据”时代。
数据爆炸式增长给大数据的分析和处理带来了巨大挑战。比如说,来自不同地点的数据规模增速惊人,这些数据如何才能以可伸缩的方式收集并集成;如何在大数据处理的诸多环节(预处理、建模、分析、预测、优化、可视化等)提高决策效率。针对上述挑战,Google,Facebook,Microsoft,amazon,Alibaba 等互联网企业在大数据领域积极探索不断寻求技术创新,极大促进了大数据行业和相关技术的发展。本文从大数据分析及处理出发,简述了大数据的概念及特性,重点分析了大数据领域的发展现状;最后总结了目前大数据分析和处理存在的问题并对相关问题进行了简单分析。
什么是“大数据”?这个问题一直以来都是业界争论的焦点,学者和从事大数据有关研究的专家们对大数据的定义都有其自己的见解。维基百科中将大数据界定为:常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集[4]。徐宗本院士对大数据的描述为“不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集[5]”。从上述定义可以看出,大数据是一个与传统数据集相对的概念,为了区分大数据还得拿它和传统数据做一番比较。
大数据和传统数据差异首先不得不说的就是数据量,它是区分大数据和传统数据的关键因素。传统数据集一般仅仅达到GB,而大数据则已经达到PB、EB甚至ZB.其次,传统数据通常是结构化的关系型数据,对传统关系型数据进行标注和存储一般来说相对容易。而大数据则大部分都是半结构和非结构化的,比如文本、图像、音频、视频文件等。对大数据进行标注和存储是相当困难的,大数据的标注任务在大多数情况下都是无法完成的。从对数据处理速率的要求上看,大数据的产生速率是极快的,大数据对处理速度的要求更高(大数据与传统数据集的比较如图1所示)。此外,从产生机制上来说,大数据已经突破了传统数据产生的时空概念,是“人”“机”“物”三者高度融合,相互协同作用的结果[6]。
表1 大数据与传统数据的比较Tab.1 Comparison between big data and traditional data
大数据的复杂产生机制让大数据具有了多种复杂特性,其中业界广泛认可的是META集团分析师在2001年提出的3V特性,包括规模性(Volume),多样性(Variety),高速性(Velocity)。此后,数据的价值性(Value)也被提出,由此发展成了4V特性。2012年,IBM又加入了真实性(Veracity),大数据特性由4V发展到了5V,即规模性(Volume)、多模态(Variety),高速性(Velocity)、价值密度低(Value)和真实性(Veracity).截止目前,大数据特性已经由5V发展到了7V(如图1所示)。
图1 大数据的特性Fig.1 Characteristics of big data
信息技术的飞速发展让数据的获取变得容易快捷,数据量在短时间内迅速膨胀,数据的存储、查询、索引等都面临着前所未有的挑战。要在短时间内响应用户的需求,准确完成数据分析任务并将结果可视化呈现给用户是传统数据分析与处理中没有遇到的。目前,大量研究旨在解决大数据在产生、收集、存储、分析与挖掘、可视化等各阶段中所面临的问题。经过分析综合,本文将大数据的分析与处理体系概括为大数据采集、大数据存储、大数据预处理、大数据分析及挖掘、可视化呈现5个部分(如图2所示)。
图2 大数据分析与处理体系Fig.2 The framework for big data analysis and processing
(1)大数据采集:数据无处不在,其来源涵盖了金融、医疗、互联网、交通、通信、教育、科研等领域。上述领域的大数据在规模、数据特性上存在很大差异,选择什么样的数据采集方法既要考虑数据源的物理性质,又要考虑数据分析的目标。常用的数据采集设备主要有传感器、移动终端、日志文件、web爬虫[7]等。
(2)大数据存储[8]:数据的类型可以分为结构化、半结构化和非结构化数据3类。相较于传统数据,大数据多是半结构化和非结构化的。以往关系型的轻型数据库只能完成某些简单的查询和处理请求,当数据存储和处理任务超过轻型数据库能力范围时需要对其做出一定改进,或者借助于大型分布式数据库或集群或云储存平台。
(3)大数据预处理[9]:数据源的多样性以及数据传输中的某些因素使得大数据质量具有了不确定性,噪声、冗余、缺失、数据不一致等问题严重影响了大数据的质量。为了获得可靠的数据分析和挖掘结果必须利用预处理手段提高大数据的质量。数据清洗[10-11]可以发现大数据中不准确、不完整或不合理的数据并对其进行修补或移除;冗余检测和数据压缩[12]可以消除数据不一致并降低存储开销。
(4)大数据分析与挖掘[13]:大数据分析与挖掘是大数据处理体系的核心,其目标是通过一定的分析和挖掘技术发现大数据中隐藏的有价值的信息或知识从而辅助决策。大数据分析和挖掘涵盖了统计分析、机器学习、数据挖掘、模式识别等多个领域的技术和方法,比如说通过数据挖掘的方法发现人类的移动模式[14-16]。
(5)可视化呈现[17]:为了让用户更好地理解数据分析和挖掘的结果,需要将挖掘到的知识或者模式在终端以友好、易于理解的方式直观展示给用户,为用户决策提供意见或支持。
大数据分析与挖掘是将海量、复杂、高速、低密度的大数据转化成为人类生产生活服务的知识或模式的重要技术。为了实现上述目标国内外专家和学者们开展了大量研究工作。本文剩余部分将从数据分析及挖掘的相关技术和方法着手简单叙述数据分析和挖掘的国内外研究现状。
2012年11月6日,美国时任总统、民主党候选人奥巴马击败共和党挑战者罗姆尼成功连任。据《时代》杂志透露奥巴马成功连任得益于其在过去两年时间内对其国家网络大数据的分析和挖掘。通过分析用户的消费、搜索和游览习惯等数据,马云旗下的淘宝和天猫网站每年双十一的销售额达到了几百亿人民币,堪称互联网行业规模最大最成功的商业活动。上述大数据分析和挖掘的成功经验让各行各业的大数据生产者和消费者们都看到了大数据的价值,同时也激发着各行各业的专家和学者们投身于大数据分析与挖掘的宏伟事业。目前,国内外出现了众多大数据分析和挖掘的技术,本小节从大数据分类上分析了文本大数据分析与挖掘、网络大数据分析与挖掘、多媒体大数据分析与挖掘、移动大数据分析与挖掘的国内外研究现状。
伴随着各种社交媒体的广泛应用,文本数据量剧增。文本作为数据存储的最常见的形式,既不是完全无结构也不是完全结构化的。常见的文本数据包括电子邮件、文档、网页和社交媒体内容等。文本大数据的分析和挖掘能够从无结构或者半结构化的文本中获取由价值的信息或知识。
为了描述长文档的主体结构,文献[18]中建立了一个新的主题超图模型,在处理长文档上获得了很好的分析结果。文献[19]中提出了用于提取多元文档摘要一种演化网络,该演化网络能够将原始文档中重要的语句或者字段连接在一起形成文档摘要。除此以外,文本分类和文本聚类也是文本大数据挖掘研究的热点。文本分类技术多用于识别文档主题,将主题相同的文档分类到预先定义的主题下或在众多的主题集合中找到目标文档所对应的主题集合;而文档聚类则是将相似度高的文档划为一类,并没有预先定义的主题作为先验知识。
同一个词汇在不同领域中可能具有不同含义,某些用来对文档进行分类的关键和重点词汇也可能存在上述情况,阻碍了高效的检索。为了解决上述问题,文献[20]提出了一种基于模糊逻辑的文档分类方法,该方法建立了一个模糊规则推理系统,能够利用统计特征来分离多个或未定义类别的文档,实现大数据环境下的文档高效检索。文献[21]针对海量网络文档中涵盖的广泛主题和类别,利用模糊规则的分类器,提出一种增强型网络文档分类模型,该模型将网络文档归到不同类别(领域)中,并利用进化模糊算法依据文档内容的变化实现文档分类的动态实时更新。
大数据背景下文本数据的大量、高维、稀疏的特性给聚类这种无监督的学习任务增加了难点。现有很多文本的聚类算法在精度和实时性上并不能满足实际应用的需求。着眼于上述问题,文献[22]中提出了一种针对高维稀疏文本数据聚类的并行pkmeans算法,该算法包含数据降维、聚类以及并行设计三个模块。降维模块利用自编码网络的降维模型进行文档特征选择;其次,聚类算法模块以密度k-means++算法为基础选择初始聚类中心;最后,利用CUDA架构和MPI消息传递接口实现算法并行性,降低了算法的时间开销。文献[23]将文本大数据的研究集中在了大数据的语义上,给出了一种基于临床文档标准和用户用例一致性的约束模型,解决了传统医疗大数据文档划分过程中的语义丢失问题。
互联网、物联网、云计算、三网融合、新媒体等技术的飞速发展,网络大数据规模空前,对其进行分析与挖掘成了许多行业共同面的的严峻挑战和宝贵机遇。网络大数据分析与挖掘早期的研究主要集中在文献计量学分析[24]和社会学网络分析[25]上,随着社交网络的兴起,社交网络分析与挖掘成了新一轮研究的热点。
为了发现社交网络中的社区结构[26],文献[27]提出了基于拓扑的检测方法,该方法依据一个目标函数来反映社区的结构。Du 等[28]基于真现实世界中社区存在重叠的特性,提出了大规模社交网络中的社区发现算法。Palla等人也致力于重叠社区结构的研究,他们在文献[29]中基于完全子图渗流来发现社区结构,并在生物、信息、社会等网络中得到了成功应用;进一步,Shen等[30]人利用聚合式的层次聚类技术,提出了一种新的社区发现方法,该方法既能揭示网络层次又能发现重叠社区结构。近几年,文献[31]提出了用于检测复杂网络大数据中重叠社区的DOC算法。同样针对复杂网络的社区重叠问题,文献[32]提出了一种基于群体智能思想的并行自组织重叠社区检测算法,该算法不仅能很好地处理重叠的社区检测问题,还具有分析大规模网络的能力。同样基于群体智能思想,文献[33]重新定义了PSO算法中的粒子编码、粒子速度、粒子位置和进化操作,提出了基于离散粒子群算法的复杂网络社区检测方法。
为了自适应地发现复杂网络的动态社区,文献[34]提出了一种线性谱聚类算法发现静态网络社区,然后在此基础上引入卡普拉斯矩阵、拉普拉斯本征映射相关方法提出了一种增量式谱聚类自适应地发现动态网络社区。文献[35]以AP(Affinity Propagation )算法为基础结合t分布提出了APT算法从多尺度、高维的网络中检测社区。
通常情况下多媒体数据比文本数据包含的信息更丰富,因此,多媒体数据研究的复杂度更高且涵盖范围更广,包含多媒体摘要、多媒体标注、多媒体索引和检索、多媒体推荐等。
多媒体摘要[36]和文本摘要任务类似,主要从原始数据文件中提取重要的词句或者视频、音频片段。文献[37]中选择一系列重要的视频片段表示原视频,然后利用原视频的特征平滑视频片段得到更加平滑的视频摘要。文献[38]中构造了一个视频超图模型,并在此基础上利用超图排序将视频按照不同内容分类,最后通过函数优化的方式生成视频摘要。
为了实现多媒体数据的管理和检索等任务需要对不同的多媒体数据进行标注。多媒体标注存在人工标注和自动标注两种,早期的多媒体标注主要采用了人工和计算机自动标注两种方式结合的混合标注方法[39],目前则以自动标注和混合式标注方法居多。为了改善多媒体地理位置标注中信息标注不完备以及标注精度不高的问题,文献[40]中提出了一种基于视觉定位技术的图像地理位置标注方法。
多媒体索引和检索[41]通过对多媒体信息的描述、存储和组织让用户快速准确地获取其所需的多媒体信息。Shao 等[42]提出一种基于视频内容的视频检索技术,该技术利用时空定位手段能够从数据库中准确检索出符合时空约束的视频。针对某些算法时间复杂度高,对亮度和尺寸变化敏感等不足,文献[43]提出一种基于图像灰度值的编码表示方法。Yang等[44]提出了一种基于深度神经网络的图像检索方法,有效地保留了显著区域之间的空间结构。
多媒体推荐能依据用户的偏好为用户推荐其可能感兴趣的多媒体内容,主要包含基于内容、基于协助过滤[45]以及二者混合[46]的多媒体推荐方法。基于内容的方法依赖于内容相似性度量的选择,受内容分析结果的影响很大。基于协作过滤的方法先将用户按照兴趣分组,通过监控其他组内成员的行为未用户进行多媒体推荐。上述二者混合的方法能够在一定程度上减轻对分析内容的依赖并吸收了协作过滤的优点,二者混合方法的多媒体推荐质量更高。
移动终端,如移动手机、传感器[47]和RFID[48]等的普及产生了巨量的移动数据[49-50]。这些数据中普遍存在着的噪声、冗余和数据不一致等问题给移动大数据分析提出了更高的要求。
本文从以生态文明的发展为根本目的,保证生态信息资源关注度的提高,空间型高校教育资源的开发、整合以及利用等几个方面阐述了高校教育资源体系构建的生态化方向。然后从重视高校教育资源自然性特征的开发、注重教育资源能量与信息的交换、控制高校教育资源能量出入的平衡等几个方面提出了体现生态能量资源体系构建的侧重点。
为了分析移动数据的语义从而发现移动对象活动的异常情况,文献[11]对移动对象轨迹数据开展了时间和空间两方面的研究。针对移动数据中的移动性预测问题,文献[12]中提出了一种新的演化算法,该算法通过移动模式挖掘、移动规则提取以及移动性预测三个阶段来预测移动用户在个人通讯系统中的下一次移动。为了提高移动数据的安全性,文献[51]提出了一种收集实时信息并实时报警的框架。为了挖掘游客的行为模式,文献[52]结合地理信息和移动网络数据在游客分类和游客团体识别方面做了大量工作,其行为分析结果为旅游行业意义重大。为了挖掘移动对象的周期模式,文献[53]提出了闭包多限制条件树算法,解决了周期模式挖掘中的模式支持度和周期距离难获取的问题。
RFID是一种产品电子标签能够在一定范围内追踪、定位和监控标识对象,其在仓库和固定资产管理、商品信息管理、物流运输、门禁考勤、公共交通安检、医疗信息追踪、国防和军事等领域均得到了广泛应用。文献[54]对RFID数据的位置、时间和聚集簇等信息推断追踪目标和监控系统所处的状态。针对传统序列式的RFID数据挖掘方法不考虑RFID数据的特性,将数据看成整体来对待使得挖掘效果不理想的情况,文献[55]提出一种RFID移动数据挖掘算法,该算法首先利用序列模式挖掘方法挖掘位置信息,然后在此基础上进一步开展时间序列挖掘,获得了较为理想的挖掘结果。
大数据行业的飞速发展既带来了机遇也带来了前所未有的挑战,本小节通过对大数据分析与处理体系中各过程的分析综合,总结出来一下几点挑战(如表2所示)。
表2 大数据发展的挑战Tab.2 Challenges of big data development
存储问题是大数据分析和处理过程中首先面临的一个重要问题。谈及大数据人们对其的第一反应就是数据量大,而数据量其实是一个相对来说好解决的问题,隐藏在海量数据背后的复杂关系以及复杂数据类型才是大数据存储中面临的真正挑战。数据存储并不是简单的将数据保存在存储设备或介质中,存储作为数据生命周期中的一个环节,需要考虑的是在整个生命周期中数据上可能发生哪些操作,如何存储才能方便对数据进行存取和调度。大数据的特性及需求要求大数据存储是必须具备可扩展性、高的容错机制、低数据分析延迟以及低成本的,针对上述挑战开展更加深入的研究将极大推动大数据分析和处理的发展。
大数据预处理和集成是大数据分析和处理的关键环节,考虑数据的异构性和时空特性,提升数据的质量是预处理和数据集成成功的关键。大数据的数据量是巨大的,由于先验知识的匮乏使得数据分析的难度大大加大;此外,大数据突破了传统的时空界限,其随着时间发生相应变化,这就要求能够实时增量式地开展分析任务以适应大数据的动态变化特性。
大数据建模是发现大数据中有价值知识或模式的重要手段,大数据模型不仅靠考虑数据的动态性也要兼顾大数据的统计和语义特性,然而做到上述这点也具有一定的挑战;一个可以解决的方法就是多模型融合,然而多模型融合本身也是一个复杂而艰巨的任务。
对于开发大数据系统来说,系统必须可用易用、具备人机交互的能力,同时系统的计算效率和吞吐量要高,为了适应大数据随时间变化的特性系统也需要具备演化能力,上述这些需求均对大数据处理系统的设计和开发带来了不小的挑战。
为了让大数据的分析和处理结果真正被用户理解从而为决策提供支持,对结果的解释是必须的。在结果解释方面,数据复杂性、语义复杂性、参数及假设复杂性、分析验证步骤的复杂性以及模型复杂性等都给恰当而准确的结果解释设置了障碍,寻求合适的结果解释或者表示方法对大数据发展来说意义重大。
大数据隐私保护也是目前大数据行业关注的话题,隐私保护的主要障碍来自于数据的暴露和数据的动态特性,而大数据的规模又在一定程度上限制了隐私保护机制的复杂性,太复杂的安全保护机制开销太大,在大数据上适用性和实用性不强,因此,大数据隐私保护中普遍使用的是相对简单的保护机制。上述简单的隐私保护机制使得大数据中存在较大的信息安全隐患,如何才能突破这一限制,设计出更加符合大数据要求的隐私保护机制也是目前亟待解决的挑战。
我们正生活在大数据的浪潮中,空前的大数据资源既是机遇又是挑战。迄今为止,大数据分析与挖掘作方面所在的工作还很有限,要克服大数据领域的上述挑战,还需要开展大量的工作。本文从大数据的内涵和特性出发,简单介绍了大数据分析与处理的技术体系;从文本大数据分析与挖掘、网路大数据分析与挖掘、多媒体大数据分析与挖掘以及移动大数据分析与挖掘四个方面重点概述了国内外大数据分析与处理的研究现状;最后对大数据分析与处理领域面临的挑战进行了简单概括,并对其中的主要挑战进行了简单分析。