韩伟红,贾 焰,周 斌
(1. 广州大学 网络空间先进技术研究院,广东 广州 510006;2. 国防科技大学 计算机学院,湖南 长沙 410073; 3. 电子科技大学 广东电子信息工程研究院, 广东 东莞 523808)
当前,人类社会已经进入了大数据时代,“大数据”已经无处不在。互联网领域的公司非常重视数据资产的价值,从中挖掘有价值的信息,利用大数据分析技术提升公司服务质量。亚马逊早在2013年就推出了“未下单,先调货”计划,利用大数据分析技术,基于对网购数据的关联挖掘分析,在用户尚未下单前预测其购物内容,提前将包裹发至转运中心,缩短配送时间。阿里巴巴通过智能图像识别、智能追踪、大数据分析建模等技术,从10亿量级的在线商品中发现假冒伪劣商品。美国大数据企业帕兰提尔(Palantir)公司通过对电话、网络邮件、卫星影像等进行大数据分析,协助美国中央情报局(CIA)获取基地组织的准确位置信息,帮助美军捕杀本·拉登。
尽管大数据现在如此炙手可热,但无论是在学术界还是在工业界,都没有给出一个关于大数据的公认的定义。一般认为:“大数据”是指在一定时间内难以依靠已有数据处理技术进行有效采集、管理和分析的数据集合,它通常满足以下“5V”特点:(1)Volume:数据量大,包括采集、存储和计算的量都非常大;(2)Variety:种类和来源多样化;(3)Value:数据价值密度相对较低;(4)Velocity:数据增长速度快,处理速度也快,时效性要求高;(5)Veracity:数据的准确性和可信赖度低,即数据的质量低。
大数据分析是指基于大数据,面向特定的模型,通过分类、聚类、关联、预测、众包、深度学习等处理,从而揭示隐藏在数据集合中的规律,发现出有价值的知识的过程。数据分析以发现有用知识为目的,主要包括清洗、集成、转换、建模以及模型评估等过程,最终得到决策知识。这一过程通常会根据分析目标进行反复迭代,逐步求精。
云计算、物联网、移动互联网等新技术与大数据息息相关。
图1 大数据分析的关键技术
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。作为一种互联网新型计算方式,为大数据提供了计算资源和存储空间。
物联网是大数据的重要来源之一。物联网是指通过信息传感设备,按照约定的协议,把任何物品与互联网连接起来,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络,是在互联网基础上延伸和扩展的网络,是大数据的重要来源。
移动互联网也推动了大数据技术。移动互联网是传统互联网与移动通信技术结合并实践的活动的总称。作为传统互联网与移动通信技术结合的产物,移动互联网技术丰富了大数据的类型,特别是大量用户生成内容和非结构化数据。
综上所述,物联网以及移动互联网持续不断地产生大量数据,并且数据类型丰富、内容鲜活,这是大数据的重要来源;大数据则代表了互联网的信息层,是互联网智慧和意识产生的基础;而云计算是大数据处理的基础资源。这四项技术相互推动,协同发展。
当前,大数据已经广泛存在于各行各业,形式丰富多样,规模不断增大。大数据所主要存在的行业包括能源、制造业、政府、金融、销售业、文化娱乐业、IT互联网、电信业以及交通旅游业等。IDC出版的《数字宇宙》指出,当前人类存储的数字信息已达到6 992 EB, 2020年预计将达到40万亿GB(40 ZB),人均5 200 GB以上。
美国物理学家约翰·惠勒(John Wheeler)提出“物质源自比特(It from bit)”,信息就是物质。实际上,物质在消耗,而数据却在不断增加。数据已成为宝贵的战略资源。在农耕文明时代,铁器是最重要的生产和劳动工具;在工业文明时代,蒸汽机、内燃机是世界上最重要的“原动机”;在现代经济时代,石油成为现代经济的命脉;在大数据时代,数据已经成为最重要的战略资源之一。
大数据分析的流程分为以下五个部分[1-2]:大数据清洗与融合、大数据处理框架、大数据建模与分析、大数据可视化以及大数据隐私保护,其中涉及的技术如图1所示。本文只对大数据分析中的数据清洗与融合、大数据处理框架和大数据建模与分析等关键技术进行介绍。
大数据清洗融合技术旨在将各种不同形态、来源、格式、特点的数据在逻辑上或物理上有机地集中,为后续的数据处理提供支持。该部分技术主要包括数据清洗、数据融合和一致性保护三个部分。
数据清洗指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。例如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配时,需要进行数据清洗。
模式对齐是指将多种数据源的不同数据模式,通过格式转换、合并、分解、泛化等手段,整合成统一的、便于处理的统一数据模式。
记录关联是指将不同形式表示的数据链接在一起,形成一个完整的表示。例如某品牌相机,通过数据关联方式将网页上存在的多种不同信息进行处理,形成描述该相机的完整信息表示。
数据融合指通过统计、插值等方式,消除不同数据源中的不确定性。例如,张艺谋的生日有多个说法,真假难辨,通过统计方式,得出各种说法的置信度,为后续的挖掘应用提供支持。
大数据处理框架主要是为大数据解决方案中涉及的各层和高级组件提供一个高可用性以及可扩展的逻辑架构,可以满足各种数据量的数据业务的需求。该部分技术主要包括数据存储、索引、流数据处理等技术。
数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。数据以某种格式记录在计算机内部或外部存储介质上。Google文件系统GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,由主节点和分散部署的多个数据节点组成,提供具有容错功能的高性能数据存储服务。
索引是一种特定的数据结构,将数据块中的关键信息按某种高效结构进行组织,使得用户可以快速查找到符合查询条件的数据块。常用的索引包括倒排索引、键值索引和空间数据索引。基于倒排索引的查询技术是基于词建立索引的,记录了各个单词在不同文档中的位置,支持基于单词的高效查询,是文档检索系统中最常用的方法。键值索引是一种树状的数据结构,用于存储排序后的数据,可显著减少定位记录的中间过程,从而加快存取速度。空间数据索引是根据空间数据的地理位置、形状或空间对象之间的关系,按一定顺序排列的一种数据结构,其优劣直接影响空间数据库的整体性能。
数据处理技术包括MapReduce和流处理等技术。MapReduce批量处理框架将待处理任务划分为若干子任务,将其分配到不同节点上,实现了利用多个网络节点对任务的协同计算。流数据并行处理框架是一种针对前后关联性不强、无须先存储再计算、实时性要求高的流式数据,通过多个并行执行的流水线在内存中对数据进行分步处理的数据结构。主要步骤为:(1)用户注册连续查询,指定查询类型、窗口宽度等(如计数查询);(2)初始化当前滑动窗口内的数据集,得到初始概要结构;(3)新数据到达;(4)更新概要数据结构;(5)任何时候,处理器都可以根据概要结构得到当前的查询结果。
大数据建模与分析是用数据挖掘和机器学习方法对杂乱无章的大规模数据进行建模与分析,萃取和提炼有用信息并形成结论,以找出所研究对象的内在规律。大数据建模与分析主要包括数据挖掘、机器学习、人工智能、众包等技术。
(1)数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,一般通过统计、在线分析处理、情报检索、专家系统和模式识别等诸多方法来实现上述目标。数据挖掘的算法包括分类、聚类、关联规则等。分类是指根据训练数据集和类标号属性,构建模型来分类新的数据。聚类是指将数据聚到不同的簇,同一簇中彼此相近,不同簇中彼此相离。关联规则是指隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。
(2)机器学习所关注的是计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。其中最具有代表性的是深度学习。深度学习是神经网络的扩展。神经网络是由大量的节点(或称神经元)相互连接构成的。每个节点代表一种特定的输出函数,每两个节点间的连接代表一个通过该连接信号的加权值,网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。深度学习是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,通过组合低层特征,形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。其目标是将输入的信息通过编码器生成高层的特征以后,使得高层的特征能够通过解码器尽可能地还原成原输入信息(即使得特征编码过程中损失的信息尽量少),通过代入训练数据求解最优参数值。
(3)人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术。大数据分析处理中代表性的人工智能技术是知识图谱。知识图谱本质上是一种语义网络,其节点代表实体(entity)或者概念(concept),边代表实体与概念之间的各种语义关系。
(4)众包是一种分布式的问题解决和生产模式,问题以公开招标的方式传播给未知的解决方案提供者群体。例如,Made.com负责搭建一个虚拟平台,吸引设计师提交设计作品,并贴在网上由顾客投票,票数最高的产品才会进入生产行列。
大数据时代的到来,给世界带来了深刻的变革,包括人们的思维方式、管理方式等。随着数据产生、收集、存储等技术的不断发展,目前已经同时存在着两个“平行世界”,即数据世界和物理世界,其中,数据世界是物理世界的客观映射和反映,实际上,数据不仅可以描述客观物理世界,还被用于刻画人类精神世界和人类社会,大数据通过“量化一切”而实现世界的数据化,可能改变人类认知和理解世界的方式,带来全新的大数据世界观[3-4]。
大数据改变了人们的科学观。首先,15世纪起,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论。“科学始于观察”成为科学研究和认识论的主流,例如:牛顿通过观察苹果落地,提出了万有引力定律。20世纪30年代,德国哲学家波普尔提出了被后人称为“证伪主义”的认识论观点。他认为科学理论不能用归纳法证实,只能被试验发现的反例“证伪”,因而他否定科学始于观察,提出“科学始于问题”的著名观点,例如:弗莱明通过对培养葡萄球菌的器皿长出的绿霉提出质疑,发明了青霉素。今天,大数据兴起引发了新的科学研究模式:“科学始于数据”,例如:谷歌成功利用大数据提前一两周预测流感爆发;美国Flatiron Health公司正在研究大数据战胜癌症的方法。因此,大数据已经改变了人们认识世界的方式等。
大数据时代人的行为甚至思维习惯都变得可以分析。亚马逊、淘宝等购物网站记录人们的购物习惯,谷歌等搜索引擎分析人们的搜索内容,微博、社交网络、微信等对个人隐私几乎无所不知,基于Web2.0的社交网络应用甚至可分析人们的行为和思想。就像借助于显微镜人们可以看清细胞的结构、互动关系一样,借助于面向在线社交网络的大数据分析技术,可以分析人的行为、思维和情感,从而对人性和人的行为进行分析。
正因为大数据分析的这一能力,社会的管理模式将发生深刻的变化。例如:2013年 “单独二胎”政策的制定与出台,充分利用了大数据分析技术,通过社交媒体发布拟制定的政策和规划,然后引导讨论,从而搜集民意,广泛开展民意调查,为政策和规划的最终制定奠定了基础;舆情分析应用,可以通过分析互联网大数据,发现热门话题、话题的来源、话题的推手、话题的传播面和人们对话题持有的立场等;美国的数据监听计划,美国国家安全局全面监控Google、Facebook、微软等网络媒介的数据以及个人智能手机的隐私信息,以掌控民意和获取情报,为政府和军方决策提供支持。因此,大数据已经深刻的改变了人们的管理方式。
面对大数据时代的来临,必须认清特点,把握走向,积极应对,高度重视大数据及其应用的潜在价值,时刻关注其前沿技术,加快推进其实际应用,确保在新一轮信息化浪潮中赢得主动,占得先机。
参考文献
[1] HU H, WEN Y, CHUA T S, et al. Toward scalable systems for big data analytics: a technology tutorial[J]. IEEE Access, 2017, 2(1):652-687.
[2] SOWMYA R, SUNEETHA K R. Data Mining with Big Data[C]// International Conference on Intelligent Systems and Control. IEEE, 2017:246-250.
[3] MANYIKA J, CHUI M, BROWN B, et al. Big data: the next frontier for innovation, competition, and productivity[J]. Analytics, 2011.
[4] AGARWAL R, DHAR V. Editorial —big data, data science, and analytics: the opportunity and challenge for IS research[J]. Information Systems Research, 2017, 25(3):443-448.