基于粒计算的大数据处理分析

2022-07-08 03:04郝冉
电子技术与软件工程 2022年1期
关键词:粒化数据处理粒度

郝冉

(中认国证(北京)评价技术服务有限公司 北京市 100020)

维基百科上这样定义大数据:在一定的时间内无法使用常规方式进行内容抓取、管理和分析处理的数据集合。大数据的“大”有两层含义,一是指数据量大,还指数据类型多种多样。随着社会信息化程度逐渐提高,市场竞争、社会发展分析等多方面都要依仗大数据来推进,从数据中挖掘出其背后的信息已成为目前各国重要的研究方向。为了提高对海量数据的处理效率,云计算、粒计算等相关技术随之出现,这些技术的应用使得数据充分发挥了它的作用,来源于社会并服务于社会。2020 年中国通信院大数据白皮书预测:2035 年全球数据总量将达到2142ZB。

各国各地区都已经意识到不断增长的各种数据中蕴含着丰富的实际意义,与此同时,信息行业的技术工作者们也感受到了来自庞大数据的巨大挑战,目前以往的技术手段和性能已经很难满足对当前数据量的处理要求,因此使得人们需要不断在数据存储、数据处理、计算机模型与性能等多个相关领域进行探索和提高,以达到尽可能快速高效地将这些庞大的数据中蕴藏的价值充分挖掘出来,使其发挥作用促进社会与科技的不断进步。

粒计算作为一种更为有效的方法论,主要是为了建立以外部环境为基础,以用户为中心的一种思想,从而简化人们对于物理与虚拟世界的认知,并在此基础上,用适当粒度的“粒”作为中间环节从而求得整个问题的解,相较于对完整问题进行求解的过程而言,以合适的粒度的“粒”作为处理对象可以有效地提高求解效率。

1 大数据挖掘当前面临的挑战

大数据是社会高度信息化后出现的一种概念,指的是通过对海量真实数据进行收集和分析后得出有利于社会发展的信息,达到透过数据发现本质的目的。目前人们常说的大数据的3V 特性指的是大数据的Volume(量大)、Velocity(增长快)和Variety(数据结构多样),通常情况下大数据的大小至少要达到GigaBytes,目前每天至少有2.5EB 的数据增加,数据结构囊括文本信息、音视频、传感器信号等。由于大数据的3V 特性,使得他的发展面临了极大的挑战,主要包括以下几点:

(1)数据的存储与检索:大量数据的出现使得存储与检索变得困难,即使存储技术的水平一直在不断提升,但面对源源不断增加的数据,再高的磁盘容量和再低的存储成本都无法满足需求,无限制地存储所有数据也会对资源造成浪费,给电力系统带来压力。与此同时,海量的数据导致数据检索速度下降,检索难度大大增加,无法及时有效地获取所需数据,这也违背了信息化时代背景下大数据研究的意义。

(2)通信效率:网络在某种程度上催生了大数据的产生和发展,但海量数据使得网络传输压力激增,对网络设施的要求越来越高,增加了人力和物力成本。

(3)数据处理:存储大数据并不是大数据存在的意义,挖掘其背后有价值的信息才是大数据研究的本质。对大数据的处理流程包括获取、清晰、集成、分析和解释,不断增加的海量数据导致每一步的工作难度都在增加。

(4)安全与隐私:因数据涉及各方面隐私,收集并存储数据最需要考虑到的就是注意保护数据安全性,避免影响正常社会运转的事情发生。

上述几种挑战大多交织关联,并非独立存在,因此使得对大数据的研究充满挑战与魅力,吸引了来自计算机、通信网络、信息安全等各行各业的工作人员对提升大数据处理、解决当前困境进行研究。虽然大数据的出现为研究人员带来了许多挑战,但也为社会发展提供了前所未有的机遇,大数据是与人力、物力不同的一种新的促进生产发展的因素,是当前社会进行科学研究和提供服务不可获取的一部分。充分合理对大数据进行研究,挖掘其背后真正有用的信息,可以为社会各界带来巨大的帮助。

2 大数据处理的研究现状

目前有关于大数据的处理研究主要有4 各方面,如图1所示。

2.1 大数据处理范式

信息领域各方面的研究人员针对体量不断增大的大数据所带来的挑战都在从不同的方向寻求更为有效的解决方案,从事计算机系统结构方面的研究人员李国杰认为,要想提高大数据的处理效率,就要对计算机系统结构进行革命性的重构工作,从以往的以计算为主数据为辅的方式转变为以数据为中心以处理为辅的方式,通过减少数据的传递来提高大数据处理的效率。从事编程语言工作的研究人员梅宏认为,对编程模型和编程语言进行重构也可以有效地提高大数据处理效率。而怀进鹏所提出的Inexact(近似性)、Incremental(增量性)、Inductive(增量性),三者构成的3I 特性非常直观地反映了针对大数据的3V 特性需要对数据处理进行的改革。

2.2 大数据处理算法

大数据处理算法主要关注以下几个方面:数据的传输、数据的访问、数据的挖掘以及机器学习等相关内容针对大数据所进行的改进与提升。自有大数据的概念以来,信息技术领域的相关技术人员对大数据的处理进行了各种尝试,如表1 所示。

数据挖掘主要有两种方式,一种是以数据为基础,将大数据数据流通过采样、负载、草图等方式转化为为常规的数据集合,另一种方式以目标为基础,通过对现有的算法模型进行优化或是改革技术来处理大数据数据流,主要包括近似算法、算法输出粒度等。

2.3 大数据处理平台

开源大数据处理平台是大数据处理分析的基础组成部分,为了更加便捷有效、直观地对大数据进行处理,一大批来自高校、开源社区以及相关企业的人员们基于大数据处理的算法开发出大数据处理平台,并且不断对其进行迭代更新,逐步提高平台的性能,使其更高效、更广泛地服务于大数据处理的相关工作。当下大数据处理平台主要有以下几种:

(1)文件系统:HDFS;

(2)大规模并行数据查询引擎:Cloudera Impala;

(3)静态数据分析工具:Pig/Shark 等;

(4)数据流分析工具:Storm 等;

(5)内存加速集群计算系统:Spark 等。

2.4 大数据处理应用

大数据的来源是社会生活的方方面面,因此大数据中所蕴含的价值也可以服务于社会的方方面面。在生物科学领域,2013 年Marx 在杂志上曾介绍说,利用计算机和软件工具对大数据进行分析,生物学家则可以不直接接触活体就可以对基因组测序等进行研究;Turk-Browne 曾在2013 年的《Science》杂志上发表过一篇以人脑功能交互为基础的大数据方面的文章,文章中指出人脑功能的复杂性:神经分布广泛、神经过程影响因素复杂,交互随着认知改变、交互可能具有很高的维度。在治安管理方面,美国加州大学的学者曾在2012 年建立了一个针对犯罪活动的预测平台,以以往发生的数千万起案件为数据基础,找出案件和日期、天气、节日、交通等相关事物的关系,利用大数据分析对这些案件信息进行挖掘,以此优化调整警察管理方案,在警力同等的情况下使当地盗窃案件发生的概率下降了19%。

3 大数据挖掘的新出路:粒计算

粒计算是指以粒结构为基础进行思考、对问题求解和信息处理模式的一种理论、技术和工具的统称,粒计算在当前的智能信息处理方面占据了重要的地位。站在人工智能的角度上来看,粒计算通过模拟人类对大规模问题进行考量和处理的方式,以解决实际产生的问题出发,选用满意度更高的较优解,而不是使用完全不考虑现实情况的精确最有解,来完成对问题的处理并提高解决效率。站在大数据分析与处理的角度上来看,粒计算采取粒化复杂信息的方式对其复杂程度进行简化,基本单元由样本信息缩小为信息粒,这样做可以有效提高计算效率。粒计算主要包括以下几个方面:数据的粒化、粒化数据的发现、融合和推理等研究内容。以大数据复杂问题为基础,粒计算方式建模的主要表现有以下几个方面。

3.1 大数据的复杂性与多粒度性

我国著名科学家钱学森先生曾在他的论文中提出这一观点:“简单系统是指没有层次或只有一个层次结构的事物,复杂巨系统指的是具有很多子系统种类并且层次结构多,相互之间的关联关系很复杂的系统。每一个复杂系统都具有一定的层次结构。”生物工程领域的Friedman 曾指出在细胞网络和蛋白质网络等复杂结构生物范围的大数据中都存在着多层次的特性。大数据中的数据大多来自于层次结构复杂多样的自然和人工系统的记录,或者是由人类社会使用网络的过程中产生,这就可以说明反映这些系统的大数据集合之间的关系必定也蕴含着与复杂系统相似的较为复杂的层次结构和相关联性,这个特点就是大数据的复杂性与多粒度性。

3.2 数据挖掘的多层次性与多粒度性

挖掘数据背后的信息主要是为了用于给实际的生产生活提供参考和帮助,因此即使处理的是同一个数据集合,由于所需内容的角度不同或者是信息指导的内容不同,使得对数据进行挖掘的方向也会不同,因此数据挖掘与大数据类似,同样具有多层次性与多粒度性。以旅游行业大数据挖掘为例,站在国家、地区层面上来看更关心的可能是旅游业对各地经济发展的作用,国家政策对旅游业发展的影响,站在酒店从业者的角度来看更关心提供什么样的服务可以更好地吸引顾客入住。由于需求不同,就要求数据挖掘要从不同的角度入手,并且还可以进行有效的融合和组装,便于完成对数据挖掘的定制需求。

3.3 算法近似求解的高效性

“大数据表示所有数据”这一理论在2021 年出版的一本名为《大数据时代大变革》的书中曾被提到。针对大数据的处理工作无法通过常规手段,使用常规工具在一段时间内完成,因此大数据挖掘工作的第一步就是将完整的大数据整体按照一定的规则或条件进行拆分,使其可以进行运算,这个过程就是对数据进行粒化,粒化后的数据更便于进行数据挖掘与分析。

由于大数据的复杂性使得对大数据进行建模往往会出现及其复杂的层次结构,所以对大数据进行挖掘的算法必须要可以按照不同任务不同需求从不同的角度抽选中与要求相关的部分,并以抽选部分为基础对整体数据进行合理的推理演算以达到进行大数据挖掘的目的。

由于实际工作中对信息要求的快速及时,因此在进行数据挖掘时需要采用近似求解的方式。与以往的小数据集合不同,大数据的快速增长性对数据挖掘算法提出了极高的要求,在复杂性极高、噪声大、混杂性大的情况下得出最优解几乎是不可能完成的事情,因此选择得出近似最优解就是一个很好的方式,而且近似解基本可以满足实际生产生活的需要,就不必大费周章去求得精确最优解。

由上述分析可知,粒计算可以很好地解决大数据当前所面临的问题,解决大数据结构层次复杂,处理整体数据困难,粒计算与大数据挖掘算法具有极高的吻合度,因此可以推断出以及粒计算为基础进行大数据挖掘与处理分析是今后非常有效地处理大数据问题的途径之一。

4 粒计算的研究进展

美国研究人员曾在1979 年提出模糊信息粒化的概念,该研究人员认为人的认知能力主要可以概括为如下几种类型:整体拆分成局部(粒化)、局部整合成整体(组织)和前因后果(因果)。我国学者曾于20 世纪90 年代初在其著作中提出“人类智能的一大特点就是可以从同一粒度上分析不同的事情,也可以从不同的粒度上分析同一件事情,并且可以以粒度为基础求解。”这种能力就是人类在处理问题时的高超所在。自从粒计算的概念出现至今,许许多多的专家学者纷纷投身于此,致力于提升粒计算对数据处理分析和对现实问题帮助的能力,经过专家学者们的不断努力以及各国政府的大力扶持,粒计算当前已取得了一些具有深刻意义的进展。粒计算的研究分布,如表2 所示。

表2:粒计算的研究领域分布

4.1 数据粒化的研究现状

将完整的数据集合按照一定规则拆分为数据粒是粒计算的基础工作,由于求解的方向不同或者用户需求不同,拆分数据粒的规则就会有所改变,来保证拆分的数据粒可以更有效地服务于问题的求解。但是目前粒计算仍存在一些不足之处,比如没有很好地完成大数据可计算性的需求,大部分是从单一特征出发,将不同特征之间的结果进行简单地集成,并没有从根本上对数据粒进行有机融合,无法确保语义一致性,没有从根本上解决多模态特征的数据粒协作问题。从问题粒度到计算粒度的寻找方式如图2。

图2:问题粒度到计算粒度

4.2 多粒度模式的研究现状

多粒度模式包括数据集中的多个子数据,空间重的多个子空间,或是多个不同特征属性的一种集合,也可以是对大规模复杂问题进行求解过程中得到的中间结果,多粒度反映一个问题的在不同角度或者是不同层次所关注的重点不同,多粒度模式的出现有效地提高了粒计算对于复杂问题处理的效率。当下,多粒度仍未成为一个专业术语,但各领域的研究学者已在许多领域以多粒度模式为基础展开研究,并发现多粒度模式的优越性与高效性。

4.3 粒计算推理的研究现状

推理是人类独有的一种依靠已知猜测推断未知的特殊技能,主要是依靠人类的常识以现有数据为基础根据一定的规律和科学的方法对未发生或未出现的事情进行推测的一种能力。推理是一种用于研究人类思维模式、思维规律和思维逻辑的科学。通过推理可以从已知得出未知。所以,粒计算的推理就是指利用当前数据粒的已知信息进行推理演绎推测出需要信息的技术。

在粒计算研究方面,近些年已经出现一些粒计算推理相关的研究成果。我国学者刘清以粗糙集为基础研究了粒语言和决策规则粒用来进行粒计算方面的逻辑推理。Daphne 等人针对复杂的生物网络结构提出的以特征间的关联性为基础而研究出的概率图模型目前已是大数据处理工作中非常有效的一种研究思路。

虽然针对粒计算在大数据处理方面的研究已经有了非常良好的进展,但是目前仍然处在以单一粒度为基准的粒化推理阶段,对于多粒度的考量还不够完整,甚至是跨粒度间的粒计算推理情况,缺少针对多粒度或是跨粒度数据的有效处理模式,而多模态数据粒、跨粒度数据的推理又正好是求得大规模复杂问题的近似最优解的最佳方式,因此在粒计算推理方面仍有很长的一段路要走。

4.4 以粒计算为基础的算法的研究现状

在粒计算领域利用信息粒替代样本数据作为最小运算单位,将满意近似解替代精确最优解,可以提高计算性能。近些年来针对提升大数据计算方面进行了许多的研究,但是针对粒计算的数据挖掘来说目前仍然面临着来自两方面的挑战,一个是如何更加合理地进行数据粒化,得到更为优质的数据粒来保证算法得到的满意近似解是有效的,另外一个是如何平衡计算效率和结果的关系,使得在保证计算效率和结果趋近于最优解的前提下,确保时效性。因此,在提升粒计算性能方面仍需对上述两个方向进行更为细致地研究,便于日后将粒计算全面应用于大数据的处理分析中。

5 以粒计算为基础的大数据处理技术

因大数据具有大规模性、多模态性、快速增长以及数据结构多样性,对粒计算的要求就会更加严格,为粒计算的研究与发展提出了严峻的挑战。在利用粒计算对大数据进行分析处理的过程中需要从以下几个方面进行加强:数据结构多样化模式下的数据粒化更为准确、面对不断增长的数据量以及可能发生维度变化的数据进行及时有效的数据粒化、粒化后的数据进行有效的融合来更好地解决实际问题、合理的推理使得已有数据的价值增加、人类智慧与机器只能相结合。

6 结论

粒计算模型是一种结构化求近似解的理论,可以非常有效地解决大数据处理问题中的不确定性,显著降低大数据问题求解的复杂度,该模型的可重构性使得它可以在不同领域和不同数据中都可以非常快速地发挥处优势,该特点与对大数据的处理要求十分吻合,因此粒计算是未来进行大数据处理分析的极具研究价值的思路之一。

文章从大数据当前面临的挑战、粒计算作为大数据的新的研究方向、粒计算的研究现状等方面对基于粒计算的大数据处理分析进行了讨论。高度信息化的时代背景下,大数据的处理分析必将成为为社会进步与发展提供有效帮助的科技手段,如何提高大数据的处理分析,提升粒计算的性能都是必须要考虑的问题,对解决实际问题有着重要的参考价值。不断提高大数据的相关技术,对各行各业的发展都有着积极的意义。

猜你喜欢
粒化数据处理粒度
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
粉末粒度对纯Re坯显微组织与力学性能的影响
基于矩阵的多粒度粗糙集粒度约简方法
琯溪蜜柚汁胞粒化影响因素及防控技术综述
基于粒度矩阵的程度多粒度粗糙集粒度约简
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
粗粒化DNA穿孔行为的分子动力学模拟
再 论 粒 化 思 维
粗粒化编码对Lempel-Ziv复杂度的影响