基于云计算的大规模图数据处理技术研究

2018-01-09 14:49王渊
电脑知识与技术 2017年34期
关键词:处理技术云计算

王渊

摘要:云计算是一种新型的互联网应用模式,更新了传统的IT产业,为IT产业的带来更大的发展空间,随着云计算的应用,对大规模图数据处理的要求越来越高,在这一背景下,需要在云计算的环境下进行大规模图数据处理技术的研究,从而提升大规模图数据的处理能力,该文通过对云计算的概述,在大规模图数据处理技术中应用云计算的优势,大规模图数据处理技术中云计算的应用三个方面进行具体的阐述,希望对未来我国基于云计算的大规模图数据处理技术更好的发展提供可参考性建议。

关键词:云计算;大规模图数据;处理技术

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)34-0244-02

在计算机科学中,应用最常见的抽象类数据结构之一就是图,有着比线性表更复杂的语义,也更具有表述能力。所以,对当前的大规模图数据处理提出了更高的要求。要实现对大规模图数据处理技术的优化,更加高效的处理大规模图数据,在云计算环境下,运用大规模图数据处理技术是非常重要的。

1 云计算的概述

云计算的概述主要从以下两个方面进行具体的论述:(1)云计算的核心是互联网,是一种类型的应用程序,也可以将其定义为一个系统平台,主要具有以下特点:虚拟化,云计算不具有实体,是一种网络工具;可扩展性和通用性,云计算的功能较多,可以支持不同的程序,使得云计算具有动态伸缩性,可以满足不同的程序的要求;高经济性,云计算拥有超强的容错性,在大规模的云计算过程中,可以应用廉价的云计算集群服务器支撑,发挥计算机的作用;(2)云计算技术,为保障云计算更广泛的应用,研究相关的云计算技术在其应用的过程中有着重要的作用,云计算技术主要包括:海量分布式储存技术,这一技术是云计算中最重要的储存数据的方式,具有高安全性、高经济性、高可用性的特点;数据管理技术,在云计算的过程中,需要对大量的数据进行分析、比较和储存等处理,在这一过程中需要更好的管理数据避免丢失;并行编程技术,在云计算的编程模式有效的运行的基础之上,提高云计算的运行质量和运行效率。

2 在大规模图数据处理技术中应用云计算的优势

根据上述中对于云计算的了解,本文将简要论述和分析基于云计算的大规模图数据的处理技术的优势:(1)便于图数据的储存和维护。在应用大规模图数据处理技术的过程中,可以处理GB级别的图数据量,甚至可以处理PB级别的数据量,远大于传统的数据内存,使其在数据库中不能被运用[1]。但是,在云计算的过程中,采用的是分布式的储存方式,可以储存大规模的数据。在云计算环境下应用大规模图数据处理技术,可以根据需要进行数据储存,保护数据的一致性,从而保证大规模图数据的储存过程中的数据安全;(2)大规模图数据的应用性得到提高。在云环境下,运用云计算的特点,对图数据进行分割处理,将图数据分割为若干小图,便于子图的应用,从根本上提高图数据的应用效果;(3)合理处理大规模的图数据。在技术和经济的角度看,云计算有更好的灵活性和伸缩性,适合处理弹性变化较大的图数据。

3 基于云计算的大规模图数据处理技术研究

3.1 基于云计算的图数据存储方式

现阶段,进行大规模图数据的管理过程中,比较常用的数据模型一般包括两种,一种是单数据模型,另一种是超图数据模型,两者均可进行有向图和无向图的处理工作,区别在于存储的格式不相同。作为大规模图数据的存储基础,云计算的分布式存储系统可以划为分布式的文件系统和分布式的数据库两种形式。前一种形式的代表为GFS、HDFS,其可以直接实现诸如邻接表、矩阵等不同结构的存储。后一种形式的代表为Big Table、Hbase,而其中的数据库模型直接可以划分为文档储存、列族存储、KV存数模型等。其中,文档存储的模型具有灵活性强、便捷度高的存储格式,比较适用于存储非结构化的数据内容;KV存储模型则比较适用于本文中研究的大规模图数据存储工作,并且其具有模式简单、支持海量存储的优势。当进行诸如Page Rank等圖数据处理工作时,KV存数模型无需经过繁杂、重复的查询操作,就能够完成数据的处理工作。例如:利用KV存储模型进行处理邻接表形式的图数据时,就可以将Key设定为图数据的源顶点,将Value设定为点的值与出边信息,该种方式比较有助于图数据的合并与迁移处理,从而提升空间原有的局部性,进而降低数据读取在查询处理期间的次数,最终提高数据的读取效率。

3.2 基于云计算的图数据分割

一般情况下,进行基于云计算的大规模数据处理工作时,都需要针对图数据开展分布式存储并行处理工作,主要是根据图数据原有的连通行、图计算的强耦合性等特征进一步提升图数据的处理工作效率,与此同时,为了使得处理效果更加,还需要降低各个子图数据之间的耦合度,此时,就需要实行图分割处理方法。具体过程为:(1)在图数据基础上,分割出一个逻辑、结构都相对完整的大图;(2)将上述分割出来的大图分别放置在分布式存储系统的每一个节点内;(3)展开数据处理工作,换而言之,即需要对所有的子图分别启动与之相对应的计算任务,全部子图数据处理完成后,即代表着整体的大图数据处理完成。在这一图数据处理期间,关键点在于对大图的分割工作,唯有分割效果合格,才能确保整个处理过程的成功,所以,为了确保分割的效果达标,进行分割时应该充分考虑到大图内部的固有连通性、子图规模均衡性这两种因素。另外,分割的过程中,还需要最大程度保证大图内部的连通性,缩小子图之间的连通性,才能有效提升云计算分布式并行处理机制的应用效果,同时,还需要保证子图规模的均衡性,避免偏斜出现问题对云计算任务的同步性造成影响。

4 大规模图数据处理技术中云计算的应用

4.1 在云计算节点的可靠性方面得以提升

在传统的大规模图数据的处理过程中,需要工作人员对数据以及计算任务进行较长时间的处理,在很大程度上降低了图数据的处理效率,也不能保证云计算节点的可靠性。例如,最常见的[PageRank]的计算过程,需要三十次的迭代处理,在计算的过程中,消耗了大量的资源和时间,针对这一问题,技术人员及相关的研究人员在已有的处理手段上加以创新,结合当下非常丰富的云计算环境,总结并分析当前阶段我国传统的大规模图数据处理中存在的问题[2]。云计算节点是由普通的计算机组成的,在进行多次的处理后,会有个别的节点出现故障的状况,这些突发的状况会导致大规模图数据计算中的失误[3]。在大规模图数据的处理技术的实践过程中,应用合适的位置继续执行处理工作,避免因云计算节点故障之后的资源浪费状况,也在很大程度上降低了处理图数据过程中的干扰。

4.2 图计算的强耦合性得以实现

图数据的内部信息是相互关联的,图计算的过程中也是相互关联的状态,在进行图数据的计算过程中,在图内存的访问计算过程中,传统的并行计算方法的运算状态较低,存在一定的局限性。为更好的提升图数据计算的准确性,产生了云计算的大规模图数据处理技术,在实践应用的过程中,可以实现对图数据的每一项信息进行计算,并可以将所有的数据进行子图数据的分割处理,在很大程度上提升了图数据计算的效率。在大规模图数据处理的过程中,可以选取相应的图计算模型运算规模图数据技术的处理,在实行图数据分割的过程中,可以在很大程度上降低子图数据之间的耦合性,在大规模数据处理的执行阶段,采用图计算模型计算,降低开销,在很大程度上解决了传统的大规模图数据计算中常出现的水桶效应。

5 结论

综上所述,在云计算的背景下,基于云计算处理图数据,通过对储存方式、分割方式以及计算模型等应用大规模的图数据处理技术,在充分发挥技术优势的同时,提高大规模数据的应用性和处理效率。因此,在云计算的背景下,合理的应用大规模图数据处理技术是未来的发展方向。

参考文献:

[1] 李海燕,欧晓勇.云计算技术在计算机数据处理中的应用分析与发展策略[J].激光杂志,2017,38(04):80-84.

[2] 于双红.云计算环境下大规模图数据处理技术的应用研究[J].信息与电脑:理论版,2016,12(01):6-7.

[3] 刘军,张晖.公安大数据技术应用研究——以山东公安警务云平台建设为例[J].警察技术,2015,22(03):4-7.endprint

猜你喜欢
处理技术云计算
浅议大数据的产生与发展现状
浅析城市生活污水处理技术现状及发展趋势
实验云:理论教学与实验教学深度融合的助推器