赵威
摘 要 本文简要分析了云计算的概念,论述云计算图数据储存的方法、分割的原理,建立相关的计算模型。
关键词 云计算;大规模图数据;处理技术
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2017)196-0053-02
在计算机技术应用的环节中,图是一类非常重要的数据,其形成了一个非常抽象的数据结构,比常规的线性语言,其在语言表达方面也更加的复杂。随着时代的发展,科学技术水平在不断的提升,图数据实现了大规模的处理,相关的处理技术也应该更新换代,才能跟上时代的发展。所以,我们应该充分的了解云计算的概念,在云计算的背景下,实现大规模图数据的处理。
1 云计算简介
1.1 云计算的含义
云计算指的是在互联网发展的基础上,研发出的一类全新的计算方法,是依托了互联网技术实现了大量数据的整合。在2007年,云计算概念首先由美国的IBM公司提出,其将云计算定义为一个具体的系统平台和应用程序。
1.2 云计算的主要特征
1.2.1 虚拟化
用户可以在网络环境下采用不同的工具使用云计算的服务,及时的完成各类计算的任务。云计算服务器一般以群集的方式提供各类服务,而且其一般都是以虚拟的形式存在,并不存在实体。
1.2.2 通用性和可拓展性
云计算有大量的群集系统的支持,所以,这个平台可以为用户提供不同的服务,不仅仅可以为用户特定的应用,而且也能根据客户不同的需求,确保各类应用同时运行。云计算群集的处理方式体现了良好的伸缩性能,可以动态的展现各类功能,即使应用的规模比较大,也能实现良好的可扩展性。
1.2.3 经济性高
云计算要结合大量的计算机任务,所以,群体的规模非常大,云计算服务可以同时针对谷歌的云计算平台进行服务,可以为200万台计算机同时提供服务,也能为其他的供应商提供服务,如微软、雅虎都能接受云计算的服务,用户在云计算群集中可以获得大量的资源。云计算群集服务器使用的设备的成本都比较低,而且计算机本身的容错能力非常好,可以建立成本低廉的服务,这一点充分展现了云計算的成本优势,而且也促进了其全面的推广。
1.3 云计算的相关技术
1.3.1 海量分布式存储技术
在云计算应用中,要对大量的数据进行存储,这时离不开分布式存储技术的应用,其可以提高数据的精确性和经济性。借助各类新型软件的研发,可以有效的弥补硬件能力不足的问题,云计算系统的用户群体非常的庞大,所以,就需要大量数据的支撑,用户对数据传输的速率提出了更高的要求。只有提升数据存储的能力,才能切实的为用户提供各类服务。
1.3.2 数据管理技术
云计算需要进行大量的数据分析,要及时的完成用户提交的计算任务,所以,云计算在进行数据管理的环节中,应该结合大数据的技术,提高数据管理的能力,而且还应该在庞大的数据中找出用户需要的数据,从而最大限度的满足用户的需求。云计算数据管理中最实用的两个软件分别是Bigtable和Hbase。对于云计算而言,由于哈希算法的实现简单,基于哈希的划分方法是最快的。基于哈希预划分的超块划分算法则位居第二,比拓扑最优的划分方法快50%。
1.3.3 虚拟化技术
现在,全球范围内的信息产业都在朝着云计算的方向发展,虚拟化技术为信息产业提供了很多的便利,人们对虚拟化战略也更加的重视。在云计算的大背景下,虚拟化的方案可以实现系统的整合,在服务器、软件等结合的基础上,网络设备的功能更加的完善,可以带给人们虚拟化的服务。在图初始化阶段,我们主要针对slaver节点进行资源优化,此刻master节点的资源消耗很小,R=0。对于slaver节点而言,在该阶段将会读取磁盘中的图数据并将其加载到内存中去,需要大量的memory和10资源。如果需要加载图的大小为M,slaver节点数量为W,则一个节点需要存储的数据规模为M/W。
1.3.4 并行编程模式
由于云计算的用户非常多,他们会同时提交大量的数据,云计算的编程模型应该复杂的运算,并且对调度任务执行,充分的利用云计算的资源。现在,云计算一般是运用Map Reduce的方式,这个编程的模式可以将复杂的数据简化,为数据的编程提供可行的解决方案,并且具有成本优势,其性能和效果都能得到保障。
2 云计算环境下大规模图数据处理技术的
研究
图是一类非线性的数据结构,在应用的环节呈现出多对多的结构关系,图数据中,不同的元素中都有很多个直接前趋和直接后继,与其他形式的数据相比,其表达的含义更加的丰富,而且被广泛应用在各项工程中。图数据的量非常大,所以,在进行大规模的图数据处理的环节中,存在一些技术局限性。在相关的专家和学者的大量研究中,相关的理论如今已经非常的成熟,这为图数据的处理提供了大量的可行的依据。但是,信息化时代在不断的发展,图数据的规模在不断的提升,所以应该完善图数据处理平台。图数据处理平台的内容如表1所示。
2.1 云计算的图数据存储方式
在对大量的资料进行研究后发现在进行图数据管理的环节中,一般采用单图数据模型和超图数据模型,这两种模型针对有向图和无向图进行处理,二者的储存方式存在差异。云计算的分布式的存储方式可以分成文件系统和分布式数据库。分布式数据库可以实现不同模型的建立,模型的灵活性非常好,而且支持大量的存储功能。
2.2 云计算的图数据分割
在进行大规模的图数据处理的环节中,要进行分布式的处理方式,为了完善图数据的处理效率,各个图之间的耦合度会降低。所以,在对图进行分割的环节中,应该先分析图的逻辑结构,再完成每个子系统的计算任务。在这个环节中,针对大图的分割,应该充分结合图的规模和均衡性,应该完善图内部的连贯性。
2.3 云计算的图数据计算模型
现在,在进行云计算环境中最为广泛的模型,一般采用两种模型,其一是Map Reduce,其二是BSP模型。
Map Reduce模型可以进行独立的单元分析,可以同时处理多个任务,在作业执行的过程中也分成两个不同的阶段,首先是对任务进行分配,然后结合相应的数据进行计算,然后将Key值输出,将结果的数据直接反馈到任务栏中。在第二个阶段,每个任务在处理的环节中,都能收到数据的聚集处理,从而可以及时的获取数据输出的结果,并且将数据进行及时的保存,在分布式的文件系统中有大量的数据。
BSP模型可以执行消息通信的各项操作,其可以防止死锁的产生,也防止了数据的计算中产生竞争的问题。
在云计算的背景下,采用大规模的图数据的方式,主要采用上述的两种模型,但是在进行迭代问题的处理环节中,采用BSP模型的效率更能得到保障。
2.4 云计算的图数据查询处理
在云计算的大背景下,在进行大规模图数据查询的环节中,主要采用主动的遍历模式和被动的遍历模式,这两种模式都是对图顶点进行操作。主动的遍历模式的普适性能得到保障,在一些特定的应用中,如果没有必要采用查询功能,就会导致功能的浪费。被动的遍历模式中,其不用对处理函数进行调节,而且也可以减少顶点的调用,使资源得到节约。
3 结论
在云计算的大背景下,对大规模图数据进行处理会更加的简单,云计算可以被广泛的使用,其适用性可以得到保障。
参考文献
[1]李健,黄庆佳,刘一阳,等.云计算环境下的大规模图状数据处理任务调度算法[J/OL].西安交通大学学报,2012,46(12):116-122.
[2]张兴旺,李晨晖,秦晓珠.云计算环境下大规模数据处理的研究与初步实现[J].现代图书情报技术,2011(4):
17-23.endprint