刘瑞玲
【摘 要】本文着手于大规模图数据处理技术在云计算环境下的应用优势,通过对大规模图数据处理技术的实践应用情况进行分析,结合云计算环境心爱的大规模图数据处理问题情况进行研究,总结出大规模图数据处理技术在云计算环境下的关键性技术实施情况,为我国今后的大规模图数据处理技术创新提供可行性参考。
【关键词】云计算环境;大规模图数据;处理技术
在计算机技术中图形结构属于用的较多的抽象数据结构,和树及其线性表相比,图形结构更加复杂,它具有一定的表示能力,在我们的实际生活领域中都在合理而高效的使用图结构,和图有关的处理及应用方式随处可见,例如图在科技文献中的引用,传统领域中的应用,利用图预测疾病突发的路径、确定最优的运输线路等。新应用,分析生物信息网、语义Web分析、社交网路分析等。虽然经过了较长时间的发展及其应用,但随着科学技术的飞速发展,更多、更大的图规模相继涌现,我们就要不断将理论基础进行完善,来确保能够高效有力的对大规模图进行处理[1]。
1 云计算简介
云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。云计算是虚拟化(Virtualization)、公用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统[2]。
2 云计算环境下大规模图数据处理技术
图是一种典型的非线性数据结构,具备一定多对多关系,它也是一种复杂的数据结构。数据元素间的关系是任意的。其他数据结构(如树、线性表等)都有明确的条件限制,而图形结构中任意两个数据元素间均可相关联。常用来研究生产流程、施工计划、各种网络建设等问题。因为大规模的图具备的数据量非常繁多,所以,分析及其研究对大规模的图的数据处理技术逐渐成为人们广泛关注的重点。通过深入的研究以及分析,已经具备有一定层次水平的图形图像处理技术,对相关技术理论进行日益完善,为处理大规模的图形技术提供基础及其保障,但是因为信息技术的飞跃发展,促使各式各样的信息发展较快,导致图数据处理的规模越来越大,因此,加强对大规模图数据处理技术的研究力度,为了能高效处理大规模的图数据提供良好的平台[3]。从以下几个方面进行深入分析:
2.1 云计算环境下存储图数据的方式
在充分研究和分析大量资料和文献之后得到,目前,在应用以及管理大规模图数据处理技术的时候,其中主要包括超图数据模型、单图数据模型两种常用数据模型,上述两种数据模型都可以在一定程度上对无向图和有向图进行相应处理,但是两种方式最根本区别就是不同的存储格式。大规模体数据进行存储的时候,最基本的就是云计算分布式存储系统,可以把云计算分布系统分为分布式数据库以及分布式文件系统两种形式。分布式文件系统中最重要就是HDFS和GFS,能够直接存放临接矩阵和对接表;分布式数据库,也就是说NoSQL,其中最重要的就是Hbase和Big Tabl。分布式数据库可以分为以下将基本数据模型:主要包括KV存储模型、CFS列族存储模型、DS文档存储模型。DS模型具备方便、灵活的优势,比较适合使用存储结构化数据,此模型不适合对图数据进行存储。经过大量数据分析研究表明,KV存储模型十分适合存储大规模图数据,KV存储模型存在支持哈量存储、高并发查询以及模式结构简单的特点,在处理Page Rank等图数据的时候,一般情况不会出现复杂操作,能够符合数据处理的基本需求,如果是利用邻接表的方式形成图数据,Key就是图的源顶点,Value就是出边信息和点的值,可以更加方便的迁移和合并数据,增加空间局部性,大幅度降低处理查询过程中读取数据的次数,可以在一定程度上提高效率。
2.2 云计算环境下分割图数据
一般来说,云计算环境中处理大规模图数据,处理方式应该是分布式并行,因为图计算存在一定强耦合性、图数据具备连通性,为了能够更加高效的处理图数据,应该适当降低子图数据之间耦合度,图分割是有效实现目标的主要方式。基本流程是:首先需要分给具备相对比较完整逻辑结构的大图,然后在分布存储系统节点中分别放置分割部分,进行适当处理,并且每个子图启动以后都需要能够具备与之对应的计算服务,在处理完子图以后,就达到处理大图的目的。在上述处理过程总,分割大图以后,能够得到相对比较好的分割效果,但是在对大图进行分割的时候,需要重合分析图规模均衡性以及内部连通性,保证能够降低子图连通性,增加内部连通性,可以在一定程度上影响分布并行处理大数据机制的运行。此外,也应该降低子图规模均衡性,不能形成比较大的偏斜,避免由于过大时间差距影响系统同步性[4]。
2.3 云计算环境下的图数据计算模型
现阶段,基于云计算基础上具备两种应用广泛的模型,包括BSP模型以及Map Reduce模型。
2.3.1 Map Reduce模型
Map Reduce模型主要包括由多个reduce、map共同形成的并行处理方式,可以把执行任务阶段分为两部分:一是,Reduce阶段,在此过程中,Reduce任务会聚集处理接收到的数据,从而得到相关输出结果,并且能够在分布式文件中保存数据。二是,Map阶段,此过程中,Map任务会合理计算分配到系统的数据,输出与之对应的key值,然后在reduce任务中映射出相对应的数据信息。
2.3.2 BSP模型
BSP模型主要就是说在并行执行消息通信的时候,具备好、数据竞争以及免锁死的运行特点,在云计算环境下处理大规模图数据需要合理使用上述模型,在迭代处理的时候,相比较Map Reduce模型来说,BSP模型具备相对比较高的执行效率。
2.4 云计算环境下处理查询图数据
基于云计算基础上,主要存在两种能够支持处理查询大规模图数据的驱动模式,也就是被动遍历模式和主动遍历模式。上述两种模式具存在图顶点是操作对象的共同特点,也就是说操作处理技术的基本关键就是图顶点。第一,被动模式。上述处理模式能够不进行调用处理函数,可以适当降低处理不必要顶点,大量节约资源。第二,主动遍历模式。上述处理模式,具备比较强实用性,但是应用在特定情况下,会形成浪费资源的问题。
3 结束语
总之,依据云计算为基础,充分分析和研究大规模图数据处理技术,可以发现,在处理大规模图数据中应用云计算技术,能够有效提高处理效率。
【参考文献】
[1]于戈,谷峪,鲍玉斌,等.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767.
[2]李健,黄庆佳,刘一阳,等.云计算环境下基于粒子群优化的大规模图处理任务调度算法[C]//2012年第三届中国计算机学会服务计算学术会议论文集,2012:1-8.
[3]赵小换.云计算环境下的大规模图数据处理技术分析[J].中国外资(下半月),2012(5):275.
[4]李东升.云计算环境下的大规模图数据处理技术[J].信息与电脑,2015(8):35-35,40.
[责任编辑:王伟平]