基于云计算技术的大数据处理系统的研究

2014-07-02 01:47李晓飞
关键词:数据处理架构服务器

李晓飞

(辽宁石化职业技术学院计算机系,辽宁 锦州121001)

0 引言

在宽带互联网接入技术及智能终端高速普及的今天,网络数据容量以及处理数据量/数据强度的增加速度大大快于任何一个时期;大数据时代已经悄然来临。大数据时代是伴随着云技术的发展而来的,如何在云环境下进行安全、有效、准确的大数据处理,成为人们研究的一个热点领域[1-3]。

当前人们对大数据处理问题的研究,主要是基于云环境的大规模分布式部署、网络架构深度融合以及动态实时数据处理这三大云技术研究方向展开,也取得了一定的成果,对当前云环境下大数据处理问题的解决亦有裨益。但是由于云环境的复杂性以及面临的问题往往是互相交织的,研究过程中也遇到了巨大的困难,主要集中在如下的3个方面[4-5]:(1)云环境下的数据结构十分复杂,处理方式不统一,需要进行并行处理;(2)大数据的处理问题,要求以动态的方式处理事实数据,按照事实需求改善系统的实时性和处理资源的安全性、有效性、准确性;(3)系统面向开发人员与使用者,为改善系统的灵活性,需要透明地向开发者以及使用者开放,而现有的系统,仅仅提供有限的接口供开发者及使用者享用,从而也间接地影响到数据的处理性能。

对此,本文采用技术融合思想对大数据处理系统进行研究,提出了一种新的大数据流处理模型,尝试将该模型用于大数据处理平台的构造中,为解决云环境下的大数据处理问题提供了一套新的思考方式及解决方案。

1 基于融合思想的大数据整合方案

在云计算环境下,人机交互技术、数据处理技术、网络处理技术等,始终处于一种深度融合的状态。融合思想的出发点就是将云环境下的处于分散状态的网络资源以协同的方式组织起来,然后进行融合,充分发挥各种分散状态下资源的比较优势。作为一种有机整合各种比较优势的思想,融合式的整合方案具有广阔的应用前景[6]。

在云计算环境之下,大数据处理的研究主要着眼于大数据处理系统的建设、分散式数据的协同方式以及附属关键技术等。从宏观而言,可以简单地把上述着眼点划分为混合处理以及混合管理2个方面[7-8]:

混合管理的研究点主要基于各种有线无线的处理机制、数据共享机制、处理资源共享机制、分散数据管理机制、处理同步机制等,而混合处理主要着眼于系统运行模型及相关的支持技术上。

融合思想是解决当前云计算相关问题的一种前沿性思想,在大数据处理模型上,主要研究大数据组成因子的协作、共同完成大数据处理的一种模式。涉及到成员间如何开展工作,协作时如何进行交互、操作协调、协作推进和结束协作等,主要有会话模型、会议模型、过程模型、活动模型和层次模型。

会话模型是各因子间沟通和动作协调的基础,通过特定的言语行为(如请求、许诺等)的执行来完成。会议模型是群体进行协同工作的另一种基本形式,参与者通过共享的信息空间彼此沟通,共同完成任务。过程模型将复杂的任务分成一个个小的操作步骤,活动模型对过程模型进一步扩充,将任务分成目标明确的子任务,定义子任务之间的关系,并通过任务的协同处理来完成任务。一般而言,解决大数据处理问题只能通过组成因子之间的融合式协调来解决;要采用多种模型的混合,通过融合式的思想加以整合,往往必须用划片、分级的办法加以描述。

2 大数据处理的应用分析

在云环境中,由于大数据在云环境下的组成因子间的架构、大小等可能有着巨大的差异。抽象后的处理架构包含的基本组成因子有:处理成员的权限、公用处理资源、处理事件和处理活动。处理成员的权限描述了某一处理数据流在系统内部的操作和处理权限,根据处理需要对数据流进行合流的划片和分级来赋予相应的权限;公用处理资源描述了云环境下的各子云所共用的处理信道、信令以及指挥处理机制;处理活动描述了处理过程中的发送、处理、接收过程中的全部动态行为的总体性特征;处理事件描述了处理活动中的处理进度、指标的集合,用于协调各因子间的行为。

对于应用而言,大数据处理主要着眼于应用系统的建设,当前主要解决思路围绕着以下的3点展开[9-12]:

(1)融合式架构实际上是一种客户/服务器架构。服务器集中负责整个应用系统的管理、控制和调度,以及所有与具体应用相关的程序逻辑、数据等,客户端指用户交互的输入输出。当用户要执行相关任务时,需要通过客户点向服务器发出请求,由服务器完成。融合式的协同应用架构实现简单、易维护,但协同应用对服务器有较强的依赖,很容易成为整个系统的瓶颈。

(2)分散式架构中,协同控制的节点均处于同等地位,与系统相关的控制和管理模块分散在客户端。客户端较好地实现了系统的自治,其鲁棒性、灵活性、开放性和通用性都比较好,但数据的分布存储和操作的各自处理,使得全局的一致性较难维护,节点间的实时性同步以及用户的动态注册也较难实现。

(3)混合式结构结合了前两种结构的优点,由服务器实现数据信息的一致性维护、用户管理和信息的转发与分发等功能,由客户端实现与用户的交互。这种结构充分利用了客户端的计算机资源,极大地减轻了服务器的工作压力,减轻了服务器的“瓶颈”效应,既能使系统具有较好的灵活性、鲁棒性和较短的响应时间,又保证了系统信息的一致性。

3 基于云计算的大数据处理系统研究

3.1 系统架构

云环境下的大数据处理平台呈现节点分散式、数据处理动态性、数据来源混构性三大特点。结合融合式大数据处理模型可知,在建设云环境下的大数据处理平台中必须结合处理成员的权限、公用处理资源、处理事件和处理活动等基础性因子进行建设,使用融合思想部署系统架构,从而实现云环境下的大数据混合处理和大数据混合管理。如图1所示。

图1 云计算大数据处理平台架构

从图1可知,处理平台架构采取融合式的调度执行层,采用融合式的任务融合调度管理,根据规则和参数来调整数据处理引擎使用的数据、算法组合以及计算资源,对大数据资源之间的数据交互、参数同步、任务分工进行融合。在数据融合管理层,对融合环境中业务数据和规则数据等进行分布式的存储,融合整个过程的数据冗余备份及容错处理,在数据处理过程中融合数据并提供给各数据处理应用,实现数据访问的负载均衡。

3.2 系统处理流程

系统对数据处理的核心思想是对分散状态的数据进行处理,关键实施因素是对数据资源进行分布式提取以及分布式管理。首先需要给外部应用提供接口,数据管理部分提供应用数据接口给数据资源,然后融合数据资源;在一定容忍度的前提下,融合各数据处理机制的比较优势。此外,数据处理中心的数据处理部分应采用集中模式,统一分配数据资源,从而实现数据处理上的融合。详细流程图如2所示。

图2 系统处理流程图

3.3 系统部署

作者从某信息产业园的大数据处理系统实践,结合信息企业集群的需求,对现有的分散数据资源进行挖掘(主要是ERP、SCM系统),为产业园下一步的发展提供战略咨询。

本文提出的系统部署采用融合思想,结合云环境下的数据融合处理及数据融合管理,来实现对大数据资源的处理,系统部署架构如下:

由图3可知:数据源是信息企业的ERP、SCM等应用数据系统,经过服务器处理之后进入分布式的n个数据库,随后合并进入大数据管理模块,最后提供数据查询、数据决策等服务。

4 结语

针对在当前的云环境下的大数据处理系统研究中,采用融合式思想对大数据处理系统部署的研究很少,特别是信息产业,往往各自的解决方案没有实现对大数据处理上的比较优势。本文首先分析了云环境下大数据处理问题中的重点和难点;随后从模型角度对大数据处理进行了分析,特别是研究了系统架构对大数据处理上的影响;最后结合作者的实践,部署了一套较为成熟的大数据处理解决方案,较好地实现了云环境下的大数据处理。

[1]于戈,谷峪,鲍玉斌,等.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1754-1765.

[2]程苗.基于云计算的 Web数据挖掘[J].计算机科学,2011,38(10):146-149.

[3]王鹏,孟丹,詹剑锋,等.数据密集型计算编程模型研究进展 [J].计 算 机 研 究 与 发 展,2010,47(10):1993-2002.

[4]Sang Woo Han,Jong Won Kim,Prinz W.A multi-agent-based management system for pervasive collaborative computing environment[C]//IEEE International Conference on Computing and Communications(PerCom 2009).USA:Institute of Electrical and Electronics Engineers,2009:1-6.

[5]屈正庚.基于CSCW的协同设计系统的研究与应用[D].西安:西北大学,2011.

[6]Han Xu,Cao Yongcun.The application of Computer-Supported Collaborative Technologies in web-based teachers Professional Development System[C]//The 5th International Conference on Computer Science and Education(ICCSE).USA:Institute of Electrical and Electronics Engineers,2010,30(9):842-845.

[7]王鑫印.基于多Agent的数据挖掘系统任务协同研究[D].苏州:苏州大学,2004.

[8]程苗.基于云计算的 Web数据挖掘[J].计算机科学,2011,38(10):146-149.

[9]李伯虎,张霖,王时龙,等.云制造——面向服务的网络化制造新模式[J].计算机集成制造系统,2010,16(1):1-7.

[10]Han J,Kamber M.Data Mining Concepts and Techniques[M].San Francisco:Morgan Kaufmann,2006.

[11]Manku G S,Motwani R.Approximate frequency counts over data streams[C]//Proceedings of the 28th international conference on very large data bases,Hong Kong:VLDB Endowment,2002:346-357.

[12]Giannella C,Han J,Pei J,etc.Mining frequent patterns in data streams at multiple time granularities[C]//Data Mining:Next Generation Challenges and Future Directions.Massachusetts:MIT Press,2004:191-211.

猜你喜欢
数据处理架构服务器
基于FPGA的RNN硬件加速架构
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
功能架构在电子电气架构开发中的应用和实践
通信控制服务器(CCS)维护终端的设计与实现
WebGIS架构下的地理信息系统构建研究
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用