基于私有云的大规模交通视频处理框架设计

2017-11-28 09:51王传连张宗朔
中成药 2017年11期
关键词:数据服务进程服务器

王传连,张宗朔

1.长安大学 汽车学院,西安 710064 2.中央兰开夏大学 工程学院,英国 普雷斯顿

基于私有云的大规模交通视频处理框架设计

王传连1,张宗朔2

1.长安大学 汽车学院,西安 710064 2.中央兰开夏大学 工程学院,英国 普雷斯顿

为了满足智能交通大数据的处理需求,结合云计算技术,设计了基于云计算的大规模交通视频数据管理与高性能计算框架,提出了基于私有云的并行计算模型,通过仿真模拟实验验证了计算模型的有效性,研究成果能够为交通视频数据的智能应用系统提供技术支撑。

智能交通;私有云;并行计算;分布式

1 引言

近年来,随着物联网、云计算、信息技术的发展推动了大数据新技术的迅速崛起,给智能交通系统[1-2](Intelligence Transportation Systems,ITS)的发展带来了更多的机遇和挑战。不仅要求智能交通系统的技术变革,而且对智能交通的设计理念和模式也有新的要求。智能交通系统建设规模不断扩大,随之而来的系统数据、交通检测数据、交通监控数据、交通服务数据等不同类型的海量数据构成了大数据[3]。显然,传统的交通数据处理方法已逐渐不能满足智能交通大数据的处理需求,而是需要大数据相关技术对智能交通数据进行深层次的挖掘和开发,实现数据共享和整合达到智能服务的目的[4-6]。因此,如何有效地管理、分析、整合智能交通大数据,从数据中提取有效信息将成为智能交通系统发展研究的重点和难点。高分辨率交通视频数据是智能交通大数据中非常重要的信息来源之一,如何从这些视频数据中获取交通信息是近年来研究的热点。

高分辨率交通视频应用的不断深入和发展,大规模数据密集型计算及计算密集型计算应用需求也不断出现,现有交通视频数据各自独立存储、分散管理的方式,显然已无法满足需求。因此,如何有效地存储与管理不断增长的海量高分辨率交通视频数据,并在此基础之上提供弹性的、可靠的、高性能计算服务已成为亟待解决的问题[7-8]。云计算正在被越来越多的研究及应用领域所关注,众多的相关技术及产品的出现,使得云计算技术成为一种注重实用和效率的高性能并行计算技术,当前的云计算技术拥有许多的特点,如超大规模、虚拟化、分布式存储、高可靠性、高弹性、可扩展、按需服务、廉价等[9]。

因此针对交通视频数据存储与处理面临的挑战,有必要结合云计算技术中的虚拟化技术、分布式存储技术及分布式计算技术等相关理论和技术,研究云计算环境下的交通视频数据模型,研究和探索云计算环境下交通视频数据高效管理方法及云计算环境下的交通视频数据高性能并行计算服务,为交通视频数据的智能应用系统提供技术支撑。

2 基于私有云的并行计算模型

从服务提供的范围划分,云计算可分为私有云、公有云及混合云[10-11],公有云是Internet上为众多企业和用户共享的云环境,通常由专门的运营商提供和维护,为世界各地的用户开放服务,如Amazon的Elastic Compute Cloud[12],Google的 Giftag[13],私有云是某个企业独立构建和使用的云环境,通常由企业或组织专有,只为内部成员提供服务,如IBM的Research Compute Cloud[14]混合云是公有云和私有云的混合体,既包括公共部分又包括私有部分,根据权限对内外提供有差别服务。在本文中提出一种基于私有云的并行计算模型,充分、灵活运用单位的闲散资源,以支持大规模高分辨率交通视频数据快速处理,其结构如图1所示。

图1 基于私有云的并行计算模型

该模型主要包括两部分,针对数据密集型应用的分布式文件系统(DFS)以及针对计算密集型应用的分布式计算系统(DCS)。

基于私有云模型的并行计算模型具有以下特点:

(1)是私有云结构与志愿服务的结合,计算客户端随时可加入或撤离。

(2)各节点执行的应用程序相同,根据节点分工、任务的不同配置不同的命令集文件。

(3)部署简单,不仅存储规模、计算规模易于扩展,而且功能也易于扩展(通过注册新命令),适用于跨平台的执行。

(4)模型隐藏了并行计算、容错、数据分布及负载均衡等复杂细节,用户使用此计算模型可以实现自动伸缩的大规模并行计算,尤其适用视频的自动处理。

(5)该模型通用性强,不仅适合处理类似于高分辨率交通视频处理这种数据密集计算密集的应用,也可分别处理数据密集、计算密集的问题。

3 分布式文件系统与计算系统

HDFS(Hadoop分布式文件系统,Hadoop Distributed File System)目前很多集群式分布式系统都采用主从式结构对文件进行管理,一个集群由一个名称节点(NameNode)和多个数据节点(DataNode)构成[15]。一个名称节点的设计虽然大大简化了系统的体系结构,但是由于名称节点是集群的核心,管理着文件系统元数据信息,客户端需要与名称节点进行交互才能对文件进行访问,因此名称节点一旦发生故障则对整个系统正常运转带来很大风险。为此提出并实现了一种适用于高分辨率交通视频自动处理的分布式文件系统,系统结构如图2所示,由数据存储节点以及管理服务器组成,数据存储节点包括存储数据以及数据服务进程,管理服务器上运行管理服务进程,主要维护当前注册的数据服务进程,解析数据源地址。管理服务器可以是私有云空间任意一台机器(管理服务器),因此该分布式文件系统不是固定主从结构,而是动态的分布式文件系统。

图2 分布式文件系统结构

分布式计算系统DC适用于计算密集型的应用,它处理的数据既可以是本地文件又可为分布式文件。在这里主要介绍处理分布式文件的过程。如前所述,分布式计算系统主要包括分布式计算工作站与计算客户端,分别执行任务分配进程(WorkStation)和任务执行进程(WorkClient),任务执行进程可以根据实际需求运行多个。包括数据服务进程(DataServer),与数据服务可同时运行多个;任务分配与执行进程都可部署在私有云空间的任何机器上,数据服务进程部署在存放数据的机器上,负责该机器数据的分发与接收。基于私有云的并行计算模型工作流程如图3所示。

该模型是属于Master-Worker两层结构,Master即任务分配进程,负责任务分解,任务分配,并监测客户端任务状态以及数据分配等;Worker即任务执行进程,一旦启动首先向任务分配进程注册,并由该进程分配任务执行相应的功能,根据需要向数据服务进程请求数据或上传数据,而且根据自身当前状态向任务分配进程进行汇报。

图3 分布式计算系统工作流程图

4 基于私有云架构的交通视频处理框架

基于私有云架构的交通视频处理框架如图4所示,交通视频数据处理任务由数据服务进程(DataServer)、任务分配进程(WorkStation)和任务执行进程(WorkClient)共同完成,其中任务执行进程可根据实际情况同时运行多个;这三个进程的可执行程序相同,只是各自的命令行文件(CmdFile)构成不同(default.cmd)。

图4 RSCloud结构组成示意图

数据处理任务分配进程以动态调度方式来分配任务。首先根据当前注册的任务执行进程给它们分别分配任务,任务执行进程一旦完成当前任务会及时向任务分配进程请求新任务,这种任务管理方式对当前的计算资源没有特定的要求,可分配的任务执行进程可以随时变化,任务执行进程可自由加入或撤离,系统具有很强的可伸缩性,并且基于私有云的并行计算模型可实现工作负载平衡,由于各任务执行进程与数据服务器单独通信,可减少通信开销,各任务执行进程计算任务相对独立,可减少由于管理分配等操作带来的附加开销。数据服务进程部署在存放视频数据的机器上,与任务执行进程通信,根据任务执行进程的需求分发相应的数据,同时接收并存储任务执行进程处理的数据。任务分配进程主要用来解析交通视频数据处理的任务和分配任务,解析完任务也可作为任务执行进程来用,可部署在私有云空间的任何机器上。任务执行进程主要是执行任务分配进程分配的某一交通视频数据处理子任务,可部署在私有云空间的任何机器上。

在数据存储方面中,高分辨率交通视频数据源根据需要存储在私有云空间的某一机器上,每台站点机器只需维护本机的数据信息,管理服务器可以是私有云空间的任意机器。在进行分布式计算时,首先启动管理服务器上的管理服务进程,再启动参与计算的数据所在站点机器的数据服务进程,数据服务进程向管理服务进程注册,并提交其管理的数据源在本机网络名称、绝对路径以及访问端口,数据客户端只需向管理服务进程提交需要的数据网络名称,由管理服务进程向数据客户端解析数据所在的站点机器IP、路径以及访问端口号等信息,数据客户端根据这些信息向站点机器(数据节点)请求数据或上传处理的数据。分布式文件系统工作流程如图5所示。

图5 分布式文件系统工作流程

该分布式文件系统有以下优点:

(1)可以支持海量数据的存储,存储方式简单,无需复杂的存储结构和维护工具。

(2)支持多平台的文件系统,本地文件与网络文件处理方式一致。

5 实验设计与评价

在基于私有云架构的交通视频处理仿真模拟实验过程中,主要包括数据准备和程序复制、模拟云存储子系统存储视频数据、模拟云计算子系统自动处理视频数据和采用数据可视化子系统评价结果文件等四个步骤。

5.1 程序部署和数据准备

在使用原型系统之前,首先需要进行程序部署和数据准备。测试中,数据服务器采用四核Intel Xeon 3.2 GHz CPU,3 GB内存,每个数据服务器配置千兆以太网卡,带宽1 Gb/s,通过千兆网络进行连接。

程序部署是指交通视频自动处理的需要,将编译生成的应用程序和底层依赖库根据数据服务器、元数据服务器、任务工作站等不同的角色发送到各个相应的节点,并且记录相应的IP地址、数据服务端口等信息。需要指出的是,计算节点相关程序的部署可以采取自愿和要求两种方式,考虑到私有云处于局域网内,网络安全性有保证,因此在实践中直接将其挂载到公共FTP上,用户可以根据需求下载。

数据准备是指将需要处理的交通视频存储路径和计算机的相关信息进行统计,同时根据交通视频文件的特点设置参数文件,为在该节点启动数据服务器做准备。需要指出的是,为了避免出现存储空间不够的情况,文件存储路径所在的存储空间一般选择比较大的磁盘。

5.2 使用云存储子系统存储交通视频

这一步骤主要是在程序部署和数据准备的基础上启动元数据服务器,而后根据各个视频处理的特点启动相应的数据服务器,并且数据服务器向元数据服务器注册,形成对外的数据服务。

在验证中,将选取不同大小的视频数据,并且启动相应的服务端口,得到数据服务器相关配置信息如表1所示,使用本文的私有云存储文件系统可以很容易将数据服务器加入系统。

表1 数据服务器相关配置信息

5.3 使用云计算子系统进行自动处理

元数据服务器启动之后,下一步是使用云计算子系统进行自动处理。需要指出的是,元数据服务器、数据服务器、任务工作站属于管理员控制的内容,计算节点属于各个用户可控制的内容,用户知道元数据服务器的IP、端口和影像库的名称,任务工作站的IP、端口等,在本地启动相关进程的时候,通过配置文件可以访问相关的信息。

5.4 结果文件评价

为了验证云计算平台的处理是否达到了预期的结果,最后需要对结果文件进行评价。将表1所示的数据服务器依次加入云存储子系统,观察相应的数据存储总量和数据服务器的响应时间。

首先对存储云的性能进行分析,从空间和时间两个角度对存储云系统进行测试,一是私有云的存储容量的测试,二是数据服务器工作站在实际处理中的性能测试。

在测试时,将各个数据服务器按照表1中的编号顺序依次加入存储云,得到最终的存储云的存储容量的变化如图6(a)所示,不难看出,随着加入的数据服务器越多,整个系统的存储容量越大,可以存储接近20 TB的遥感影像数据,说明云存储系统具有较好的可扩展性和存储能力。

图6 (a) 云存储容量随数据服务器的变化

图6 (b) 各数据服务器的往返时延

分别对各个数据服务器与元数据服务器的通信相应延迟进行统计,得到实验结果如图6(b)所示。可以看出,各个数据服务器加入私有云的往返时延(Round Trip Time,RTT)都在1 s之内,说明各数据服务器与云存储系统通信延迟很小,可以满足实时数据传输和消息传递的要求。

6 小结

设计了基于云计算的数据管理与高性能计算框架,核心是提出了基于私有云的并行计算模型,通过此模型将网格上的计算机有机地组织为分布式文件系统(DFS)和分布式计算系统(DCS)。DFS可将网络上的许多计算机组织成若干个逻辑存贮器,其存贮容量没有上限;DCS可将网络上的许多计算机组织成若干逻辑计算单元,其计算能力没有上限。研究和探索云计算环境下交通视频数据高性能并行计算和高效管理方法,赋予其“云”的属性,从而为智能交通系统的高效运行提供有效技术支撑和服务。

[1]赵娜,袁家斌,徐晗.智能交通系统综述[J].计算机科学,2014,41(11):7-11.

[2]Masaki I.A brief history of ITS[M].[S.l.]:Masachusetts Institute of Technology,1999.

[3]方昕.大数据下的智能交通数据共享与处理模型[J].信息技术,2015(12):94-97.

[4]杨万三.智能交通管理一次颠覆传统的技术变革[EB/OL].(2013-04-08)[2013-04-19].http://www.2lits.com/common/NewsDetal.aspx?ID=2013040811375806088.

[5]韩耀强.大数据:智慧城市的发展引擎[EB/OL].(2013-04-08)[2013-04-08].http://www.nti56.com/news/detail/105004003/1574183268.html.

[6]Mukherjee R.Travel and transportation in the age of big data[EB/OL].(2012-08-28)[2013-04-20].http://www.ibmbigdatahub.com/blog/travel-and-transportation-age-big-data.

[7]申德荣,于戈,王习特.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803.

[8]陈崇成,林剑峰,吴小竹,等.基于NoSQL的海量空间数据云存储与服务方法[J].地球信息科学学报,2013,15(2):166-174.

[9]Armbrust M,Fox A,Griffith R,et al.A view of cloud computing[J].Communications of the ACM,2010,53(4):50-58.

[10]方巍,文学志,潘吴斌,等.云计算:概念,技术及应用研究综述[J].南京信息工程大学学报:自然科学版,2012,4(4):351-361.

[11]Johnston S.Cloud computing type public cloud,hybrid cloud,private cloud[EB/OL].(2009-03)[2011-05].http://www.circleid.com/posts/20090306_cloud_computing_types_public_hybrid_private/.

[12]Amazon.EC2[EB/OL].(2010-03)[2011-05].http://amazon.com/ec2.

[13]Google.Google app engine[EB/OL].(2009-10)[2011-05].http://code.google.com.

[14]Kricos A.Cloud book.RC2[EB/OL].(2010-05)[2011-05]http://www.cloudbook.net/the-cloud-book/private-cloud/ibm.

[15]Shvachko K,Kuang H,Radia S,et a1.The hadoop distributedfilesystem[C]//2010IEEE 26thSymposium on Mass Storage Systems and Technologies(MSST),2010:1-10.

WANG Chuanlian1,ZHANG Zongshuo2

1.School of Automobile,Chang’an University,Xi’an 710064,China 2.School of Engineering,University of Central Lancashire,Preston,England

Design of large-scale traffic video processing frameworks based on private cloud.Computer Engineering and Applications,2017,53(21):254-257.

According to the traditional traffic data processing methods have been unable to adapt to the demand of intelligent traffic data processing,combined with cloud computing technology,large-scale traffic video data management and the high performance computing frameworks are designed based on cloud computing.A parallel computing model based on private cloud is proposed,and the simulation experiment verifies the validity of model.The research results can support for the application of intelligent traffic system of video data.

intelligent traffic;private cloud;parallel computation;distributed

A

TP31

10.3778/j.issn.1002-8331.1705-0026

王传连(1977—),男,博士研究生,高级工程师,研究领域为交通运输规划与管理,E-mail:wangchuanlian@163.com;张宗朔(1998—),男,电子工程专业在读本科生。

2017-05-08

2017-09-30

1002-8331(2017)21-0254-04

猜你喜欢
数据服务进程服务器
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
基于数据中台的数据服务建设规范研究
服务器组功能的使用
理解Horizon 连接服务器、安全服务器的配置
债券市场对外开放的进程与展望
PowerTCP Server Tool
改革开放进程中的国际收支统计
数据服务依赖图模型及自动组合方法研究
计算机网络安全服务器入侵与防御