江海琦, 崔毓伟, 徐延军
(1.宁夏公路管理局,银川 750011;2.中海网络科技股份有限公司,上海 200135)
宁夏回族自治区《关于推进新一代数据中心建设发展的意见》提出,要逐步建成满足宁夏内陆开放型经济发展需要,技术先进、布局合理的新一代数据中心。选择先进合理的技术方案是宁夏交通数据中心建设指导思想中的关键问题,而评价技术方案的先进性与合理性必须具体到应用背景和应用技术中,不同应用环境对技术标准的适用性各有差异。以具有典型海量数据特征的智能交通运输系统为背景,探讨宁夏交通数据中心大数据相关技术的适用性问题,为交通数据中心建设提供理论参考。
大数据相关技术是国内外热门研究领域,其影响范围涉及到众多行业,其中交通领域就是典型的可以通过海量数据挖掘实现智能管理和优化服务的大数据应用场景。配合宁夏交通数据中心建设,结合当前技术发展趋势,对其中关键技术进行分析,通过分析论证总结关键技术适用性、适用的层次或方向,为宁夏交通数据中心建设实施过程中的技术选用提供参考。
大数据技术是指从海量的结构化或非结构化数据中快速获得有价值信息的技术。由于庞大的数据量级和形式各异的数据结构,传统的数据处理方法不能适应大数据的挖掘需求。因此在大数据采集、存储、挖掘、应用、展示等各个领域,不断涌现出新技术。
大数据采集的重点是要突破分布式高速数据爬取、数据全映像等大数据收集技术以及突破高速数据解析、转换与装载等大数据整合技术。其中数据抽取、转换、装载的过程(Extract-Transform-Load,ETL)能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
大数据存储与管理技术重点要解决复杂结构化和非结构化数据的存储、表示、处理、可靠性及有效传输等关键问题,因此需应用新型数据库技术。其中NoSQL数据库(Not Only SQL,即“不仅是SQL”,泛指非关系型数据库)凭借其在高并发读写、海量数据高效率存储和访问、高可扩展性和高可用性等方面的优势发展非常迅速。
大数据挖掘分析计算就是从海量、非完整、有噪声和随机的数据中,提取隐含其中人们事先不知道、但又潜在有用的信息和知识的过程。针对数据挖掘分析出现的Hadoop处理平台等关键技术给用户带来了更好的大数据处理方案。其中由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。
交通数据中心的信息资源来自众多独立的异构系统,汇聚了海量的结构化及非结构化数据,并且随着移动互联技术的发展,系统与用户间信息交互频度的增加,非结构化数据还会大幅增长,因此交通数据中心建设需要特别重视对非结构化数据的存储管理与挖掘分析。结合交通数据中心这一特点,主要分析NoSQL和 Hadoop两个大数据关键技术的适用性。
关系型数据库是建立在关系模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据。NoSQL通常指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性决定。它以“键值对”的形式存储,结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加自己的“键值对”,这样就不会局限于固定的结构,减少一些时间和空间的开销。使用这种方式,用户可以根据情况添加自己需要的字段,而无需像关系型数据库那样对多表进行关联查询,仅根据id取出相应的字段就可以完成查询。NoSQL和传统关系型数据库的对比见表1。
通过上述对比,可以看出关系型数据库用一种严格的数学模型来描述混乱的数据存储关系。其查询语言SQL通过简单直观的语法,把各个实体间的关系明确表达出来。随着数据规模的增长,关系型数据库逐渐遇到不适合的场景,其中主要的局限性包括数据模型僵硬、可扩展性差、处理海量数据时的性能瓶颈和缺乏处理非结构化数据的能力等。NoSQL发展时间较短,没有形成行业标准及强有力的技术支持,因此NoSQL可作为对关系型数据库的补充。
交通数据中心信息主要以结构化数据为主,总的数据量为TB(硬盘容量单位)级,目前实时数据相对较少,各参与信息交换共享的单位间会产生一定的查询需求,但并发读写要求不高。同时交通数据中心作为行业核心交换节点,对数据的一致性要求较高,并能为各服务单位提供统一、标准化的接口。随着数据中心支撑业务多样化、管理精细化的要求,尤其是通过门户网站对外提供的信息服务业务种类的增加,并发访问量、与社会公众的交互需求会不断增加,非结构化数据量、及对数据实时性要求将会逐渐增加。
表1 NoSQL和传统关系型数据库的比较
因此,NoSQL在当前交通数据中心的建设中还不适合全面铺开,仍应主要采用关系型数据库,但对于数据中心门户网站的Web应用可采用NoSQL作为关系型数据库的补充,一方面满足对非结构化数据的采集,另一方面可满足数据中心服务层业务功能不断扩展的需求。
Hadoop是开源的、可运行于大规模集群上的分布式计算平台,以HDFS和MapReduce为核心。HDFS高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并运行应用程序。用户可以利用Hadoop方便地组织计算机资源,搭建分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
HDFS的高容错特性以及基于Java语言的开发背景,使得Hadoop可以部署在低廉的计算机集群中,同时不限于某个操作系统。在HDFS文件系统中,数据是分布式存储在各个节点的。计算时各节点读取和处理存储在自己节点的数据,从而避免了大量数据在网络上的传输,实现“计算向存储的迁移”,这对处理TB级的海量数据有很大的优势。
MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同处理节点,通过大量廉价服务器即可实现大数据并行处理。其突出优势是具有高度的扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。表2为Hadoop与传统数据存储处理系统的对比情况。
通过对Hadoop两个重要组件HDFS、MapReduce的分析可以看出当前Hadoop还不能完全替代传统的数据存储处理系统,但在功能上与传统的数据存储处理系统具有一定的互补特性。由于交通数据中心信息资源主要为海量的结构化数据,目前非结构化数据量较小,采用传统的数据存储和处理技术基本能够满足对于结构化数据的处理要求。但随着数据中心业务的扩展,非结构化数据量将会快速增长。从扩展性及部署成本角度考虑,建议采用“传统方式+Hadoop”模式,即:主要采用传统方式实现对主要业务数据的存储、处理;当数据中心的非结构化数据达到一定量时,再部署Hadoop实现对非结构化数据的存储和处理。
表2 Hadoop与传统数据存储处理系统的比较
基于上述研究,目前已经在宁夏自治区交通系统开展了部分基于关系型数据库和Hadoop的研究应用,对现有收费系统数据的挖掘即是其中一例。随着我国高速公路建设和联网收费系统的不断发展,收费数据的规模和复杂度也逐年增长。利用大数据技术,对海量收费数据进行挖掘,找出独立收费流水中的关联,对高速公路偷逃费治理、提升管理精细化水平以及为决策提供数据支持等方面,都有重要意义。
针对高速公路管理单位关注的特殊类型通行记录、司机利用倒卡手段偷逃通行费、货车假轴分析等方面,从异常流水和正常流水中,通过数据挖掘技术分析出问题车辆,并根据分析结果,下钻至原始通行记录进行确认核实。
5.2.1 各种特殊类型通行记录统计分析
包括对各特殊类型车辆进行数据统计,对各收费站的各种特殊车辆进行统计,也可以从收费站、收费车道、收费员三维度对各条高速公路的特殊车辆信息进行统计,对特殊车辆的收费员工号进行汇总统计,还可以对出口流水中轴型及其车流量信息进行统计。
5.2.2 车辆偷逃通行费稽查分析
对各类特殊车辆进行稽查统计(包括对超时车中车牌不符、车型不符的车辆统计),对收费车变免费车、车卡不符的公务车进行统计,还可以对货车计重偏差较大的车辆按车牌进行统计,对长途轻载车辆、短途重载车辆按车牌进行分析。
5.2.3 货车疑似假轴分析
通过对海量历史数据的分析,找出各类轴型车辆轴序轴重所占比例,并根据新增数据不断完善,对车辆通行记录进行分析,从收费站、车牌号码等维度对疑似假轴车辆进行识别。为路政部门追踪和管理假轴车辆提供数据支持。
通过对用户设定的时间段内数据的抽取与汇总,得到各类型特殊车辆按收费车道进行统计的车流量,对收费车道特殊类型车辆的判别情况提供依据(见图1)。
图1 一段时间内各种特殊类型车辆统计图(按收费车道)
通过分析特定车辆的历史计重数据,统计出车辆在历次通行记录中的车重情况,对比最大车重、最小车重、平均车重和最大车重与最小车重的比例关系(见图2),得出车辆车重的变化情况,为车辆超重超载等情况的判定提供数据依据。
图2 货车计重偏差较大车辆分析结果
部分货车为了偷逃通行费,采用增加假轴的方式,改变轴型,达到减少通行费的目的。系统通过分析各个货车历史轴型与轴重数据(见图3),结合标准轴型信息及其限重值,分析货车轴重所占车辆总重的比例,得出可能存在假轴车辆的轴型与假轴轴序信息。
为了对假轴车辆信息进行整体展示,以可疑假轴车辆数据为依据(见图4),从收费站和轴型两维度,展示可疑假轴车辆的分布情况。
图3 可疑假轴车辆分析结果
图4 一段时间内各收费站假轴车辆汇总统计
大数据理念近年来受到广泛关注,相关技术正从理论层面迈向应用,交通领域正是大数据技术最具发展潜力的典型应用之一。交通数据中心建设必然需要解决大数据相关技术选型的问题。首先描述了大数据相关技术的总体情况,然后在详细比较了NoSQL和传统关系型数据库区别的基础上,分析了NoSQL技术在交通数据中心建设中的适用性;比较了Hadoop和传统数据存储处理系统的差异,并分析了Hadoop的适用性问题。研究结果有助于深入理解交通数据中心建设中关键技术的选择标准。
参考文献:
[1] 林树地,吴扬扬. 基于Hadoop的C4.5决策树分类算法并行化[J]. 微型机与应用,2013(12):89-91.
[2] 亢丽芸. 基于Heritrix与Hadoop的海量网络学术文献获取及并行处理研究[D]. 淄博: 山东理工大学,2012.
[3] 李铭果. 面向社区服务的数据仓库系统的设计与实现[D].西安:西安电子科技大学,2010.
[4] 赵俊. ETL在数据中心中的设计与实现[D].上海: 东华大学,2010.
[5] 陈健. 数据挖掘技术在交叉销售中的应用[D].苏州: 苏州大学,2009.