王菁++刘春来
摘 要: 完善数据管控在交通行业的应用是辽宁省交通信息化建设面对的一个大问题。以辽宁省交通行业为研究背景,结合相关数据规范,建立了省交通行业数据资源管控平台。根据实际应用的要求,将该平台划分为元数据管理、数据质量管理、数据库管理和系统管理四部分,研讨了各部分的功能。结合辽宁省交通行业实际,解决数据管理与控制的问题,从而整体提升数据管理水平,促进信息化健康发展。
关键词: 数据管控; 交通行业; 元数据; 数据质量
中图分类号:TP315 文献标志码:A 文章编号:1006-8228(2017)02-20-04
0 引言
辽宁省初步实现公路管理、水路运输、道路运输等行业信息资源的应用。但由于信息化应用中很多业务系统在建设之初没有遵循数据标准规范进行设计,以及承建厂商技术实力、管理能力差异等,使得现阶段的行业数据资源存在着较多质量问题,行业数据标准化的深入应用面临困境。因此,加强行业数据管控,提升行业信息资源数据管理,成为现阶段亟待解决的问题。本文基于交通运输部交通信息数据标准,以辽宁交通行业实际情况,制订了辽宁省地方交通行业数据规范与制度;建立统一数据资源管控平台,实现行业数据资源的管理、控制与共享。
1 需求分析
本项目为了顺利完成辽宁省交通行业数据质量管控平台开发任务,通过前期详细的需求调研,对现有和在建的全省各业务系统做了全面的摸底调查,了解各系统的数据结构、数据采集、数据应用方式等,在此基础上,对分散在交通行業各部门的数据资源进行梳理,并按照统一的规范进行分级分类和标准化,形成符合应用需要的交通行业数据资源管控的实际功能需求,具体如下。
⑴ 利用交通部交通信息数据元标准及我省相关地方规范等,实现各业务系统元数据检测、版本管理,作为数据质量管控的主要依据。
⑵ 结合行业数据资源现状和管理分级分类的要求,建立省数据资源目录体系,快速精确查询各业务系统数据库结构及其字段的定义内容,为省数据资源体系奠定基础。
⑶ 以交通部相关标准及地方规范等,进行数据质量治理,对现有已接入我省各业务系统的数据资源质量状况进行剖析和评估,形成数据质量报告。
⑷ 依托于数据管控平台,实现对于我省现有数据资源进行监控分析。
2 系统设计
为实现对行业数据资源相应的管理手段,形成完整的交通行业数据管控体系。数据管控平台设计纵向分为获取层、资源层、功能层、应用层,平台系统功能架构如图1所示。
⑴ 获取层
获取层位于整个体系架构的最底层,元数据获取层抽象概括了元数据获取的各种途径。业务和管理元数据通常以手工方式获取;技术元数据覆盖数据源系统以及我省各业务系统数据的整个生命周期,要求以自动方式获取,如数据字典和数据模型等。
⑵ 资源层
资源层定义了元数据存储所遵循的元模型,规范从获取层得到的各类元数据的属性要求和存储格式要求,包括业务元数据、技术元数据和管理元数据。
⑶ 功能层
功能层为前端元数据应用提供了基本的功能支撑,包括元数据管理维护、元数据权限管理、元数据分析应用、剖析与验证规则管理、质量评估模型管理、质量报告生成管控日志管理等。
⑷ 应用层
在功能层的支持下,应用层通过调用功能层的功能,对质量管控的实际问题提供应用解决方案,包括元数据人工登记、元数据服务、数据源管理、剖析与验证过程监控、质量报告生成发布、系统管控告警等。
为达到省交通厅现阶段数据管控的要求,系统实现的功能需求,分为元数据管理、数据质量管理、数据库管理和系统管理等大部分。
3 系统环境
3.1 系统开发环境
该平台将采用基于J2EE的体系在ORACLE数据库上进行开发,运用BS架构的前段展示界面加CS架构的后台任务支撑相结合的方式。后台管控平台将使用数据交换平台实现,所有管控平台业务层面所涉及到的数据分析都将基于数据交换台进行开发。而管控平台本身则负责对所有任务的管理。并且负责展示所有数据分析的结果。
3.2 关键技术
⑴ TOGAF规划方法论体系
本项目采用Togaf对管控平台进行规划。开放组架构框架(The Open Group Architecture Framework,TOGAF)是一套通用框架,通过详细的方法论和一系列工具,定义架构的内容具体以架构内容框架为参考。
⑵ 大数据处理技术
本平台中数据交换采用分布式计算技术和弹性计算来支撑对海量数据的多节点并行高效抽取、转换与装载。通过对分布式计算技术的应用,使平台中的主交换服务器与交换节点服务器之间形成了分布式架构体系,随着海量数据处理需求的变化,可以任意扩展或收缩交换节点服务器,从而实现对海量数据的并行处理,使得平台对数据吞吐量不再受到物理设备带宽的制约。
4 系统详细设计及实现
交通行业数据资源管控平台横向划分为元数据管理、数据质量管理、数据库管理、系统管理以及组织权限以满足管控平台的建设要求。
4.1 元数据管理
通过数据源的管理,数据资源管控平台可以获取到不同数据源的元数据定义。通过确定设置数据源版本作为标准版本,再通过数据资源目管理来管理标准版本的元数据信息,从而建立一套标准的元数据。通过该标准元数据来审核,管理数据库的任何变动,一旦校验时发现异常,管理人员可轻易地查看所有数据库的库表设计、定义与变化情况。
⑴ 数据源管理
数据源管理是整个管控平台的基础模块。通过该功能可以帮助建立从数据资源管控平台到各个不同数据库的连接。从而帮助管控平台的各种数据分析任务从不同的数据源获取数据,从而得出分析结果。通过数据源管理的新增功能,只需要输入相应的数据库配置参数,即可实现对数据库的连接。同时,提供多种类型的连接方式,提供不同类型的连接用户类型及测试功能进行连接测试等功能。
⑵ 数据资源目录
我省各业务系统多,数据库众多。管理人员由于缺乏有效的手段,很难去真正了解各个数据库的设计情况。通过对数据资源体系进行标准分类,就可方便查询各个业务系统中的数据资源情况,即数据库表及其字段数的定义内容,针对这些内容提供精确查询。
⑶ 标准规范管理
标准规范管理能够方便的将纸质化的各种标准规范维护到管控平台里面,现有标准规范内容基本上涵盖到所有的交通业务信息。
⑷ 标准符合性审查
标准规范纳入到平台管理之后,通过指定对标的表及与之比对的特定的规范,来进行校验,支持类型校验和长度校验,并提供权重来划分不同校验类型所占据的比重,平台最终需要出具校验报告,并明确数据表中字段的类型校验是否匹配,以及整体校验的通过率、是否合格等信息。
⑸ 标准值域管理
标准值域管理主要是对标准数据元值域代码集进行管理。数据元中值域所引用到的值域代码,以及数据质量剖析中进行的表字段值域剖析所引用的值域代码都将进行增、删、改、查等功能,得以实现数据质量管理中数据值域剖析。
4.2 数据质量管理
數据质量管理是平台的核心功能之一,通过数据质量管理,可在很大程度上帮助管理人员掌握数据质量情况,获取质量报告。
⑴ 数据剖析管理
数据剖析管理包括剖析规则管理和剖析任务执行。平台将针对交通业务,分别形成一套行业通用类剖析规则,并提供数据质量剖析规则定义与维护功能,用于定义和维护个性类剖析规则,满足不同的数据质量管控要求。数据内容技术剖析与验证可以对任意一个数据源的任意一个表的任意字段进行数据剖析,并提供剖析数据总量、通过率等信息。
⑵ 数据质量评估管理
数据质量管理能够实现最终建立数据库的数据质量评估报告。系统提供高度可配置化的功能,自由选择组装剖析实例,可以建立一个质量评估模型,并选择若干剖析实例作为质量模型的基础构成。结合每个剖析实例的合格率,可自由地对每个剖析实例设置权重。从而得出数据质量评估模型的最终分数。可以通过系统提供的阀值设置,判断一个数据质量评估模型的结果是否达到阀值,即是否合格,从而更好的掌控数据的质量。
⑶ 自定义剖析功能
数据剖析管理模块中包含了数据内容业务剖析,由于实际业务剖析需求种类繁多,数据剖析规则无法满足所有场景的实际业务剖析需求。而自定义剖析功能根据实际业务剖析需求,自定义编写SQL执行业务剖析来实现应对不同场景的剖析需求,达到对数据内容业务剖析与验证的功能。
4.3 数据库管理
数据库管理主要是涵盖数据库用户操作日志及表空间查询与预警等功能。
4.4 系统管理
数据管控平台需要运行大量流程任务,包括元数据自动捕获、元数据审查、数据剖析流程、数据质量评估流程,需要有效的任务监控,才能有效地监督任务运行情况,及时发现异常任务。
5 结束语
我们在数据标准化基础上开发数据管控平台,可以实现数据元管理、信息资源目录管理,数据质量管理及数据库管理等功能,真正实现数据标准化、动态化管理。该数据管控平台实施和运行已有12个月,系统运行平稳,管控效果稳定,达到了预期的效果。
下一步将继续通过应用检验规范,使数据标准规范更加实用、适用,对交通行业数据管控平台优化设计。实现规范数据资源服务的一致性,提升我省整体交通数据服务水平。
参考文献(References):
[1] 钟南.交通运输行业数据中心建设体系研究[J].交通标准化,
2014.19:68-74
[2] 王辉,林垚,周紫君.基于元数据的交通运输科学数据共享平
台设计[J].交通与计算机,2008.26(2):86-89
[3] 王明生,杨艳.基于元数据的交通资源基础信息数据管理研
究[J].Railway Transport and Economy,2008.30(11):81-83
[4] 马晓军,张春节.云南省交通运输行业数据中心管理平台建
设思路[J].数字技术与应用,2013.6:153-154
[5] 邝帆,黄霖.贵州省交通运输数据中心与数据管控体系研究[J].
计算机光盘软件与应用,2014.11:31-32
[6] 王瑾.基于云计算的交通运输数据中心实现与应用[J].中国
交通信息化,2015.3:84-86