基于铁路数据服务平台的铁路数据资产管理研究

2021-04-07 00:41马小宁王沛然孙思齐
铁路计算机应用 2021年3期
关键词:服务平台铁路资产

王 喆,马小宁,邹 丹,王沛然,孙思齐

(中国铁道科学研究院集团有限公司 铁路大数据研究与应用创新中心,北京 100081)

随着企业信息化不断深入发展,数据对企业的价值愈发重要。瑞士达沃斯经济论坛的经济报告曾称,数据是一种类似于货币或基金的新型资产[1],尤其对于互联网企业,其数据资产的价值已远超企业其它资产价值之和。在“互联网+”背景下,传统企业汲取互联网企业的经验,重视大数据对企业数字化转型带来的推动作用,建立起数据采集、积累、分析、共享等管理流程,努力使数据资产成为企业重要的生产要素,以服务于企业整体战略目标。

1 铁路数据资源及数据资产管理现状

1.1 铁路数据资源现状

中国国家铁路集团有限公司(简称:国铁集团)自2019 年挂牌成立后,作为市场经营主体,实施货运增量行动、客运提质计划、复兴号品牌战略3 项举措,重视经济效益和投入产出,在规划建设、运营生产中积累了大量得天独厚的优质数据资源[2]。如何充分利用这些数据资源,挖掘数据潜在的价值,以提升客货运服务质量、提高经济效益成为铁路当前重要课题。同时,海量数据资源也成为管理难题,如何有效地管理铁路数据资源,将其转化为对企业有价值的数据资产并服务于运营和决策是亟需研究解决的问题。

1.2 铁路数据资产管理现状

(1)数据资产全貌尚未掌握:铁路数据资产庞杂,分散在200 多个国铁集团统一建设的业务系统及各铁路局、客专公司自建的上千个业务系统中,数据类型复杂多样,包括结构化数据及图像、音频、视频、文本等非结构化数据。虽已开展多次铁路数据资产调研,但调研范围不一致,调研资料缺乏梳理,利用率不高,无法形成完整的铁路数据资产视图,不利于企业制定数字化转型相关战略。

(2)数据内部共享难题:铁路信息系统繁多,系统之间数据共享场景多样[3];此外,铁路企业内部数据共享审批流程复杂,一事一议,数据共享技术标准化较差、接口不统一等问题成为企业内部数据共享的障碍,妨碍了数据价值的发挥。

(3)与外部数据交换不足:与其它行业(如银行、电信运营商、电网等)相比,目前铁路数据与外部数据的交换明显不足;对外部数据的引入还比较有限,尤其亟需将气象、地质、社交媒体等数据与铁路自有数据结合,以更好地支持辅助决策;另外,囿于对数据安全的担忧和数据价值的认识,对外提供铁路数据的场景也极为有限。

(4)主数据规范推进困难:铁路主数据是描述铁路基础设施、客运服务、货运服务、人员及机构基本标识或状态属性的数据[4]。国铁集团于2015 年建设了铁路主数据平台,已发布车站主数据、线路主数据、路局主数据、动车组主数据等主题数据,但目前仍有很多铁路信息系统尚未接入铁路主数据平台,导致数据融合受限。

2 铁路数据服务平台的数据资产管理

铁路数据资产管理包括资产盘点、资产汇聚、价值提升、资产流通等重要环节。铁路数据服务平台提供了基础的数据管理服务,为数据应用的开发提供多种接口和引擎。目前,基于平台提供的数据存储引擎、标签管理引擎、数据访问接口、数据开发引擎、工作流引擎等平台层技术工具,已实现数据登记、数据汇聚、数据质量管控、数据分级管理、数据共享等一系列应用,构建起铁路数据资产管理应用集合,其总体架构如图1 所示。

2.1 铁路数据登记

图1 铁路数据资产管理应用总体架构

铁路数据登记是实现铁路数据资产管理的首要环节,包括资产调研表管理、数据资产内容检索、数据资产统计等功能,解决铁路历次数据调研获取的调查研表的数字化管理问题。随着全面调查和阶段性日常调查工作的开展,可逐步完善铁路数据资产全貌。同时,数据登记也给每个铁路应用系统建立了数据资产卡片,是后续开展各应用系统数据汇聚的基础。

在数据资产登记的基础上,可对资产情况进行统计分析,如结构化数据量(存量和增量)、非结构化数据量、网络部署情况、数据库类型等,从多个角度掌握铁路数据资产概况,为制定相关数据政策提供决策依据。

2.2 铁路数据汇聚

铁路数据汇聚是在铁路数据资产登记的基础上,将业务系统中存储的数据传输至铁路数据服务平台的过程,包括接口方案制定、接口开发和接口调试等环节;汇聚至铁路数据服务平台的数据是开展铁路数据资产管理的对象。

制定数据汇聚方案要综合考虑数据的类型(结构化和非结构化)和数据传输量的大小。铁路数据服务平台提供3 种标准的数据接入接口:RESTful 接口、FTP 传输和Kafka 接口,这3 种接口的特点见表1。

表1 铁路数据服务平台提供的数据接入接口及其特点

铁路数据服务平台的存储架构设计采用“数据湖”理念,即以所汇聚数据的原始格式存储数据,对外提供数据服务时,根据应用需求对数据进行转换。平台中数据存储方案要考虑数据的类型和数据应用场景需求(实时和非实时)。铁路数据服务平台的存储架构集成多种存储组件,如分布式文件系统、数据仓库、内存数据库、对象存储等,能够为铁路数据资产管理提供稳定可靠的存储设施,表2概括了各种存储组件的特点及其适用场景。

表2 铁路数据服务平台各类存储组件的特点及其适用场景

2.3 数据质量管控

铁路数据服务平台的铁路数据来源广泛,各业务系统在数据采集密度、数据规范、需求场景、质量管理方面各不相同,对数据完整性、一致性、及时性、精确性有较大的影响[5]。

通常来说,数据质量的提升要从管理和技术2个方面开展管控工作[6];管理方面的工作主要包括建立数据质量管控组织、数据质量问题发现和分析、数据质量考核等;技术方面主要依靠数据质量度量规则管理和稽核工具。

在数据质量管控方面,铁路数据服务平台提供质量监督角色设置、度量规则定义以及生成数据质量报告等功能。此外,针对车站和线路字典数据,提供数据质量检查和稽核的工具,可将铁路主数据平台提供的主数据作为参考,对平台上来自具体业务系统的相关主数据进行质量检查,采用文本相似度分析和时间拉链等方法,查找并纠正车站和线路字典相关的数据问题,显著提高了数据质量检查效率,车站字典数据质量检查过程如图2 所示。

2.4 数据分级管理

图2 车站字典数据质量检查过程示意

铁路数据分级是在数据分类的基础上,采用明确、规范的方法评估数据的重要性和敏感度差异,确定各类数据的级别。数据分级有助于业务部门根据数据不同级别,以及数据在其生命周期所处的阶段,确定需要采取的数据安全防护策略和管控措施,进而提高业务部门对数据的管理和安全防护水平,确保数据的完整性、保密性和可用性[7]。依据铁路数据重要性不同,划分为公开、内部、机密和国家秘密4 个等级,如图3 所示。

图3 铁路数据分级示意

对于不同安全等级的数据,铁路数据服务平台采用对应的安全管理策略。如在数据共享环节,公开数据采取无条件公开方式,数据申请者可直接获取相关数据而无需审核。对于非公开数据,数据申请者提出的使用申请需要由对应安全级别的审批部门审核。在数据存储环节,内部数据采用按需加密,机密数据采用全量加密的策略。涉及国家秘密的数据,铁路数据服务平台暂不考虑汇聚。

2.5 数据共享管理

依据与原始数据的关系,铁路数据服务平台中的数据可分为未加工数据和加工数据,针对这2 种数据提供数据目录和接口服务2 种数据共享方式。

数据目录将未加工数据的摘要,包括数据说明、数据字段说明、数据来源、数据更新频率等,按照一定的分类方式整理形成数据目录并发布。对于加工后的数据(一般针对定制化加工需求),则发布在接口服务中。数据使用者对数据目录或者接口服务中的数据提出使用申请,申请被批准后,可通过数据接口获得所需数据。

3 结束语

铁路数据服务平台已经在武清主数据中心部署,并针对京张高铁主题,盘点和汇聚多个业务系统的数据,支持智能京张高铁的大数据应用。今后,将继续完善铁路数据服务平台的分级管理体系,完善数据质量稽核算法,通过数据质量的提升来提高数据价值[8],为铁路各类业务数据融合和广泛共享奠定扎实的基础。

猜你喜欢
服务平台铁路资产
詹天佑,“中国铁路之父”
这才叫创业!90后水产追梦人打造一条龙式技术产品服务平台
高校财务“一站式服务平台”建设探讨
沿着中老铁路一路向南
一路欢声一路歌 中老铁路看点多
基于CMMI的软件组织资产库建设与应用实践
守住硬核资产是“硬道理”
福州首家“奶爸版”母婴服务平台上线
基于自媒体的编程服务平台研究综述
从中国制造到中国资产