李 洋,赵正阳,王文斌,徐 栋,陈万里
(1. 中国铁道科学研究院集团有限公司城市轨道交通中心,北京 100081;2. 天津智能轨道交通研究院有限公司,天津 301700;3. 北京市轨道交通运营管理有限公司,北京 100068)
近年来,在诸多企业数字化转型的同时,也迎来了数据的爆发式增长,数据作为数字经济时代的“石油”,如何更好的被管理、利用也成为研究的热点。电力[1-2]、石油[3-4]、银行[5]、铁路等大型国企已经率先对数据治理工作开展了大量研究,形成了诸多研究成果与实践应用案例。
自《中国城市轨道交通智慧城轨发展纲要》[6]发布以来,城市轨道交通也驶入智能化、智慧化发展的高速路。全国各地围绕“1-8-1-1”发展架构在智慧车站、智慧运营、智慧建造[7]、智慧城轨云平台与大数据平台[8-9]等方面开展了大量研究。
当前,城市轨道交通基础设施运维管理中普遍存在如数据资产数字化程度不足、数据管理体系与管理标准不完善、数据质量较低、数据分析应用深度不足等问题[10-13],导致数据价值难以充分发挥,分析决策可信度低,难以支撑运维决策等问题。
因此,亟需以数据治理理论研究为切入点,系统性开展城市轨道交通基础设施运维数据治理工作,构建基础设施运维数据标准体系,开展数据治理,保障数据资产统一化维护,为城市轨道交通土建线路基础设施运维的数字化和智能化奠定数据基础。
对于数据治理的概念,国际数据管理协会认为数据治理是对数据资产管理行使权力和控制的活动集合[14]。国际数据治理研究所认为数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统[15]。
城市轨道交通基础设施数据治理目标是形成标准化的数据资产,解决跨部门、跨行业的数据共享和治理难题。通过完善体系化的数据治理措施,确保数据资产在“存、管、用”等环节中的安全,做到“事前可管、事中可控、事后可查”[16]。
2.2.1 数据标准
城市轨道交通基础设施运维数据标准包括数据格式标准、编码标准、数据库标准和管理标准等。统一的数据标准有助于对数据的一致理解和形成统一的坐标参照体系,提升业务理解的一致性与数据的统一性。为数据集中存储、统一管理、跨专业分析奠定基础。
2.2.2 数据架构
数据架构为管理数据资产的蓝图。数据架构帮助企业沟通业务和管理之间的关系,将业务需求转换为数据和应用需求,是企业了解自身、制定战略决策的重要依据。
从业务角度出发,在理清数据家底后,对数据资产进行分类,明确元数据属于的业务范畴;从管理角度出发,对数据资产进行分级,依据数据的安全级别,决定数据资产的共享开放程度。
2.2.3 数据质量
数据质量包括数据的合规性、准确性、完整性和一致性。数据质量影响数据的应用程度,数据质量较差会干扰设备与用户的判断,例如无法及时准确分析出线路基础设施的故障地点和原因。数据质量管理过程包含定义数据质量标准,执行初始质量评估,识别质量改进方向并定义改进目标,长期监控数据质量等[15]。
2.2.4 元数据
元数据描述了数据本身、数据表示的概念、数据与概念之间的联系。元数据可以帮助企业理解其自身的数据、系统和流程,也可以帮助用户评估数据质量。元数据的管理主要通过相关信息化管理工具对元数据进行创建、维护,并对外提供查询、报告与分析,以支撑数据应用开展[15]。
2.2.5 主数据
主数据是跨部门统一管理、及时更新、专业维护、集中发布、全路共享、用于描述核心业务实体的数据,包括各类公用基础编码、公用基础字典等。完整、准确、唯一、开放的企业级主数据为各业务应用系统和用户提供标准、规范的主数据服务。主数据管理活动包括主数据识别,数据管理职责定义与维护,数据治理制度建立与主数据使用推动等[16]。
2.2.6 数据安全
数据安全指的是数据是否存在风险,数据安全需要保障数据的使用安全性、数据隐私和访问权限,解决好数据安全问题有助于打消各个部门顾虑,促进数据开放共享[17]。数据安全管理流程包括识别数据安全需求,指导数据安全制度,定义数据安全细致,评估当前安全风险,实时安全控制与规程等[15]。
为形成标准化的数据资产,数据治理的实施需要遵循和围绕基础设施数据标准体系进行。因此城市轨道交通基础设施运维数据资产建设和管理过程可分成4步,包括数据标准制定、数据资产体系建设、存量数据改造、数据资产管理实施。
城市轨道交通基础设施运维数据标准体系是一个可参考的、面向未来数字化管理和智能化运维的标准体系框架,用于指导基础设施运维管理的数据规划和开发人员按照统一的标准要求进行数据资产设计、治理和维护。标准制定内容包括制度组织标准、数据编码标准与数据质量标准。
3.1.1 制度组织标准
基础设施数据管理体系是一套以人员、组织为核心的,涵盖企业数据管理制度、流程、考核等各个方面的数据保障机制。基础设施运维部门应建立起一整套以数据经理负责制为中心的数据管理责任体系。土建线路部组织结构图如图1所示。
图1 土建线路部组织结构图
在数据资产管理的组织结构设计上,宜按照组织结构来任命数据管理角色。管理层级上设置管理层和执行层:在部门层面设置部门数据经理,在各工区设置数据管理专员。
专人专岗、权责明确、分工负责的数据资产管理体系既能确保基础设施运维部门数据工作统筹规划,也能兼顾各工区数据灵活多变的特征。各工区是执行规则、保证数据质量的关键环节。
3.1.2 数据编码标准
在城市轨道交通行业,一套统一的、唯一的元数据编码规范既可满足城市轨道交通日常运维工作使用,又可便于各工区在涉及基础设施运维数据的工作中沟通顺畅。为满足编码标准符合行业标准,又能方便日常运维使用,采用双编码制,2套编码之间一一对应。在日常作业、部门内部数据流转使用运维业务编码,在公司层的数据共享、发布使用资产标准编码。
以城市轨道交通某运管公司为例,线路设备和土建结构标准编码由线路代码(2位)、上/下行代码(1 位)、左/右股代码(1位)、设备设施分类与代码(8 位)、顺序码(4位)与4位分隔符“-”共20位组成,其中设备设施分类与代码使用《北京轨道交通资产管理信息系统编码规范》中的分类代码[18]。资产标准编码规则如表1所示。
表1 资产标准编码规则
为保证运维作业标准化开展,需进行运维编码格式设置。以城市轨道交通某运管公司为例,线路设备和土建结构运维编码由初始线路代码(2位)、设备简码(2 位)、上/下行代码(1位)、左/右股代码(1位)、里程信息(3位)、顺序码(2位)与3位分隔符“-”共14位组成。运维业务编码规则如表2所示。
表2 运维业务编码规则
3.1.3 数据质量标准
根据GB/T 36344-2018《信息技术 数据质量评价指标》标准[19],数据质量评价体系包含以下6个方面:规范性、完整性、准确性、一致性、时效性、可访问性。
以基础设施轨道几何检测数据为例,对数据质量标准进行详细说明:轨道几何检测数据中所有代码均按编码规范存储。轨道几何检测数据应完整包含轨距、轨距变化率、水平、三角坑、左轨向、右轨向、正矢、左高低、右高低、高程偏差、平面偏差、曲率、垂向加速度、横向加速度、通过速度等信息。在采集过程中应保证数据记录的正确性,数据之间没有歧义冲突,在规定的时间内及时采集并上传到数据库中。采集的数据不能存在无法读取、解压缩、解密、查询拷贝存储等情况。
通过建立完善的数据质量标准,一方面给予数据质量管理清晰的准绳尺度,从业务源头上消除数据的质量问题,一方面作为智能数据质量稽核功能的系统开发需求参考,实现基础设施运维数字化作业和智能运维应用。
数据资产体系建设是数据信息化的核心,关系到城市轨道交通运维企业的业务质量和效率。数据资产体系建设用于查看城市轨道交通运维企业的各数据域,识别每个数据域下各项业务的核心数据主题,明确各数据主题间的交互关系。
3.2.1 数据构成要素分解
按照数据架构设计路线,以工务专业为例对构成要素进行分解,从整体视角根据业务和数据的属性进行分析,自顶而下梳理,工务基础设施数据资产包括基础设备设施线路数据、检测数据、维修数据和运维管理数据四大要素。
以城市轨道交通某运维公司业务为例,城市轨道交通基础设施运维数据主要包括:线路基本信息、线路基础设施台账信息、土建结构台账信息。检测数据内容主要包括:动态检测、静态检查、探伤检查、土建检查。养护维修数据内容主要包括:基础设备维修、土建维修。此外数据运维支撑数据还包含了人员、物资、技术资料等。
随后在此基础之上采用面向对象的设计方法,归纳设计出工务基础设施运维数据资产构成的三级分类要素:一级要素4个,二级要素10个,三级要素61个,如图2所示。根据这些要素,构成工务基础设施运维的企业数据主题域数据视图。
图2 工务基础设施运维数据资产标准分类的构成要素
随后根据上述数据标准的分类原则、数据构成要素分析,结合自下而上的运维作业数据化分析归纳,梳理清楚企业数据架构和数据目录体系,最终形成部门的数据资源体系架构分类标准体系。
3.2.2 业务数据化
参考国际流行TOGAF架构框架进行业务数据化,自顶向下厘清各工区业务能力,梳理出各业务域的用例场景高级业务流程,针对具体的业务流程完成业务流程到数据实体的转化。首先,从业务管理角度出发分析画出概要业务流程图(图3);其次,明确业务实体并界定实体之间的关系(图4);最后,采用面向对象的方法,进一步将业务实体抽象成为数据实体,完成数据实体关系图(Entity Relationship Diagram, E-R 图)。
图3 工务基础设施运维数据资产标准分类的构成要素
图4 业务实体及其关系图
以轨道几何检测作业业务的数据化转化过程为例,按以上3步骤实施,得到轨道几何检测作业业务的数据实体。
(1)分析轨道动态几何数据检测作业的概要业务流程,检测涉及到的数据包括:工具、物料、部件/设备、个人防护用品、相关记录、检查项目、特殊天气、工作程序、记录参数、作业对象描述、人员资质、作业周期共12类。
(2)基于以上用例分析出来的业务实体,进一步分析归纳业务实体为:派工单、检测人员、作业指导书、检测设备、检测结果、分析报告。
(3)数据实体关系图。采用面向对象的方法,对业务实体抽象成为数据实体,并确定数据实体之间的关系,如一对一、一对多、多对多。基于以上方法分析检测业务数据实体为:人员、设备、物资、作业指导书、作业对象、派工单、检测项、作业记录、缺陷表。采用E-R图画出实体图并标识实体之间的关系如图5所示。
图5 业务数据化的数据实体分析过程
进一步检查和消除E-R图中可能存在的冗余,然后经过合并生成,得到业务数据实体及其关系图,至此完成业务数据化。根据E-R图中实体的属性、实体之间的关系等,建立数据模型。
3.2.3 数据血缘
数据的血缘关系是有层次的、多源的、可追溯的、有归属的。对数据进行分类、归纳、总结从而形成新的数据,不同程度的描述信息形成了数据的层次。当数据发生异常时,需要根据数据的来龙去脉和继承关系,追溯异常的原始来源。
城市轨道交通基础设施运维数据同样有明确而复杂的血缘关系。以轨道几何综合评价结果轨道质量指数(TQI)数据为例,从线路设计要素和线路基础设施数据开始,结合检测设备的采集结果,在数据清洗、矫正后可根据标准公式计算得出TQI,其数据血缘关系图如图6所示。
图6 数据血缘关系图
在数据标准体系构建好并落地后,进行存量数据的改造,筛选出有价值的数据,并改造数据使之符合数据标准规范,从而能够加载到数据资产管理平台中进行管理和应用。
3.3.1 数据核查转换
存量数据改造,首先要解决存量数据的解压缩读取、格式错误、重复、缺失和异常等问题,其次需要整理出检测数据作业采集时的相关信息和属性,第三要对需要进行编码的数据进行编码整理,并核查转换旧编码,最后要解决数据聚合时的维度关联需要,使存量数据符合数据标准和数据模型的要求。
3.3.2 主数据改造
数据改造通常被认为是发现并纠正错误数据的最后一道防线,数据改造解决了数据无效和缺失的问题,建立了冗余数据的映射关系,并且可以依据这些关系,在后续的数据处理中直接剔除问题数据。主数据改造的原则如下:
(1)对目前的主数据编码进行梳理,保留已用的,停用未使用的;
(2)从企业自身数据入手,切忌照搬照抄,保留原有企业的编码数据;
(3)属性值不完善的数据,按照编码规范进行完善;
(4)应对全部数据进行改造,保证数据完整性。
3.3.3 数据模型化
将历史存量数据根据符合数据标准规范和数据模型设计的程度,分为可模型化的数据和不可模型化的数据。对可模型化的数据,按数据模型加载到基础设施运维大数据仓库中。对不可模型化的数据,根据数据属性,在数据属性信息表中记录相应的内容后,存储原始数据文件。
数据管理贯穿在数据资产化的管理实践实施过程中,在数据资产管理中的支撑作用越来越大。因此,数据管理的落地实施,需要依托具体的软件工具来执行和支撑。
3.4.1 数据标准管理
城市轨道交通基础设施运维数据标准是一整套大数据治理所遵循的标准体系,由于使用频率较高,因此最佳方式是将标准体系以知识库的形式内置在数据中心,实现数据标准内容的创建和查询、维护管理功能。数据标准管理是实现数据标准从制定、审批、修订、发布、执行、维护、停用和废止全生命周期的标准管理。
3.4.2 元数据管理
元数据管理是企业开展数据治理工作的核心,元数据通常分为3种类型:业务元数据、技术元数据和操作元数据。
业务元数据用于定义和业务相关数据的信息,用于信息的辅助定位、理解及访问。例如在线路基础数据中,“轨距”为业务元数据。
技术元数据提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。例如,“轨距”存储在动态几何检测的数据表中,数据类型是技术元数据。操作元数据描述了处理和访问数据的细节。例如,作业执行日志、错误日志是操作元数据。
3.4.3 主数据管理
在城市轨道交通运维基础数据中,进行主数据识别时,根据明确的主数据的范围,反向进行数据的梳理与调研,输出数据实体的归属业务,识别其在各业务系统的分布情况、数据结构组成以及厘清其来源去向、质量情况等,再依据主数据的评分标准,识别、验证、确认出主数据。主数据确定步骤如下:
(1)依据主数据的特征,确定主数据识别指标;(2)依据评分标准,将评分结果80分以上数据定为主数据。
3.4.4 数据质量管理
在城市轨道交通基础设施运维大数据中,基于软件工具来实现数据质量管理,具体需要实现标准定义、质量监控、绩效评估、质量诊断、质量报告、重大问题及时告警、流程整改发起、系统管理等功能。
其中,数据质量诊断是基于数据剖析结果来审核数据质量,用来发现数据可能存在的异常和问题,为根因分析、数据纠错和错误预防提供基础。数据质量诊断主要通过数据质量评估指标来评估数据质量,发现潜在问题,实现智能数据质量检查功能和重大问题及时告警。
3.4.5 数据运维管理
运维数据管理是数据质量和长期维护的保证。城市轨道交通基础设施运维数据管理体系本质是通过建立高质量的人才队伍和严明的制度体系来确保数据标准被全面落实。数据管理方案是决定组织架构和各部门职责的标准,依据规章制度,规范城市轨道交通公司内各部门各成员的角色和职责以及管理流程。考核是保障制度落实的根本,运维部门应针对数据标准管理、数据质量管理、元数据管理等核心治理域设置相关的考核机制与指标,并与个人绩效相关联。
大数据时代,数据资产成为不可或缺的生产要素。城市轨道交通为实现智能化运维和提升服务质量,必须走上数据治理的道路。目前城市轨道交通线路基础设施和轨道运维数据仍存在数字化程度不高、缺乏数据标准、管理和应用不到位等众多问题,数据的价值难以充分显现。为促进大数据与城市轨道交通领域的结合,通过借鉴其他领域,尤其是高速铁路领域的技术和经验,充分挖掘城市轨道交通行业的数据价值,对数据资产进行分级分类,建立元数据和主数据平台,完善规章制度和管理措施。
本文基于对城市轨道交通行业、基础设施运维业务的理解,从城市轨道交通基础设施工务专业的角度自顶向下展开数据构成要素分析,结合国际流行的TOGAF架构框架对数据的管理思想,初步梳理出基础设施运维数据架构,形成城市轨道交通线路专业基础信息与轨道检测数据的数据资产,构建线路基础信息主数据标准,为发挥数据资产的价值,形成城市轨道交通的大数据治理方法提出新的思路。