王宁 柴雪松 李健超 马学志 茅宇琳
1.中国铁道科学研究院集团有限公司 铁道建筑研究所, 北京 100081; 2.中铁科学技术开发有限公司, 北京 100081
在快速发展的5G、大数据应用、人工智能等技术驱动下,铁路智能化发展已成为当前铁路行业重点推进的方向和目标。无砟轨道被广泛应用于高速铁路建设,截至2021年底,我国高速铁路无砟轨道营业里程已达3万公里,约占高速铁路营业里程的61%。业务信息系统变得愈加复杂,各种安全问题呈多元化、复杂化趋势演变。
在高速铁路智能化发展过程中,铁路轨道安全保障能力的建设被高度重视。相关铁路部门搭建了车载智能轨道巡检系统、高速车载式轨道图像巡视系统、无砟轨道表观检测小车、钢轨探伤车等多个安全监测检测系统,积累了海量的多源异构监测数据。相关业务人员利用数据驱动的知识工程与专家系统开展了数据分析,解决了诸多关键问题。但是,目前这些工作仅限于规则明确、边界清晰、封闭性的应用场景,过于依赖专家经验,难以应对大数据时代规模化应用的需求。
近年来,知识图谱技术凭借语义丰富、解释性强、结构友好等技术优势,逐渐在各垂直领域得到应用,这也为解决铁路无砟轨道的伤损数据管理提供了新的解决思路。因此,本文基于当前无砟轨道检测数据信息化、数字化存在的问题,梳理当前知识图谱的发展状况;研究无砟轨道典型伤损的知识体系,借助知识图谱的技术优势,以无砟轨道典型伤损状态评估定级实际业务需求为导向,以铁路无砟轨道检测数据为驱动,深入开展面向无砟轨道典型伤损的知识图谱设计与应用研究,对无砟轨道典型伤损特征体系的多源信息资源进行分析和整合,实现关联存储与快速检索;加强研究的前瞻性,提高典型伤损资源的使用便利水平,支持分析识别算法的训练、验证及效果评价,支撑无砟轨道及高速铁路隧道状态安全评估技术快速发展。
2012年,谷歌公司发布了知识图谱(Knowledge Graph)[1],提升了搜索引擎返回的答案质量和用户查询的效率。知识图谱是组织、存储和管理大规模信息的前沿技术,是由实体、概念、属性和关系组成的知识库,可实现对海量多源异构动态数据的展示、融合分析、组织管理以及信息关联搜索,提高一线工作人员的分析质量和工作效率。知识图谱按应用范围可划分为通用和行业领域知识图谱。
通用知识图谱采用自底向上的方式构建,数据大多为常识性知识,数据量大,覆盖面广。目前国内外多个研究机构建立了一些大规模通用知识图谱。DBpedia知识图谱[2]根据规则从维基百科中获取了538万个结构化知识三元组;Wikidata知识图谱[3]从维基百科中构建了6 600万个非结构化知识三元组;YAGO知识图谱[4]从多种数据源,获取了约4.5亿个知识三元组。
我国在知识图谱方面也取得了诸多有价值的研究成果。其中,清华大学融合中英文维基、百度百科和互动百科,对各项知识进行结构化和跨语言链接,构建了第一个大型中英文知识图谱XLore[5];上海交通大学融合百度百科、互动百科及维基百科三大中文百科,抽取结构化数据构建了中文通用知识图谱zhishi.me[6]。此外,百度知心、搜狗知立方以及复旦大学的图数据管理实验室也相继推出了中文知识图谱。这些知识库规模较大,涵盖范围广,可提供智能搜索服务。
行业领域知识图谱是为了辅助专业领域复杂分析应用而单独构建的图谱,一般采用自顶向下的方式构建,有严格和丰富的数据格式,具有领域性和精准度,涵盖的实体具有较多的属性且能匹配实际业务意义,广泛地应用于医疗、金融、电商、教育、科研、军事等垂直领域。
随着大数据和人工智能在铁路上的业务开展,知识图谱开始在铁路领域中广泛应用。董兴芝[7]提出面向智能高速铁路安全保障的“知识图谱+事件图谱”双谱融合的知识图谱顶层架构,为构建铁路全域知识图谱提供了理论和技术支持。李欣等[8]为了实现铁路调度应急预案数据的规范管理和有序存储,构建了铁路调度应急预案知识图谱;郭婧娟等[9]运用知识图谱的方法系统梳理了轨道交通领域中建筑信息模型(Building Information Modeling,BIM)技术的应用研究现状。
翁湦元等[10]基于知识图谱技术,构建了延伸服务产品知识图谱。王普[11]构建了高速铁路应急大数据知识图谱,设计了面向云服务的高速铁路应急平台总体框架。杨连报等[12]应用文本大数据技术,实现基于Elastic的非结构化事故故障文本数据的存储与检索。彭丽宇[13]针对铁路货运运营风险结构化和非结构化数据,构建风险知识库体系。
知识图谱技术在垂直领域的成熟应用为构建面向无砟轨道表观典型伤损的知识图谱积累了丰富的可借鉴经验。
无砟轨道伤损信息中蕴含大量轨道交通领域的专业名词,领域性强,但是结构物伤损描述和认知标准不统一、数据之间的时空信息不同步、跨专业数据融合分析困难等问题增大了多源海量数据协同分析的难度;数据传输存储管理和分析应用模式仍以人工转储、单一存储管理、单项数据分析为主,效率低下,及时性差;各类设备操作规程、事故预案、监控处置方式等大量文本形式的知识均需进行记忆和查询,执行效率较低,且操作经验难以共享和传承,故障处理的精确性和规范性很难得到保证。
为了解决无砟轨道伤损特征库认知不统一、海量伤损样本组织与检索困难等问题,在知识图谱的整体架构和构建技术基础上,基于本体元素定义-数据筛选清洗-图像获取标注-图像存储及知识检索的构建流程,建立了高速铁路无砟轨道典型伤损图谱。其中,本体元素定义是通过本体构建层次结构,提前将知识图谱体系化;数据筛选清洗即对数据进行挑选、格式冗余处理;图像获取标注是从检测系统中获取有用的图像数据并标注处理,获取编码文件;图谱存储是以图的形式将知识图谱存储在图数据库中,知识检索是指实现对伤损的管理和快速检索。
无砟轨道伤损知识图谱主要分为模式层和数据层,如图1所示。
图1 无砟轨道伤损知识图谱的构建
模式层首先划分本体体系,搭建知识图谱框架,结合我国高速铁路无砟轨道现行规范、运营实际情况,研究无砟轨道伤损分类特征,对无砟轨道伤损信息中每个部件和伤损的属性、结构进行规范化定义,确定无砟轨道和伤损标准化名称,从而形成定义准确、结构清晰的无砟轨道伤损概念框架。
数据层根据数据标注策略对获取的图片数据进行清洗和标注,并将标注数据映射到构建的无砟轨道伤损知识本体概念节点中,建立实体关联关系,实现模式层与数据层之间的映射。最后,利用图数据库有序存储数据,并设计实现数据库的快速检索,实现无砟轨道伤损知识图谱的构建。
通过调研各铁路局站段关于无砟轨道及部件伤损的描述,梳理工务安全生产管理系统中的伤损名称,根据无砟轨道输入对象数据的类型、规模等信息完成业务建模。之后明确数据来源,结合现行标准规范中无砟轨道结构及部件的定义和命名规则,研究确定无砟轨道结构及部件标准化命名、典型伤损规范化名称及各级伤损规范化描述,明确海量异构数据的处理方式。
编码是对编码对象的属性进行规则化的过程。针对编码对象的不同存在形式和不同结构类型的属性信息,根据编码规范,可生成编码文件。
编码结构可完全描述编码对象的所有属性,共4组11级若干字段。4组指的是字典码、特征码、信息码和图像码。11级指的是对象种类、对象名称、对象类型、对象类别、对象位置、定位信息、属性特征、病害等级、顺位信息、检测信息和图像信息。若干字段根据典型结构物类别各自采用具体不同的定义。无砟轨道衬砌对象标准码的组成架构见图2。无砟轨道节点属性见表1。
表1 无砟轨道节点属性
图2 无砟轨道衬砌对象标准码组成架构
1)对象种类:包括无砟道床、钢轨、扣件、无砟轨道设施。
2)对象名称:主要包括裂缝、离缝、缺损、粉化、移位、钢棒窜出、翻浆冒泥、失效、失稳、磨耗、压溃、压陷(或凹陷)、波浪磨耗、接触疲劳裂纹(剥离裂纹)及其引起的掉块和疲劳断裂、缺失、损坏、移位等。
3)对象类型:横向裂缝、斜向裂缝、预裂缝、八字裂缝、竖向贯通裂缝、龟裂纹、裂损/龟裂掉块、反射裂纹、拉裂、接缝离缝、砂浆层离缝、锚穴封端离缝、挡肩缺损、局部破损、上拱、弹条缺失等。
4)对象类别:CRTSⅠ型板式无砟道床、CRTSⅡ型板式无砟道床、CRTSⅢ型板式无砟道床、双块式无砟道床、道岔区轨枕埋入式无砟道床、道岔区板式无砟道床、50 kg/m钢轨、60 kg/m钢轨、75 kg/m钢轨、WJ‐7型扣件、WJ‐8型扣件、W300‐1型扣件、SFC型扣件等。
5)对象位置:预应力轨道板、普通轨道板/道岔板、轨枕/岔枕、混凝土挡肩、凸形挡台、底座、水泥乳化沥青砂浆层、凸形挡台周围填充树脂、板间接缝、支承层、底座板、侧向挡块、自密实混凝土充填层、道床板、轨枕界面、找平层、钢轨全长、轨身局部区域、夹板接头、弹条、螺栓等。
6)定位信息:包括铁路局名称、工务段名称、线路名称、线路区间名称、线别、行别、地段、轨道板编号、线路里程、相对里程、轨枕信息号、轨道板侧、轨侧、距线路中线距离、距轨道中线距离等。
7)属性特征:包括平均宽度、最小宽度、最大宽度、指定点宽度、宽度等级、长度、深度、面积、面积比、形态、与轨道方向夹角、变形、影响范围、弦长、幅值等。
8)病害等级:包括伤损等级、伤损关注程度、是否新增、是否发展、是否整治等。
9)顺位信息:主要包括节段编号、通道号、伤损顺位号、样本顺位号。
10)检测信息:主要包括检测设备、检测时间、检测人员。
11)图像信息:主要包括图像高度、图像宽度、图像通道数、像素尺度、图像类型、图像格式、图像名称、编码文件名称、标注文件名称、左上坐标x、左上坐标y、伤损长、伤损宽、伤损像素坐标等。
编码文件包括编码对象的样本图像和属性文件。命名方式为:检测时间_无砟轨道编码_对象名称_对象类型_序号_图像类型.后缀。
无砟轨道知识图谱数据层是由实体-关系-实体三元组知识构成的,其主要工作包括数据获取与标注、知识存储、知识检索等。对已有无砟轨道数据进行标注;通过构建命名实体,获取无砟轨道关键实体和关键信息构成三元组知识;按照模式层定义好的概念框架,将三元组知识联结起来并存储到图数据库中,实现知识的快速检索,最终形成无砟轨道典型伤损知识图谱。
Synergy HT酶标仪(美国BioTeK公司);Mini-PROTEAN Tetra蛋白电泳仪、Trans-Blot SD半干转膜系统(美国Bio-rad公司);Direct-Q超纯水仪(美国Millipore公司);5417R高速冷冻离心机(德国Eppendorf公司);IKA T18 basic匀浆器(德国ULTRATURRAX公司);AX70显微照相系统(日本Olympus公司);ImageQuant LAS 4000全自动图像分析系统(美国GE公司)。
1)数据获取与标注
无砟轨道典型伤损知识图谱数据是基于海量高清图片及典型病害样本的,其中钢轨和扣件数据主要来源于综合巡检车、钢轨探伤车GX‐3型轨道巡检系统等,无砟道床表观伤损的数据来源于手推运行式和电驱动运行无砟道床表观状态智能检测设备。此外,还包括人工现场作业手动拍摄图片。无砟轨道表观伤损及钢轨扣件伤损的典型图谱见图3、图4。
图3 无砟轨道表观伤损典型图谱
图4 无砟轨道钢轨扣件伤损典型图谱
基于无砟轨道伤损图库的组织架构,对于获取的图片数据,根据标注规范,采用人工或程序半自动的方式标注成一组标注文件。标注是对编码对象图片进行统一标识的过程,最终实现无砟轨道海量伤损图像的高效标注及处理,构建无砟轨道表观典型伤损图谱。该标注处理过程中对编码对象图片进行精细化、目标化、字符化、结构化的标注处理,生成的标注文件包含了编码对象图片所有的标注内容。标注内容通常以不同结构和文件形式存在,但是都通过标注文件进行索引关联,以此实现通过编码文件来索引全部编码对象的属性及标注数据。
无砟轨道表观伤损标注类型包括裂缝、离缝和缺损。裂缝、离缝的标注采用像素点涂覆的方式,根据边缘特征和像素数量确定笔触宽度,标注内容为像素坐标、骨架坐标及外接矩形。缺损(掉块)的标注采用闭合多边形的方式,标注内容为顶点坐标及外接矩形。对于不同对象采用类别索引进行区分,对于非矩形框标注的对象,使用不同颜色进行示意,见图5。
图5 无砟轨道表观伤损标注示例
钢轨扣件伤损标注时,通过Labelimg专用标注软件,在钢轨伤损区域进行拉框标注。伤损类别按照实际情况标注。
对样本图片进行标注后,由于标注程序各异,标注文件格式包括JSON格式、XML格式、图片格式、特定像素值灰度图片或者任意自定义格式,编码文件通过图像码的字段与标注文件进行关联。
2)知识存储和检索
海量无砟轨道表观伤损知识图谱数据样本存储需要借助优秀的数据库平台,完成数据的安全、完整和快速存储,实现高效组织与检索。
基于B/S架构,建立了包含伤损属性、图例组织形式、存储结构等信息的无砟轨道病害图谱数据库结构框架。数据库服务器采用多线程、空间占用小、存储量大、安全性高的MySQL数据库系统。根据编码将数据存入数据库中,然后对图谱相应字段构建索引。数据搜索接口可实现按照索引类别对知识图谱数据和文档类数据进行快速检索。设计数据库框架,以支撑数据处理、数据统计与分析以及数据的高效检索,实现对无砟轨道伤损图谱结构化数据的索引构建、检索结果展现及集中存储与管理。
如图6所示,本文实现的无砟轨道表观伤损图谱数据库管理平台通过Web 服务器、数据库服务器、图像处理工作站和磁盘阵列存储设备协同工作,从而实现对病害图谱样本的安全统一存储、查询及统计等。
图6 数据库平台搭建
3)知识图谱的应用
智能识别算法优劣依赖于样本的数量和特征分布。目前该系统可以识别病害,但是识别精度还有待提高。随着高速铁路无砟轨道典型结构物病害图谱的研究以及海量病害特征库的建立,可利用更深层的深度学习网络,进一步提高识别精度和效果。
重点针对养护维修人员对无砟轨道伤损结构物及其伤损的命名不规范、认知标准不统一,以及检测监测数据种类繁多且规模大、存储不规范等问题,通过对国内外知识图谱的调研和分析,本文采用知识图谱构建方法,打通数据壁垒,建立了高速铁路无砟轨道典型伤损图谱。研究了高速铁路无砟轨道伤损特征库海量图片获取、标注、存储、高效组织与快速检索技术,完成了模式层和数据层的体系构建,实现海量异构多源数据的协同分析、规范管理、有序组织存储及应用,充分挖掘和发挥海量无砟轨道检测监测数据在铁路基础设施管养修过程中潜藏的巨大价值
铁路无砟轨道伤损特征库涉及的信息种类繁多、类型复杂,今后还需对无砟轨道伤损特征库数据关联性开展深入研究,以提高铁路无砟轨道伤损特征库自主学习、关联性分析水平,为铁路无砟轨道伤损状态评估和定级提供更加完备、有效的决策参考。