林海香, 胡娜娜, 何 乔, 赵正祥, 白万胜
(1. 兰州交通大学 自动化与电气工程学院, 甘肃 兰州 730070;2. 兰州交通大学 四电建筑信息模型工程与智能应用铁路行业重点实验室, 甘肃 兰州 730070;3. 贝尔福-蒙贝利亚技术大学 信息学院,贝尔福 法国 90000)
随着我国高速铁路网的快速发展[1],高速铁路运营现状呈大运量、高速度、高密度等特点。铁路信号设备作为高速铁路安全可靠运营的核心设备,具有结构复杂、各设备内部构件之间的关联性强等特点,传统以现场人员密集型作业为主的运维模式逐渐难以适应现有复杂运维场景下的故障高效分析与处理。近年来,建筑信息模型(building information model,BIM)在铁路行业得到了广泛应用。在运维管理阶段,BIM 主要用于支持运维工作流程的自动化,如铁路四电BIM 工程设备管理系统构建了朔黄铁路全生命周期管理的基础设施智能运维技术体系[2],有效增强了运维信息交互和模数共享能力。尽管BIM为信号设备运维信息管理提供了媒介和技术,通过建模获得的表征数据可反映设备实体之间的结构特征,但不能精准映射其行为规律和相互之间互馈作用的机理,尤其是当获得的表征数据不够完备、不够精细、不够准确、不够及时的时候,须同时依靠模型知识进行推断[3]。因此,如何将BIM 可视化三维图像数据和专家经验知识及运维文本数据有机集成融合,实现数据的多维呈现,对提高铁路信号设备运营维护效率具有十分重要的意义。
知识图谱(knowledge graph,KG)作为表示结构化知识的描述框架,能够以简洁的形式表达描述性数据和实例数据。目前已被广泛应用于电力[4]、航空[5]、医疗[6]、金融[7]等各大领域。在铁路领域,文献[8-9]以铁路信号设备相关文本数据为研究对象,研究相关知识抽取、知识融合技术,为基于知识图谱的各类应用提供数据支撑,但并未将这些知识进行高效的组织管理以服务于高速铁路故障诊断、智能运维等下游应用。文献[10]构建面向列控车载设备的故障知识图谱,为车载设备故障智能维护提供支持。文献[11]使用基于知识图谱的拓扑分析来探索铁路运营事故。文献[12]以英国铁路事故报告为研究对象,建立面向铁路安全事故的知识图谱进而应用于铁路风险评估。上述研究均为单一文本信息来源的单模态数据驱动的方法,对铁路数据中可挖掘的信息量存在一定局限性,并不能满足铁路设备运维高质量需求。 多模态知识图谱(multi-modal knowledge graph,MMKG)可以在传统知识图谱的基础上嵌入多种模态的实体[13],并构建多模态实体间的语义关系,实现数据-模型-知识的集成融合与可视化。例如Xiong 等[14]针对甲骨文信息处理构建了多模态知识图谱,该MMKG能够更好地组织和管理基础数据,为甲骨文信息处理研究服务。Fan等[15]通过本体驱动的方式,构建了集音频、文本、图像为一体的中国戏曲多模态知识图谱,为用户提供多维交互。上述研究说明,通过构建多模态图谱可实现多源异构数据的高效组织管理与应用,且能取得比单模态图谱更优的效果。
综上,本文从实际应用出发,提出基于BIM和数据驱动的铁路设备运维多模态知识图谱构建方法。首先利用已有的铁路信号设备运维文本数据,构建运维文本知识图谱;接着以铁路四电BIM 工程设备管理系统获取的图像模态数据为研究对象,构建卷积神经网络(convolutional neural networks,CNN)-团组图卷积神经网络(clique group graph convolutional neural networks,cgGCN)模型对BIM图像数据进行信息标注;最后将图像信息以视觉模态嵌入到运维文本知识图谱中,完成BIM 图像数据与运维文本数据的集成融合,构建铁路设备运维多模态知识图谱,为后续现场铁路运维人员实施安全管理和运维决策提供在线服务和指导。
本文提出的铁路信号设备运维多模态知识图谱构建总体框架如图1 所示,主要包括运维文本知识图谱构建、铁路设备BIM 图像模态知识抽取以及多模态知识图谱构建及可视化展示与应用。
图1 铁路设备运维多模态知识图谱构建总体框架Fig. 1 Overall framework of multimodal knowledge graph construction for railway equipment operation and maintenance
由于铁路信号设备运维数据具有强专业性,故采用自顶向下与自底向上相结合的方法构建知识图谱。首先根据不同类型数据的结构化特征,自顶向下形成对应的概念节点和关联关系,然后自底向上构建相应的数据层,利用知识源之间的数据冗余性进行知识抽取,文本模态的知识抽取操作主要包括实体、关系抽取和知识融合。
首先,针对铁路信号设备非结构化运维文本数据命名实体识别任务识别精度低、识别不全问题,采用 BERT-BiLSTM-CRF (bidirectional encoder representations from transformers-bi-directional long short-term memory-conditional random fields)模型进行实体抽取:由BERT 将文本数据转为字符级嵌入向量,送入BiLSTM 提取上下文特征信息,CRF 学习标签之间的内部关系以获取最优标签序列。然后,基于BERT-CNN 模型进行关系抽取,将文本数据送入BERT 中进行编码生成词向量,然后送入CNN 中进行训练,最后添加全连接层和softmax 层抽取出目标实体之间的关系。由于运维文本数据记录方式存在差异,对同一设备、故障现象、处理措施等内容的描述不同,导致知识重复抽取,例如“密贴检查器”和“密检器”实际为同一设备实体。为避免知识图谱中构建重复节点,本文基于铁路信号设备运维数据中的实体构建词典,针对抽取实体采用cosine相似度算法在词典中进行实体匹配,将抽取实体链接到对应实体上。
最后,将非结构化的源文本数据转化为结构化的知识三元组数据并存储至Neo4j 图数据库,完成运维文本知识图谱的构建。
铁路领域存在诸多专有名词,在实际运维环境中,基于BIM 的铁路信号设备运维平台可对信号设备进行三维几何信息的可视化。将此类BIM图像模态数据表征和关联在知识图谱中,能更直观形象地显示铁路设备内部的上下游关系,实现故障发生后的快速定位。对于BIM 图像模态数据,本文借助计算机视觉处理技术进行表征,其流程如下所述。
1.2.1 自适应图的构造
为了从输入的铁路设备BIM图像中自动学习具有代表性的图数据,将原始图像送入CNN进行自适应图的构造,过程如图2所示,具体工作机理如下。
图2 自适应图的构造过程Fig. 2 Process of adaptive graph construction
首先给定输入的铁路设备图像I∈RH×W×3,H和W分别为图像高度和宽度,采用CNN 网络对其进行高维特征的学习,由卷积层和池化层生成多通道的特征图Im∈RH′×W′×C(H′<<H和W′<<W),H′和W′分别为特征图的高度和宽度,C为通道数。接着将多通道特征图中相同空间位置的像素拼接起来,形成特征向量,该向量被视为一个图节点,代表原始图像中的一个空间区域。最后将多通道特征映射调整为节点嵌入矩阵X∈RN×C,其中N为节点数。基于节点嵌入,由k 近邻法(k-nearest neighbor,kNN)根据节点特征之间的距离生成边来构造图。
kNN 中评价两个节点之间相似度的距离函数D(·,·),计算方式为
其中:vi和vj分别为第i和第j个节点嵌入,i,j∈{1,2,···,N}。然后,选择离每个节点最近的k个节点作为相邻节点。
图的边可以计算为
其中:如果图中第i和第j个节点之间有边连接,则为eij=1,eij=0则为无边连接。
由于自适应图的构造嵌入到整个图像分类模型框架中,因此在训练过程中,节点特征和边缘连接都会随着整个网络的优化而更新。因此,图可以自适应更新和构造,随后图卷积网络可以学习更有效的图表示进行分类。
1.2.2 cgGCN
对构建的图数据进行图卷积,进一步学习铁路设备图像的空间特征。采用cgGCN 替代传统的GCN,以捕捉节点间强大的空间相关性,学习有效的空间特征用于分类任务。
(1) cGCN
cGCN 通过循环反馈网络(Clique Net)最大化信息流,进而有效重用高维图像特征,引导分层特征的细化。具体过程如图3 所示。cGCN 有三个图卷积层,任意两层之间都采用反馈和反向连接。特征传播过程可分为两个阶段,即阶段I和阶段II。
图3 cGCN结构示意图Fig. 3 Illustration of clique graph convolution structure
在阶段I 中,输入层通过单向连接初始化所有层。更新后的层被串联起来以更新下一层。cGCN正向传播中第i层的图卷积可以表示为
其中:X0为cGCN 的输入;为阶段I中第i个图卷积层的输出;Wij为连接第i层和第j层的权值矩阵。
在阶段II 中,各层开始交替更新。除了顶层待更新外,所有的图卷积层都作为底层串联,对应的参数也进行串联。cGCN的反馈过程可以表示为
其中:表示阶段II中第i个图卷积层的输出。
具有f维节点特征向量的cGCN 输出图表示Yout∈RN×F可以表示为
其中“{}”表示将向量进行拼接。
(2) gGCN
利用gGCN 来减少冗余信息,并在相邻层之间的特征传播过程中进一步隐式地选择更优的特征表示。其结构如图4所示。cgGCN中gGCN的工作原理描述如下。
图4 gGCN结构示意图Fig. 4 Illustration of group graph convolution structure
首先,Ginput表示gGCN的输入,将其分成两个子图G1和G2,分别经过图卷积运算后产生线性图特征G′1和G′2,计算过程如式(6)所示:
其中:b1和b2分别是图卷积运算过程对应的偏置。
然后,用得到的G′1和G′2计算经BN+ReLU 模块产生的非线性图特征G″1和G″2,计算过程如式(7)所示:
式中:BN 和ReLU 分别表示批量归一化和ReLU 激活函数。
接着,由GConv(Group Conv, 分组卷积)和Tanh 激活函数结合成门控机制,输出G′1g和G′2g,计算过程如下:
式(8)中:b1g、b2g分别为图卷积运算过程对应的偏置。计算融合特征Gfu为
其中:“·”表示元素的乘积。逐元素相乘可避免维数增加,降低后续计算的复杂性,同时可有效捕捉两个子图之间的复杂特征交互,以学习高级特征表示。
最后,gGCN的输出图表示Goutput计算为
其中:α,β和γ是可训练的权重变量。
gGCN 可以简化学习过程,从而细化节点特征的学习,增强图表示固有的多样性,使学习特性更具鲁棒性。此外,gGCN 还实现了对偶分支中不同信息的选择和融合,生成丰富的图表示。
(3) 图像标签预测
将cGCN 和gGCN 学习到的特征送入图池化层,通过全连接层对输出进行整合,随后采用softmax实现图像标签预测。
铁路设备图像数据集来源于铁路四电工程BIM设备管理系统,共计2 135 张,如图5 所示为信号机BIM图像。为避免模型出现过拟合问题,对图像进行旋转、水平翻转等数据增强操作,形成包含4 270张图像的数据集,以8:1:1的比例随机划分为训练集、验证集和测试集,通过EasyData智能标注工具对训练集数据进行标注。模型性能评价指标[16]为准确率、精确率、召回率以及精确率和召回率的调和平均值F1。
图5 BIM图像示例Fig. 5 Example of BIM image
本文实验环境如表1 所示,经多次实验确定的部分参数如表2所示。
表1 实验环境及配置Tab. 1 Experimental environment and configuration
表2 实验参数设置Tab. 2 Setting of experimental parameters
为验证本实验所提出的模型在铁路设备图像数据集上分类的有效性,将CNN-cgGCN 与ResNet50[17]、 CNN-SAGEConv[18]、 CNNGATConv[19]、CNN-tGCN[20]、CNN-cGCN 和CNNgGCN 进行比较。由于cgGCN 输入的图是基于自适应图构造模块构建的,为便于比较,将所有基于图卷积的算法都嵌入到CNN-GCN 框架中,网络层数与cgGCN相同。实验结果如图6所示。
图6 不同模型图像分类结果Fig. 6 Image classification results of different models
实验结果表明,CNN-cgGCN 算法优于ResNet50、 CNN-SAGEConv、 CNN-GATConv、CNN-tGCN、CNN-cGCN 和CNN-gGCN 等所有比较算法。下面对实验结果进行具体分析:
(1) 基于CNN-GCN 框架的所有算法在所有指标上的性能都优于基线模型ResNet50,说明CNNGCN框架的有效性,因为图卷积网络能够从相应的铁路信号设备BIM 图像中学习各构件间的空间信息,从而提高分类性能。
(2) 与CNN-tGCN 相比,CNN-cGCN 在分类准确率、精确率、召回率和F1 值上分别提高了2.34 %、2.30 %、2.10 %和2.33 %,表明cGCN 中的循环反馈机制能够有效提高图卷积的性能。与此同时,CNN-gGCN 的结果优于CNN-tGCN,因为gGCN 将原始图划分为两个子组,然后分别提取各分支特征和融合特征,获取不同的图信息,同时还隐式地执行特征选择进而减少冗余信息,提高图卷积的分类性能。
(3) 与CNN-cGCN 相比,CNN-cgGCN 分类准确率提高了4.04 %,表明cgGCN 中的gGCN 可以通过图卷积简化学习过程,从而细化节点特征,使学习的特性更具鲁棒性。此外,gGCN 还可以选择和融合各分支中的不同信息,生成丰富的图表示,提高分类性能;与CNN-gGCN相比CNN-cgGCN模型分类准确率提高了3.03 %,表明cgGCN中的cGCN通过循环反馈机制能够最大化信息流,获得更优的特征表示,提高分类性能。综上,CNN-cgGCN分类性能最好,证明将cGCN 和gGCN 结合用于铁路设备BIM图像处理的优越性。
基于所述方法,首先抽取铁路设备运维文本中的知识,以三元组形式存入Neo4j图数据库,实现铁路设备运维文本知识图谱的可视化展示。接着通过BIM 图像模态知识抽取获取对应信号机、自动开闭器、齿轮组、电动机、锁闭器等20种铁路设备零件图信息,然后令图像信息以视觉模态嵌入到运维文本知识图谱中,直观准确地反映信号设备信息之间的内在联系。另外,考虑在不同环境下各设备工作的可靠性和安全性,将转辙机、信号机等设备零部件实体节点所处的自然环境以及应用环境等相关信息作为附加属性添加。部分铁路设备运维多模态知识图谱可视化展示如图7所示。
图7 铁路设备运维多模态知识图谱Fig. 7 Multimodal knowledge graph for operation and maintenance of railway equipment
铁路设备运维多模态知识图谱的决策辅助功能包括查询分析和运维决策措施反馈。通过知识检索和图计算实现,知识检索能够在知识图谱中快速获取运维决策者所需的信息,从而形成结构化的知识结果并反馈给运维决策者。图计算利用图分析算法对知识图谱进行分析,获得更深层次的设备运维决策规则。
为进一步对比多模态数据为铁路信号设备运维图谱带来的跨模态检索和查询能力,将本文构建的多模态知识图谱与去除BIM图像模态的知识图谱进行对比。表3为不同模态知识图谱在运维过程中的故障处置表现对比。
表3 不同模态图谱对比Tab. 3 Comparison of different modal knowledge graphs
由表3 可看出,尽管构建多模态图谱将花费更多的时间,但在单次知识检索耗时方面并没有太大差距。在实际场景中,由于知识图谱通常是预先构建完成,并不对信号设备故障处置任务的执行造成较大影响。而从完成故障处置任务耗时方面来看,多模态知识图谱将起到较大辅助作用,其跨模态检索能力可实现故障部位的快速定位,有效缩短故障维修耗时,提升运维决策准确率。
如图8,以包含多模态数据进行知识检索和运维决策措施反馈为例,介绍运维多模态知识图谱的实际应用流程。在运营过程中信号设备发生故障后,发出包含图像和文本模态数据的报警信息,文本信息为“6号道岔尖3转辙机故障”,经知识抽取得到关键实体{故障部位:转辙机},对图像信息先定位目标对象后提取图像特征,与铁路设备运维MMKG中的图像实体进行相似度计算,确定图像对应的实体名称为“自动开闭器”,由此可快速将故障部位定位到转辙机内部的自动开闭器,同时采用Neo4j Cypher在MMKG中进行查询,返回自动开闭器对应相关实体的关联属性信息,得到其对应的历史故障记录及维修措施等运维知识。最后,运维人员在进行故障维修时,选用检索推送出的历史运维决策措施作为维修依据,并结合现场状况进行维修决策,提高运维决策效率和维修效果。
图8 铁路设备运维多模态知识图谱的应用流程Fig. 8 Application process of multimodal knowledge graph of railway equipment operation and maintenance
(1) 基于非结构化运维文本数据,首先构建BERT-BiLSTM-CRF模型进行实体抽取,由于抽取实体中存在“多词一义”问题,故经余弦相似度算法进行实体消歧,然后构建BERT-CNN模型抽取实体间的关系。最终将源数据转化为知识三元组数据构建运维文本知识图谱;
(2) 以铁路设备BIM 图像模态的数据为对象,采用CNN-cgGCN模型对铁路设备BIM图像进行分类,得到20 种铁路信号设备零件图类别,经对比实验分析,说明将该模型用于铁路领域图像模态数据知识抽取的有效性;
(3) 将BIM图像信息以视觉模态嵌入到运维文本知识图谱中,最终构建铁路信号设备运维多模态知识图谱并进行可视化展示,完成BIM 图像数据与运维文本知识的集成融合,直观地映射各设备的行为规律和相互之间互馈作用的机理,同时通过知识检索和图计算可快速获取运维决策者所需的信息,辅助运维人员进行运维决策。
本文是从自然语言处理角度出发,通过构建铁路信号设备运维多模态知识图谱实现BIM图像模态数据与运维文本数据的多维呈现,实质是知识图谱的补全。后续在本文所构建的多模态图谱的基础上会添加更多如音频、视频等模态的数据进行扩充,并且会对多模态信息融合进行研究,将尝试更多先进的方法提高图谱构建质量。在图谱应用方面,未来将结合图神经网络以探究运维图谱自动补全生成的可行性。
作者贡献声明:
林海香:数据收集,方案设计,建模思路。
胡娜娜:知识图谱构建,初稿撰写。
何 乔:数据分析,论文修改。
赵正祥:实验结果可视化。
白万胜:数据整理。