基于知识图谱的穿越钻机故障知识库构建研究与应用

2022-05-23 00:44
安全、健康和环境 2022年5期
关键词:知识库钻机图谱

孙 亮

(中石化石油工程建设有限公司,北京 100020)

0 前言

近年来,随着我国原油、天然气管道建设进入快速发展期,对于先进穿越钻机设备的需求也逐渐增加。穿越钻机一次性工作周期长、穿越地质情况多变,且现场操作人员专业知识参差不齐、故障检测手段有限,导致穿越钻机在复杂施工过程中容易出现故障。这些故障信息、监测信息和维修信息等数据之间相互关联,存在比较复杂的关系。如何将运行维护数据与过往故障数据以及穿越钻机设备的相关文本手册信息结合,实现对数据的有效管理和应用,有助于现场技术人员快速、全面地掌握故障的关键信息,及时为钻机设备的故障处理提供相应的辅助决策[1],对穿越钻机设备的运行维护和故障维修具有重要的意义[2]。

基于知识图谱的穿越钻机知识库,通过对经验领域、操作规范、规则进行知识建模,是实现知识驱动智能维护的重要手段之一[3-4]。本文针对穿越钻机故障处理业务,设计钻机故障领域知识图谱的构建框架,通过对实际操作过程中各类规定、维修经验进行知识抽取和融合,形成基于语义关系网络的判断方法,初步实现对穿越钻机设备知识的有效管理和应用,同时为故障数据知识信息的获取提供一种新的储存、组织、管理和更新手段。

1 故障处理领域知识图谱研究现状

2012年,Google公司正式提出知识图谱的概念,并作为搜索引擎以提升用户查询信息的准确率和质量。知识图谱的实质是揭示现实世界中实体之间的语义关系网络[5],可以对某一学科的未来发展进行评估描述,也可以挖掘相应实体概念关系,帮助决策者做出合理决策[6]。知识图谱分为通识知识图谱和领域知识图谱。通识知识图谱主要包括DBpedia和Wikidata[7]等,领域知识图谱关注的则是某一领域的知识,主要集中在医学、电影、英语领域,包括IMDB、SIDER等。

由于知识图谱在知识融合方向上的优势,一些专家将其应用于故障诊断分析,借此提高故障诊断的效率,并对设备维护领域的知识图谱进行了初步探索与应用。Lu等[5]研究了多源数据的工程机械设备故障领域的知识融合技术,提出一种基于数据驱动的知识图迭代自动构建方法,并用于辅助故障检修。刘瑞宏等[8]构建了电信领域的知识图谱智能诊断系统,实现了对零散的专家经验、案例知识和故障数据的有效关联,并通过知识图谱推理技术,辅助解决网络运维领域的故障问题。李乐乐等[9]利用知识图谱和SQLite数据库构建了飞机维护维修知识库,有效提高了维修信息的存储和搜索能力。刘鑫[10]采用本体建模的方法,将知识图谱用于故障诊断领域,结合Neo4j图数据库的可视化和SpringBoot编程,实现了故障信息动态检索,提高了故障诊断知识的利用率和共享程度。赵倩[11]根据历史数控设备故障知识的积累、组织和共享,提出了一种针对数控设备故障领域的垂直知识图谱构建方法,用于辅助数控设备故障诊断。

上述学者均利用知识图谱辅助故障诊断,为故障知识图谱的构建与应用研究提供了理论基础。然而,穿越钻机设备规模庞大、结构复杂、涉及到的知识众多,其设备应用场景较为特殊,国内对于穿越钻机故障诊断还停留在经验阶段,大量故障数据难以得到有效利用,因穿越钻机损坏而导致的施工延误时有发生。使用知识图谱将分散的知识关联形成一个有机整体,打破数据的壁垒,充分地发挥领域故障数据价值,可为现场的维检修人员提供知识支持和辅助决策,有助于及时恢复生产活动。

2 故障知识库框架

知识图谱的构建方式通常分为自顶向下和自底向上两种方式[12]。自顶向下是指先构建模式层,然后根据模式层指导实体和关系的抽取,适用于具有明确知识范围的领域知识图谱构建;而自底向上则是指从底层实体归纳出概念,然后逐渐往上抽象形成顶层概念,适用于知识覆盖范围较广的通识知识图谱。穿越钻机故障知识库基于具体业务逻辑和需求,用来解决行业领域存在的复杂问题,是典型的领域知识图谱,因此采用自顶向下的知识图谱构建方式。其框架包含数据层、知识图谱构建层、信息检索层3个层面,如图1。

图1 故障领域知识图谱构建流程

数据层:以结构化数据、半结构化数据和非结构化数据作为数据源。结构化数据包括设备运行数据、设备维修数据、施工环境数据等可被计算机直接识别的数据信息。半结构化数据和非结构化数据包括设备操作规程、故障分析报告、故障处置预案、日常维护记录等以文本为载体的数据,这类数据的形式具有一定的主观性[13]。

知识图谱构建层:借助于自然语言处理技术包括知识抽取、知识加工、知识融合技术,提取数据中的设备知识要素,并消除知识间存在的歧义,确保知识要素的质量。最终将抽取得到的知识要素整合、提炼、评估,导入到图数据库中实现知识的存储与管理。

信息检索层:通过构建好的知识图谱,可实现故障知识的智能检索和知识的可视化,为现场的钻机运维人员提供辅助决策支持。

3 穿越钻机故障知识库构建

3.1 故障知识本体构建

在知识图谱中,本体建模是指对概念建模的规则,对客观世界的抽象描述,是针对概念及概念间的联系以形式化的方式给出的明确定义[14]。本体构建包括实体类型的确定和关系类型的确定。概念是指不同实体的类别,例如设备的部位、故障模式、维修数据和管理数据等;属性则是实体所具有的属性,是与其他实体区别的特征,不同的实体具有不同的特征,例如故障因素、故障名称、故障类型等。概念与属性如表1所示。

表1 穿越钻机故障领域核心概念与属性

关系反映的是两个实体之间的联系。故障领域知识图谱不仅包括实体间属性关系,还包括事件顺承、条件因果关系[15]。研究已有的故障案例,对概念之间和概念与实体之间的关联关系进行分析,形成穿越钻机故障实体关系模型图,如图2。为直观地理解概念间的关系,使用带有箭头指向的线表示关系,箭头首端代表部分概念或动作的实施方,尾端代表整体概念或动作的承受方,箭头中部的菱形图案表示首尾实体间存在的关系,方形图案代表概念,圆形图案代表属性,灰色图案表示对应的知识要素未提取。

图2 穿越钻机故障知识图谱实体关系模型

3.2 故障知识抽取

3.2.1 实体抽取

采用机器学习的方法,从数据源中自动或半自动地抽取实体。将原始数据中的部分数据标注作为训练集用于训练实体抽取模型。典型的实体抽取方法有隐马尔可夫模型[16]和BiLSTM模型[17]。因BiLSTM模型对文字字符数据有较好的识别效果,故用于实体抽取,主要步骤有数据标注、模型训练、测试和评估。

采用BMEO实体标注方法,向语料中的字符添加其所在的实体位置和实体类型。BMEO实体标注方法中B为Begin的缩写,代表实体的首字符;M为Middle的缩写,代表实体中间字符;E为End的缩写,代表实体尾字符;O为Outside的缩写,表示该字符不在实体中。完成实体标注后,以测试集数据作为输入,训练集标注结果作为标签,训练BiLSTM实体抽取模型。对训练好的模型抽取剩余原始语料的实体,完成基于抽取模型的实体抽取。模型评价指标包括精确度P、召回率R、P和R的调和平均值F1值,其计算如公式(1)。

(1)

式中:TP——模型识别正确的实体个数;

FP——模型识别到不相关的实体个数;

FN——模型未识别到相关实体的个数。

将收集到的401篇事故案例按3∶1的比例分为标注语料和测试语料,测试语料中包含来源于失效模式与影响分析(Failure Mode and Effects Analysis,FMEA)数据和文献书籍事故案例48篇。嵌入层的向量设置为256维,在Python 3.7.3环境的Anaconda平台中Tensorflow1.2框架下搭建BiLSTM-CRF模型;算法优化采用自适应时刻估计方法,使用交叉熵损失函数,学习率设为0.001。为避免过度学习出现过拟合现象,将Dropout设置为0.3。依据公式(1)对BiLSTM模型实体抽取的效果评价,结果如表2所示。

表2 实体抽取结果 %

从结果可以看出,评价指标值均在85%左右,基本符合实体抽取要求。FMEA文本格式较为规范,实体抽取效果要好于文献书籍。通过对故障案例文献书籍和FMEA数据进行实体抽取,共获得安全管理类实体385个、设备设施类实体487个、管理类实体189个、标准规范279个、故障类实体264个、组织类实体545个、组织类实体654个、地点实体456个。

3.2.2 关系抽取

在知识图谱中,实体通过关系连接解决实体间的语义连接问题。属性是针对实体而言,用于描述实体的特征,如功率、实际输出等。一般认为,属性是实体与属性值的一种关系,故采用关系抽取的方式实现属性抽取。常用的抽取方法包括Convolutional Neural Network模型和基于依存句法分析的Bootstrapping算法。

本文采用Attention-based BiLSTM关系抽取模型[18],相比于传统关系抽取算法,该模型可以在不使用词性和最短路径的情况下实现关系抽取。Attention-based BiLSTM关系抽取模型与BiLSTM命名实体识别模型抽取流程相同,但训练和测试数据为BiLSTM模型抽取的数据,在数据划分时仍按3∶1划分为标注语料和测试语料。

Attention-based BiLSTM模型的搭建环境同实体抽取模型一致,其参数设置如下:BiLSTM隐含层单元个数为256,层数为2,Dropout为0.5,学习率为0.005,训练批数为10。抽取评价指标精确度P、召回率R和F1值结果如表3所示。

表3 关系属性抽取评价结果

从结果可以看出,模型抽取指标的精确度P、召回率R和F1值均在80%左右,抽取效果良好。因故障文本结构复杂,关系表述不明显,导致其识别准确率较实体识别模型略低。

3.3 故障知识的存储与管理

在完成实体和关系抽取后,所得到的数据不仅存在大量的、模糊冗余的信息,甚至存在冲突。通过知识融合和加工对实体和关系进行清洗和整合,确保知识的质量,并将其转换为三元组的形式。图数据库的管理软件中,Neo4j以其高性能、设计的灵活性和开发的灵敏性成为目前使用最广的图数据库[19]。Neo4j采用节点-关系的数据存储模式,以标签区分节点和关系的所属类别。本文以知识抽取获得概念及关系类型作为数据库中实体和类型标签。

3.4 故障知识库的应用

故障知识库的应用体现在故障数据的标准化采集和故障维修诊断两个方面。其一,以三元组的形式将故障信息存储,通过特定的实体关系数据结构对新的故障数据进行采集,得到结构化数据。同时,可将采集到的故障数据转化为结构化的故障知识,实现知识图谱的知识更新。其二,结合故障诊断模型和历史故障案例,辅助人工进行故障诊断并提供维修策略,同时可以厘清不同时间下的故障规律并对设备寿命和故障状态进行预测,为维修人员制定维修计划提供知识支持。此外,维修任务也是故障知识的积累过程,可为日后的维修工作提供支撑。

4 穿越钻机故障知识库管理软件开发

穿越钻机故障知识库管理工具的主要功能是对故障知识进行必要的数据管理和可视化,能够更加方便和直观地对故障知识库进行管理,还可以为知识库数据交互提供接口。故障知识检索功能包含历史故障分析数据、故障诊断的相关规则及故障处理的相关经验,如图3所示,可实现在线监测设备的数据提取分析、警告信息提醒、辅助故障决策。

图3 穿越钻机故障知识库管理软件

点击软件界面的“显示知识图谱”,可将某次工程项目中出现的穿越钻机故障演化路径以知识图谱的形式展开,如图4所示。

图4 某公司穿越钻机故障知识图谱

知识图谱中包括现场故障处置情况、故障原因(直接原因和间接原因)、故障分析、现场设备参数、项目参与单位、整改意见、施工现场存在的问题7个部分,实体类型包括设备类、参与企业、故障位置、施工地点、故障影响、故障类型等,关系则涵盖表2中的大部分关系。通过该软件还可以提供故障链的展示,有助于分析故障的影响关系。钻机参数节点和现场处置情况图谱节点信息如图5。

图5 钻机参数节点知识图谱

5 结论

基于管道工程中穿越钻机设备的具体业务场景,结合知识图谱的技术特点,提出了基于故障知识图谱的穿越钻机设备故障知识库构建方法,可有效解决维修数据难以利用的困境,通过知识推理进一步挖掘故障规律,实现故障知识的可视化管理和应用。同时,将非结构化或半结构化的语义转化为计算机更易理解和储存的结构化文本,更好地实现人机交互。

穿越钻机故障知识图谱属于特定领域知识图谱,其实体定义、关系定义需要与专业知识、专业需求相吻合,其构建过程对专业知识要求较高。目前所构建的图谱只包括浅层的语义关系,对于深层次的因果、转折等逻辑关系考虑较少。因此,构建一个知识完备、推理合理的穿越钻机故障知识图谱系统,还需要长期、持续研究。

猜你喜欢
知识库钻机图谱
基于图对比注意力网络的知识图谱补全
复杂地质条件煤矿巷道多履带钻锚机器人运动学研究
汉语近义词辨析知识库构建研究
ZJ40L钻机并车箱升级改造设计
基于风载、地震载荷下的钻机底盘有限元分析
图表
主动对接你思维的知识图谱
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
位置与方向测试题
中国知名官方智库图谱