吴庭伟 王梦灵 易树平 郭景任
摘要:提出了多尺度核电质量文本故障信息语义抽取方法,从核电质量文本描述中获取了存在质量缺陷的故障设备与所属阶段的信息。针对故障设备与正常设备并存,以及所属设计、采购、施工和调试的全价值链阶段未描述的问题,提出了多尺度故障信息抽取策略。基于Transformer双向编码的预训练语言模型将核电质量文本转化为文本向量;采用注意力机制的双向门控循环神经网络挖掘出质量缺陷的关键语义特征;采用条件随机场对关键语义特征进行实体预测,输出故障设备;通过多层感知机对提取的关键语义特征进行微调及推理,解译出故障设备所属阶段。最后,在真实的核电质量文本数据集上进行验证,F1值达到94.3%,表明提出的方法具有较好可行性和有效性。
关键词:多尺度;核电质量文本;语义抽取;预训练语言模型;条件随机场
中图分类号:TP391.1
DOI:10.3969/j.issn.1004-132X.2023.08.012
Semantic Extraction Method of Multi-scale Nuclear Power Quality Text Fault Information
WU Tingwei1 WANG Mengling1 YI Shuping2 GUO Jingren3
Abstract: A semantic extraction method of multi-scale nuclear power quality text fault information was proposed to obtain the information of fault equipment and their stages from nuclear power quality text. The quality text included the faulty equipment and normal equipment, while the whole value chain stages of design, procurement, construction, and commissioning were not described. Firstly,
based on Transformer bidirectional encoding, the pre-trained language model were used to convert nuclear equipment quality text into text vectors. The bidirectional gated recurrent unit network with attention mechanism was introduced to mine the key semantic features of quality text defects. On the basis of those above, the conditional random field was used to predict the key semantic features and output the fault equipment. Fine-tuning the extracted key semantic features by multi-layer perceptron, the stages of fault equipment was interpreted. Finally, the experimental verification was conducted based on real nuclear power quality text datasets, and the F1 value reached 94.3%. The results show that the proposed method has good feasibility and effectiveness.
Key words: multi-scale; nuclear power quality text; semantic extraction; pre-trained language model; conditional random field
0 引言
核電设备的质量决定了核电站安全稳定的运行。根据核电设备建造的业务流程,设备在投入运营前,需历经设计、采购、施工和调试四个基本的全价值链阶段。根据核电设备质量缺陷的分析需求,工程师通过核电质量文本完整记录,即包含相关设备的状态、相关现象、可能的原因等质量缺陷信息描述质量缺陷事件。通过对质量文本的分析,得到各价值链阶段质量缺陷的关键信息,并将其汇聚成经验反馈包,以便质量管理人员分析相同型号核电设备或者类似流程可能出现的质量问题。基于经验反馈,相关部门能及时调整检修计划,尽量避免质量问题造成的设备故障。
当前,从质量文本抽取关键信息的主要方式为人工标注。这种标注方式不仅费时费力,还需要操作人员掌握详细的核电领域知识。此外,由于质量文本记录了质量缺陷事件发生的全部过程,文本内容不仅涉及出现质量缺陷的设备,还包含正常设备,且没有明确说明质量缺陷事件是在哪个阶段发生的,因此工程师需要依据整段的文本描述,推断出质量缺陷对应的阶段。为简化描述,本文将存在/出现质量缺陷的设备称为故障设备,将出现质量缺陷对应的价值链阶段称为故障所属阶段。质量管理过程累积了大量的质量文本,如何采用有效的方法快速准确提取故障设备与所属阶段十分重要。采用文本挖掘技术对文本进行数据挖掘是自然语言处理及文本信息抽取领域的一个研究热点。因此,笔者将文本挖掘技术引入核电质量文本处理,自动分析质量文本缺陷信息并抽获取故障设备及所属阶段,辅助工程师及时分析发现类似问题并进行处理和维护,提高核电质量管理的效率。
当前,核电领域的自然语义分析研究主要围绕智能问答系统和句法语义提取展开,通过构建高级的信息检索系统,从给定的文本中推理出问题的答案。ZHAO等[1]采用字典与规则相结合的方法训练因果关系抽取模型,并基于该模型构建了核电智能问答任务系统。iExtractor方法[2]通过对比当前信息与历史状态来发现核电设备的运行异常情况。上述研究针对具有因果关系的文本,通过识别关键字词进行语义搜索,完成信息提取任务。实际的核电质量文本仅记录缺陷产生的现象和对象,并无明确的因果关系,且没有给定关键词。
针对无因果关系的文本信息挖掘问题,WU等[3]采用双向长短期记忆(bidirectional long short term memory,BiLSTM)网络构建微博文本情感分类模型来自动分类微博文本。JURADO[4]使用条件随机场(conditional random field,CRF)构建的实体抽取模型来自动提取报纸中的目标实体。文献[5-6]采用BiLSTM模型与多层感知机(multi-layer perceptron,MLP)结合的方法,将切口信息提取转化为分类问题,完成病例文本中的切口信息提取任务。文献[7-8]将BiLSTM和卷积神经网络相结合来构造实体抽取模型,通过对字向量进行特征提取,提高了模型的抽取精度。针对数据集较少的特点,采用
基于Trausformer的双向编码表示(bidirectional encoder representation from Transformer,BERT)与双向门控循环单元(bidirectional gated recurrent unit,BiGRU)相结合的方法构建的实体识别模型[9-11]比BiLSTM方法的结构简单,并且训练速度更高。上述研究方法仅适用于单一任务的信息抽取,而从核电质量文本中提取出故障设备和故障阶段则是2个不同尺度的信息提取任务。故障设备提取是运用相关标记算法对质量文本进行标记,获取对应的故障设备;故障阶段提取是融合质量文本中每个字的语义信息,综合推断故障所属的阶段。
因此,本文构建一个并行信息抽取模型来同时提取质量文本中的故障设备与故障阶段。从核电质量文本中提取故障设备可转化为实体抽取任务,依据整段质量文本内容推断出故障阶段可以转化为4个阶段的文本分类任务。笔者首先采用
BERT模型将质量文本转化为文本向量,利用基于注意力机制的循环神经单元对文本向量进行缺陷特征的提取,得到关键语义信息特征,然后基于CRF计算得到对应的故障设备。接着采用MLP对提取的关键语义信息特征进行非线性微调,推断出故障所属阶段。最后,基于实际质量管理过程的核电质量文本数据进行实验,以验证本文方法的有效性和准确性。
1 问题描述
表1所示为包含故障设备及所属阶段信息的2个典型质量文本样例。
由样例1可见,文本不仅包含出现质量缺陷的设备“汽轮机”,还包含正常设备“发电机”。样例2中,出现质量缺陷问题的设备为“汽轮机”,这与样例1的故障设备相同,但缺陷对应的故障阶段却不同。工程师根据2个本文描述的整体语义,分析出样例1对应的缺陷阶段为“调试”,样例2对应的缺陷阶段为“采购”。
由于质量文本存在上述特点,因此从质量文本同时抽取出故障设备和故障阶段,需解决如下问题:
(1)从质量文本中提取出故障设备是实体抽取任务,依据整段质量文本的语义推断故障设备所属阶段是文本分类任务,如何同时完成2个不同尺度的故障信息提取任务。
(2)质量文本同时存在故障设备和正常设备时,如何准确地从中提取出故障设备。
(3)如何基于整段质量文本的语义正确推断出故障设备所属阶段。
考虑到上述问题,本文采用具有注意力机制的神经网络提取故障设备和故障阶段的共性缺陷特征信息,得到关键语义特征,接着分别采用不同的解译算法对关键特征进行解译,同时输出故障设备及所属阶段。基于上述分析,本文构建故障信息抽取模型(图1),实现多尺度核电质量文本故障信息语义的抽取。首先将质量文本转化为文本向量,接着通过注意力(Attention)机制[12]的BiGRU提取质量文本中的语义特征信息,然后基于关键语义特征分别采用CRF和MLP同时进行故障设备提取与阶段推断。通过共享质量文本的关键语义特征信息,减少不同尺度信息的特征提取步骤,减小模型计算量并提高信息抽取的精确度。
2 多尺度故障信息抽取模型
2.1 BERT字向量轉换
BERT模型是一种对文本进行编码的表示模型,可以将一段文本转化为融合了文本全局语义信息的一组向量。如图2所示,wn为质量文本的第n个字,vn1、vn2、vn3分别是wn的语义嵌入、位置嵌入、段落嵌入。语义嵌入通过字向量表将wn转换为一个向量,位置嵌入将wn的位置信息编码成向量,段落嵌入将wn所在句子编码成向量。通过融合语义嵌入、位置嵌入和段落嵌入得到综合特征向量vn后,将vn输入到Transformer编码器中进行编码,得到对应字向量xn。
给定的核电质量文本描述句序列w=(w1,w2,…,wn)经BERT模型“理解”后,得到文本描述句对应向量x=(x1,x2,…,xn)。
2.2 关键语义特征提取
由于文本向量x包含所有质量文本的信息,因此本文采用BiGRU-Attention提取文本中设备缺陷的关键语义特征,缩小解译范围。首先将文本向量输入BiGRU,提取文本上下文语义关系的信息,得到对应的语义信息向量。然后通过Attention机制从提取的语义信息中筛选出与设备质量缺陷相关的特征信息,输出关键语义特征向量。
BiGRU是门控循环单元(gate recurrent unit,GRU)网络输出的正反向拼接。GRU的计算公式如下:
式中,zt为t时刻的更新向量,控制信息进入下一个时刻;xt为t时刻输入的字向量;rt为t时刻的重置向量,决定当前时刻信息的留舍;ht为t时刻的状态向量,包含了前t个时刻所有文本的有效信息;*表示哈达玛积(Hadamard);Wzx、Wzh、Wrx、Wrh、Wh~x、Wh~h均为特征参数向量;bz、br为参数;I是维度与zt相同且元素全为1的向量;σ为sigmiod激活函数。
将GRU网络输出的ht进行正反向拼接,得到BiGRU单个字向量xt对应的特征向量:
根据式(6)计算得到预测最优序列,预测每个字对应的标签概率。其中,最大标签概率对应的文字组合即为所提取的故障设備。如图4所示,经CRF计算得出“汽”与“轮”的转移概率为0.1,“轮”与“机”的转移概率为0.4,则关键语义特征向量经CRF计算调整后得到的实体预测向量(标号②)为(0.491,0.823,0.964),该向量输出的实体为“汽轮机”,解决了实体之间的依存关系。
2.3.2 阶段提取
经BERT-BiGRU-Attention提取得到的ATT保持着文本序列长度并含有丰富的语义特征信息,但仅依据ATT不能推断所属阶段,需要对提取的ATT进行压缩与融合。本文为简化计算,不再单独采用神经网络获取新的语义特征,而将ATT作为多层感知机(MLP)的输入,通过MLP对现有的ATT特征进行微调,推断故障阶段。
核电业务流程包含4个阶段,因此将MLP输出变量设为1个表征4个阶段可能性的四维向量,形成基于BERT-BiGRU-Attention-MLP的核电质量文本缺陷阶段分类方法。MLP对提取的关键语义特征信息ATT进行压缩与非线性融合,综合考虑每个字对输出的贡献,输出对应的缺陷阶段。具体计算过程如下:
质量文本描述句经BERT-BiGRU-Attention计算后得到ATT,对ATT进行池化操作(Pooling),得到降维后的文本向量m=(m1,m2,…,mn),MLP对输入m进行非线性融合,综合推断缺陷阶段。
3 实验与分析
3.1 实验数据
本文采用某核电设备质量文本数据进行核电故障设备信息提取实验。数据集包含1300条文本数据,将数据集按8∶1∶1的比例划分为训练集、验证集、测试集。采用BERT-base作为文本字向量转换模型。实体抽取任务仅提取故障设备实体,因此采用BIO标注策略(“B”表示元素属于实体开头,“I”表示元素属于实体中间(非头部),“O”表示元素不属于实体)。将故障阶段分为4类,采用2个BiGRU网络提取数据特征,MLP网络层数设置为3。
3.2 实验验证与分析
本文采用准确率P、召回率R以及F1作为评价指标来验证提出方法的精度,针对故障设备抽取问题,与BERT-CRF模型和BERT-BiGRU-CRF模型进行对比,结果如表2所示。针对故障阶段判别,将BERT-MLP模型和BERT-BiGRU-MLP模型作为参考模型进行对比,结果如表3所示。针对多任务同时抽取,将本文提出的方法与BERT-CRF+MLP、BERT-CRF+BiGRU-MLP、BERT-BiGRU-CRF+MLP和BERT-BiGRU-CRF+BiGRU-MLP进行对比,实验结果如表4所示。
由表2可知,在BERT-CRF基础上加入BiGRU网络可以提取上下文语义特征信息,比BERT-CRF方法的F1值高出7.1%;在BERT-BiGRU-CRF方法中加入Attention机制进行关键语义信息提取,比BERT-BiGRU-CRF方法的F1值高出1.6%。由表3可知,BERT-BiGRU-Attention-MLP方法的抽取精度最高,其次是BERT-BiGRU-MLP方法,BERT-MLP方法最低,证明BiGRU-Attention在所属阶段的推断任务中发挥了重要作用。由表4可知,在同时提取多个任务时,BERT-BiGRU-Attention-MLP的F1达到94.3%,比BERT-CRF+MLP高出10.9%,比BERT-BiGRU-CRF+MLP高出3.4%,由此可见BERT-BiGRU-Attention-MLP可以有效支持多尺度的双任务文本并行提取问题。
3.3 结果分析
为验证注意力机制的循环神经网络对关键语义特征提取的有效性,提取表1中的2个样例进行关键语义特征的展示(见表5),选取概率最高的15个字进行分析。
由表5的样例1可知,通过对关键语义信息的提取,正常设备“发电机”的信息被弱化,故障设备“汽轮机”被预测出来;样例2中的故障设备“汽轮机”可以被正确预测。MLP微调关键语义特征向量后,得到缺陷阶段的语义特征向量,选取概率最高的10个字进行展示,如表6所示。
由表6可知,综合样例1中的“调” “速”“超”“过”“值”等关键字得到故障所属阶段为调试;根据样例2中的“焊”“接”“资”“质”“不”“超”等关键字信息,分析出故障所属阶段为采购。表7给出了部分高频故障设备和所属阶段的统计分析结果。
由表5~表7可知,本文提出的语义提取方法可从核电质量文本提取质量缺陷的故障设备和所属阶段,梳理高频故障设备并进行归类分析,有助于工程师充分认识当前建造过程出现质量问题的设备相关情况,辅助后续的质量缺陷根因分析和经验反馈。
4 结语
本文提出了多尺度核电质量文本故障信息语义抽取方法,解决了传统核电质量文本关键信息人工提取的问题。实际核电质量文本数据验证表明本文方法的F1值达到94.3%。对已有数据的训练可累积大量关键语义特征和高频故障设备信息,辅助工程师及时了解设备相关情况,有效支撑后续缺陷根因分析和经验反馈,提高核电质量管理效率。
参考文献:
[1]ZHAO Y, DIAO X, HUANG J, et al. Automated Identification of Causal Relationships in Nuclear Power Plant Event Reports[J]. Nuclear Technology, 2019, 205(8):1021-1034.
[2]CHOI Y S, NGUYEN M D, THOMAS N K. Syntactic and Semantic Information Extraction from NPP Procedures Utilizing Natural Language Processing Integrated with Rules[J]. Nuclear Engineering and Technology, 2021, 53(3):866-878.
[3]WU P, LI X, LI C, et al. Sentiment Classification Using Attention Mechanism and Bidirectional Long Short-term Memory Network[J]. Applied Soft Computing, 2021, 112:107792.
[4]JURADO F. Journalistic Transparency Using CRFs to Identify the Reporter of Newspaper Articles in Spanish[J]. Applied Soft Computing, 2020, 95:106496.
[5]盧淑祺, 窦志成, 文继荣. 手术病例中结构化数据抽取研究[J]. 计算机学报, 2019, 42(12):2754-2768.
LU Shuqi, DOU Zhicheng, WEN Jirong. Research on Structural Data Extraction in Surgical Cases[J]. Chinese Journal of Computers, 2019, 42(12):2754-2768.
[6]NGUYEN M, LE D, LE L. Transformers-based Information Extraction with Limited Data for Domain-specific Business Documents[J]. Engineering Applications of Artificial Intelligence, 2021, 97:104100.
[7]WANG J, XU W, FU X, et al. ASTRAL:Adversarial Trained LSTM-CNN for Named Entity Recognition[J]. Knowledge-based Systems, 2020, 197:105842.
[8]CHO M, HA J, PARK C, et al. Combinatorial Feature Embedding Based on CNN and LSTM for Biomedical Named Entity Recognition[J]. Journal of Biomedical Informatics, 2020, 103:103381.
[9]DU C, HUANG L. Text Classification Research with Attention-based Recurrent Neural Networks[J]. International Journal of Computers Communications & Control, 2018, 13(1):50-61.
[10]张靖宜, 贺光辉, 代洲, 等. 融入BERT的企业年报命名实体识别方法[J]. 上海交通大学学报, 2021, 55(2):117-123.
ZHANG Jingyi, HE Guanghui, DAI Zhou, et al. Named Entity Recognition of Enterprise Annual Report Integrated with BERT[J]. Journal of Shanghai Jiaotong University, 2021, 55(2):117-123.
[11]JIA C, SHI Y, YANG Q, et al. Entity Enhanced BERT Pre-training for Chinese NER[C]∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing(EMNLP). 2020:6384-6396.
[12]VASWANI A, SHAZZER N, PARMER N, et al. Attention Is All You Need[C]∥Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, 2017:6000-6010.
(编辑 张 洋)
作者简介:
吴庭伟,男,1998年生,硕士研究生。研究方向为文本分类、信息抽取。E-mail:y30200997@mail.ecust.edu.cn。
王梦灵(通信作者),女,1980年生,副教授。研究方向为数据挖掘、人工智能算法。发表论文30余篇。E-mail:wml_ling@ecust.edu.cn。
收稿日期:2021-08-31
修回日期:2023-01-04
基金项目:国家重点研发计划(2020YFB1711700)