基于BERT的施工安全事故文本命名实体识别方法

2023-03-07 10:00孙文涵王俊杰
电视技术 2023年1期
关键词:字符实体语义

孙文涵,王俊杰

(中国海洋大学 工程学院,山东 青岛 266400)

0 引 言

施工安全管理是维系建筑业稳定的重要工作。住房和城乡建设部统计资料显示,2021年,全国共发生房屋市政工程生产安全事故623起、死亡700人。建设过程中的非结构化事故报告文本数据通常作为制定预防措施的依据。但在传统施工安全管理中,对事故信息的利用依赖于人工解释和处理,缺乏把事故信息转化为可复用知识的工具。施工安全事故的预防,可以通过整合多源异构的施工安全事故案例信息,构建施工安全领域知识图谱。该图谱可用于案例检索、危险源推测以及原因分析[1]等,这些都对施工安全管理水平提升起着重要作用。实体是知识图谱的基本单元。建立一个事故报告实体自动提取模型,识别施工安全事故中包含领域知识的实体要素,是构建施工安全领域知识图谱的基础工作。

基于自然语言处理(Natural Language Processing,NLP)与机器学习的信息抽取方法作为知识提取的关键技术[2],目的是从文本文档中提取有效信息或领域知识填充预定义的信息模板[3-4]。命名实体识别(Named Entity Recognition,NER)是信息抽取的子任务,通常分为基于规则的方法[5]、基于统计机器学习的方法[6]和基于深度学习的方法[7]。深度学习方法已成为目前解决NER任务的主流方法。张鹏翔[8]和陈业明[9]利用多维字符特征表示对抽取铁路设备事故信息;FANG D和Chen H[10]基于自然语言数据增强的小样本训练方法自动抽取建筑事故新闻报道和法律法规中的信息。这些方法在加强知识管理方面发挥着有益的作用,但输入的字向量都是由N-gram、Word2Vec模型训练得到的静态字向量,不能全面表征字向量在不同上下文中的特征,难以解决实体表述不一致以及一词多义的问题,影响实体识别效果。

鉴于此,笔者拟收集1 200份施工安全事故报告,构建施工安全事故领域实体标注语料数据集;利用双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)预训练模型作为模型编码器获取动态字向量,以解决传统命名实体识别方法在静态字向量表示上的语义信息缺少问题;设计双向长短时记忆网络-注意力机制-条件随机场(Bidirectional Long Short Term Memory-Attention-Conditional Random Field,BiLSTM-Attention-CRF)模型作为解码器,解决施工安全事故报告文本中的上下文信息利用不充分问题,在此过程中得到的施工安全事故实体将促进施工安全领域知识图谱的构建,并更好地指导建筑安全管理的安全培训。

1 概念定义及实体标注规范

由于施工安全事故领域目前没有可以直接提供使用的数据集,首步工作需先自行构建实验所需数据集。施工安全事故报告主要包括事故时间、事故地点、施工项目、施工任务以及事故类型等事故知识元素,是有关施工安全事故的重要文本数据。本文所使用的施工安全数据集语料主要来自中华人民共和国住房和城乡建设部、各地方安全监管部门以及媒体报道,共收集了1 200条左右的施工安全事故报告,并将事故文本序列以句号划分。

结合建筑施工安全领域的实际应用,本文对事故文本中的实体要素进行分类,构建了包含事故类型、事故时间、事故地点、施工工程、施工任务、死亡人数、受伤人数、相关单位以及金额损失9类实体的安全事故数据集,并利用YEEDA软件完成标注,如图1所示。

图1 数据标注界面

标注规范采取“BIO”方式。“B-”表示每个实体的首个字符位置,“I-”表示每个实体的中部以及结尾字符位置,“O”表示除实体外的其他无关字符。实体示例及标签如表1所示。

表1 实体示例及标签

2 施工安全事故命名实体识别模型

用于施工安全事故报告实体提取的BERTBiLSTM-Attention-CRF模型框架如图2所示。该模型主要由四层组成:BERT文本向量化层、BiLSTM特征提取层、注意力机制层及CRF推理层。首先,BERT预训练层通过无监督方式在大量未标注数据上做训练,实现文本到字符级向量的转换。其次,采用BiLSTM层对输入的字符向量进行双向编码,通过学习事故报告中的依赖关系,实现对施工安全事故报告文本的深度感知与理解,并将本层提取的特征向量传递给注意力机制层。注意力机制层协助模型重点关注显著性强的信息,对显著性弱的特征进行抑制,增强模型对事故报告的特征理解。最后,CRF层对注意力机制层的输出解码,考虑标签间的约束关系,获取最优的事故报告实体的标注序列。

图2 BERT-BiLSTM-Attention-CRF模型整体结构

2.1 BERT文本向量化层

施工事故报告包含事故时间、事故地点及事故类型等语义信息。这些语义信息是模型理解施工事故报告的基础。传统的语义向量是以静态的方式处理文字,无法解决实体表述不一致及一词多义的问题。BERT是多层的双向Transformer结构的预训练语言表征模型,能够自动提取出序列中丰富的语法结构特征、语义特征以及位置特征,使模型获取丰富的语义信息。

BERT的输入编码向量为每一个token对应的表征。该表征由对应的词嵌入、分割嵌入及位置嵌入三部分叠加组成。词嵌入是输入序列中每个字符的本身向量表示,分割嵌入用于区分两个句子,判断字符所属句子A或句子B,位置嵌入是指从0开始将字符的位置信息编码成特征向量。每一个序列都存在[CLS]和[SEP]两种特殊的token。[CLS]用于每一个序列的开头位置,[SEP]插入到每个句子之后,用于断开语料文本中的不同句子,如图3所示。

图3 BERT模型输入

BERT预训练层输出的动态向量作为事故报告的字符向量,输入到BiLSTM层提取和挖掘特征。

2.2 BiLSTM特征提取层

BiLSTM层作为特征提取器,提取事故报告中文本和句子间的顺序特征,构建更准确的语义表示。长短时记忆网络(Long Short-Term Memory,LSTM)通过引入输入门(input gate)、遗忘门(forget gate)、输出门(output gate)以及记忆细胞来记录额外的信息。LSTM单元结构如图4所示,更新过程如下。

图4 LSTM单元结构

式中:σ,tanh表示激活函数,Wf,Wi,Wo,Wc表示权重矩阵,bf,bi,bo,bc表示偏置向量,Ct-1和Ct分别为t-1时刻和t时刻细胞状态,C~t为输入门控制的候选细胞状态。

LSTM对输入的施工安全事故文本序列建模时,无法编码从后到前的信息。因此,将向量以前、后两个方向分别输入LSTM单元,捕获双向的语义信息。在t时刻,BiLSTM的输出ht表示为

民办大学的教学改革势在必行,针对应用型护理本科生从翻转课堂到慕课,再到OSCE模式,都在围绕以人为本的教学方式不断改进,而OSCE达到近年高峰期,尤其在护理学专业,不仅可以改善学生课堂注意力低下的情况,还能提高学生独立处理问题的能力,更重要的是提高了学生临床能力。在OSCE实施过程中,能看出学生在临床实际问题的处理能力有弱势,意味着教学改革应以提高学生处理临床实际问题能力为中心。

2.3 Attention特征加强层

施工事故报告具有长文本的特点,存在冗杂信息的干扰。为了增强对显著信息的关注,利用注意力机制捕捉字与字之间的关联程度,根据关联程度的大小调整权重系数,以不同权重配比的方式,二次提取出对实体识别起到关键性作用的特征,弱化对实体识别无关的特征,使模型更聚焦于与事故实体有关的字符上,提升描述结果的准确性。关联程度大小计算如式(3)所示:

式中:Q,K,V分别表示Query向量、Key向量和Value向量,dk表示输入向量的维度。对于t时刻模型经过注意力机制加权后的输出为

式中:at表示利用注意力机制加权后的特征向量,ht为BiLSTM层输出的特征向量,权重λt由式(6)计算得出:

2.4 CRF推理层

CRF层能在数据集中学习到句子的约束条件,通过有效约束大量减少错误的预测序列。比如,“B-TIME”只能作为事故发生时间的首端,若出现在其他位置则存在错误;“B-TIME”后的正确字符标签为“I-TIME”,若出现其他标签则是模型预测错误。对于一条输入的施工安全事故报告文本序列X=(X1,X2,…,Xn),经过CRF层提取特征后会得到输出矩阵P=[P1,P2,…,Pn]和预测序列Y=(y1,y2,…,yn),预测标签序列其预测得分为

式中:T为标签yi转移到标签yi+1的得分,P为第i个字符被标记为标签yi的得分,最后使用维特比算法输出当前事故报告文本序列得分最高的最优标签序列。

3 实验分析

3.1 实验参数配置与评价指标

本实验采用Tensorflow工具进行NER模型搭建,在台式计算机上完成训练。训练所使用的计算设备具体参数如表2所示。

表2 实验平台配置

采取通用评价标准作为评价指标,以准确率(Precision,P)、召回率(Recall,R)和F1分数(F1-score,F1)对实体识别效果进行评价,计算公式如下。

式中:TP是预测为正样本被正确识别的样本数,FP为负样本被识别为正样本的样本数,FN表示正样本被识别为负样本的样本数。

3.2 对比实验结果及分析

为验证本文模型的性能,在同一实验环境下,与BiLSTM、BiLSTM-CRF和IDCNN-CRF三个命名实体识别模型在P,R及F1值三项指标上进行各识别实体指标对比,实验结果如表3所示,四种模型的F1值随迭代次数变化曲线如图5所示。

图5 四种模型的F1值随迭代次数变化曲线图

由表3可知,本文模型的P,R,F1值均高于对比模型,分别达到92.31%,92.86%和92.58%。与BiLSTM相比,BiLSTM-CRF和IDCNN-CRF模型的识别效果有了较大的提升,总体F1值分别提升了6.26%和4.59%,说明CRF模型在识别语义特征后,考虑到字符之间的约束关系,提升了总体的识别效果。BiLSTM-CRF模型相较于IDCNN-CRF模型的准确率和召回率均有一定的提升,是因为BiLSTM相较于IDCNN具有更强的全局上下特征提取能力。

表3 各类实体识别指标对比(单位:%)

与对比模型相较,本文模型在整体F1值上比其他3种模型分别提高了10.45%,4.19%,5.86%,说明本文引入的BERT模型和注意力机制提升了安全事故文本的字向量表征能力,增强了对重点信息的关注,根据施工安全事故文本的上下文动态微调字向量,增强了字向量的语义表达,对于数据规模较少的特定领域实体,能有效提升识别性能。对于事故时间、事故地点、死亡人数、相关单位和金额损失等实体,识别F1值均可达到91%以上,部分实体类别如事故时间、死亡人数、相关单位和金额损失等的识别准确率可以高达95%以上,主要原因是这些实体类别的周围会有明显的边界特征,如事故时间多以“日、秒、许”等字符结尾,死亡人数常以“死亡”开头或结尾,相关单位常常以“***公司”等字符结尾,可以使模型捕捉到明显的特征信息。而其他实体类别周围往往没有明显的边界特征且实体长度较长,导致识别效果变差。

从图5可以看出,在刚开始的1—10次迭代时,四种模型的F1值均快速上升;在11—30次迭代时,四种模型处于稳步上升阶段,并在较小的范围上下波动;在30次迭代后,四种模型的F1值趋于平稳,几乎没有波动。从图5还可以看出,本文模型的整体识别效果好于其他三种模型的识别效果,且在第28次迭代时达到最优总体F1值92.58%。

图6是本文模型在训练过程中损失值随迭代次数的变化曲线。模型在训练过程时,损失值随着迭代次数的递增而降低,最后达到稳定的状态。本文采用Adam优化器,在训练过程自动调节学习率,损失函数曲线有较为明显的阶段性特征。

图6 验证集与训练集的损失函数曲线

3.3 消融实验结果及分析

为研究Attention对模型性能的影响,本文设计了消融实验。在BERT-BiLSTM-CRF模型的基础上,增加Attention机制,实验结果如表4所示。

表4 消融实验结果对比(单位:%)

BERT-BiLSTM-CRF模型融合Attention后,模型F1值提升了1.25%,其原因是注意力机制可以增强模型对句子中关键字的利用,弱化与实体无关的语义特征,使得模型识别实体性能有效提高;能够有效捕获与当前输出关联度较高的信息,解决实体表述不一致以及一词多义的问题,提高施工安全事故实体识别的识别精度。

4 结 语

本文以自建的施工安全事故领域实体标注语料数据集为研究对象,定义了该领域9类实体类别,提出了一种基于BERT的施工安全事故命名实体识别方法。本方法解决传统命名实体识别方法在静态字向量表示上的语义信息缺少问题,有效提高施工安全报告实体识别效率和准确率。文中实现的施工安全事故领域实体识别为后续相关领域知识图谱的构建打下基础,且不依赖于特定领域的人工特征,因此可以很容易地应用到其他领域。后续将进一步扩大数据集的规模,并开展施工安全领域的关系抽取工作,以满足建筑施工安全领域知识图谱的应用需求。

猜你喜欢
字符实体语义
语言与语义
字符代表几
前海自贸区:金融服务实体
一种USB接口字符液晶控制器设计
HBM电子称与西门子S7-200系列PLC自由口通讯
消失的殖民村庄和神秘字符
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
“上”与“下”语义的不对称性及其认知阐释