基于Electra语言模型的地理命名实体识别

2024-05-19 10:16袁跃飞杨久东贾闻远
电脑知识与技术 2024年9期
关键词:命名实体矩阵

袁跃飞 杨久东 贾闻远

摘要:地理命名实体识别是构建高质量地理知识图谱的关键环节,需要从大量的非结构化文本中提取地理实体名称,为了提高识别效率和自动化水平,文章选取百度百科和中文地址要素解析任务的部分数据构建语料库,采用轻量化语言模型Electra与CRF相结合对唐山市地区的地理命名实体进行了自动识别研究。研究表明:Electra-CRF语言模型有很好的鲁棒性,以唐山市百度百科词条为例进行模型评估,该方法对于地理命名实体的平均解析准确率达80%以上,可以运用在构建地理知识图谱或者地理知识库的命名实体识别任务当中。

关键词:ELECTRA;地理命名实体;混淆矩阵

中图分类号:P281      文献标识码:A

文章编号:1009-3044(2024)09-0005-03

开放科学(资源服务)标识码(OSID)

人们在获取或者处理某地的地理信息时,首先就要通过地理命名实体检索或者定义该命名实体地理信息的内容,因为这些名称是地理信息表达的主体中心,就如同句子的主语一样,那么地理命名实体识别势必成为构建高质量地理知识图谱重要环节,随着大数据时代的到来,文本作为主要的信息载体其中蕴含着大量的地理信息,并且具有更新快速的特点,与人们生活环境息息相关。如何有效地从非结构化的文本中提取这些地理信息成为处理这些数据的核心问题。命名实体识别是人工智能领域里自然语言处理的基础任务之一,主要是从大量的文本信息中识别实体和其对应的类型然后添加到知识库或者构建知识图谱,比如地名、机构名、建筑物名等。深度学习技术的出现,为中文文本的处理提供有力的技术支撑。

目前针对地理命名实体识别的问题,随着深度学习技术的不断发展逐渐增多。余云秀在地理领域对嵌套命名实体识别任务进行分层建模,采用条件随机场和双向门递归单元神经网络两种模型展开研究[1]。王曙针对自然语言中地理实体的描述特点,提出了顾及上下文特征的词向量表达方法和基于深度信念网络的地理实体识别模型[2]。张凯针对标注进展缓慢的效率问题,研究地理实体信息半自动标注流程,通过引入迭代的思想,构建面向增量学习模型的迭代算法[3]。马孟铖等提出一种多特征融合的中文地名、机构名实体识别方法,该方法以条件随机场为框架,结合实验语料的特点,选取统计特征,将局部特征、复合特征与规则知识库相融合,对中文语料进行命名实体识别[4]。

本文采用轻量级的ELECTRA预训练语言模型与CRF相结合构建地理命名实体识别模型,并评估该模型的性能,以期在地理信息知识图谱构建实体提取方面提供技术参考。

1 ELECTRA-CRF模型

1.1 模型介绍

Electra语言模型是谷歌和斯坦福大学共同研发的一种新型的基于生成模型的预训练模型,因为它小巧的模型体积和良好的模型性能受到广泛关注。Electra模型主要是通过用小的生成模型替代普通的学习模型来提高效果,该模型的做法是先假设句子中每个字符都是由原字符经过随机替换得到的,然后用一个小型的生成模型去学习替换原字符的规律。

Electra模型由两部分组成,分别是生成器和判别器。生成器和判别器都采用了Transformer网络结构。在Electra中,生成器使用了12个Transformer块,每个块都包含12个自注意力机制头和前馈神经网络层。判别器也使用了12个Transformer块,每个块也包含12个自注意力机制头和前馈神经网络层。

该模型结构借鉴了对抗网络的思想,共训练两个神经网络模型,左边生成器用来随机屏蔽原始文本中的单词,进行预测学习。右边判别器判定单词是否与原始文本一致,如果一致则为真,如果不同则为假。

1.2 CRF层

在模型中Electra的判别层学到了语料中单个字符对应标注的最大概率,没有考虑标签间的规则,为了增加标签之间的规则对识别结果的约束,这时候加入CRF层这种序列标注模型通过相邻的标签关系进行联合概率分析,给出最优的标签序列,提高识别结果的准确性。

2 实验设计与结果分析

2.1 数据集

本文数据集采用阿里达摩院机器智能技术团队在CCKS2021大会中发布的地址评测的数据集“中文地址要素解析任务”和“地址文本相關匹配任务”的部分数据和百度百科词条的部分数据。详情如表1所示。

2.2 标注策略

文本数据标注是给数据贴上特征标签,然后通过这些特征训练深度学习模型使它学习到在众多文本中识别这些特征的能力,所以样本的标注策略直接影响到模型的实验效果。现在常用的标注体系为BIO、BIOE、BIOES三种标注体系,本实验采用BIO的标注方法,如表2、表3所示。

2.3 评价指标

混淆矩阵是用于衡量分类模型性能的一种工具,也被称为误差矩阵。它是一个 N×N 的矩阵,其中 N 是分类的类别数量。该矩阵对于每个类别给出了实际类别和预测类别的匹配情况,通常以行表示真实类别,以列表示预测类别。其主要作用是通过各种指标(如准确率、召回率、F1分数等)来评估分类算法的性能。

在混淆矩阵中,对角线上的元素表示正确分类的样本数量,非对角线上的元素表示错误分类的样本数量。例如,对于二元分类问题,混淆矩阵为:

精确率Precision=TP/(TP+FP)        (1)

召回率 recall=TP/(TP+FN)           (2)

[F1=2Precision*recallPrecision+recall]                   (3)

其中,TN 表示真实为负例,被预测为负例的样本数;FP 表示真实为负例,被预测为正例的样本数;FN 表示真实为正例,被预测为负例的样本数;TP 表示真实为正例,被预测为正例的样本数。

通过混淆矩阵,可以实体类别计算出各种评估指标,精确率(Precision) 、召回率(Recall) 和F1分数等,有助于我们进一步了解分类模型的性能,从而更好地進行模型调优和预测。本次实验中,模型评估阶段也利用了混淆矩阵,分别计算出每种实体类别的评估参数。

2.3 实验环境

2.4 模型搭建

本次实体识别实验中,根据上文整理的实体识别数据集的数据量和数据特征,对Electra模型判别器后半部分权重参数进行微调,这个过程旨在帮助模型捕捉到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。最后将Electra模型中堆叠的Transformer编码器输出的语义向量输入至CRF层中,并将每个实体类别的得分值通过CRF进行转换,从所有可能的序列中判别出最优序列。模型结构如图3所示。

2.5 超参数设置

在文本输入阶段,句子最大截断长度设置为128,每个训练批次内,句子数量为16。在词向量表示阶段,采用了预训练模型Electra,向量维度为Electra默认的768维,在语义编码阶段,采用了Electra默认的12层Transformer编码器,在模型训练阶段,将损失率设置为0.1,学习率设置为5e-5,训练周期为10个epoch,具体参数设置如表6所示。

2.6 实验结果与分析

按照实体标签分类进行模型性能评估,总体效果较好,其中行政区、道路、河流和景点准确率维持在较高水平,行政区和河流实体在训练样本为2:1的情况下F值变化不明显,对比原文本和输出文本,两者语义环境相似度较高,对简单实体样本数量的提升不会对模型性能有显著的提升,机构类实体识别准确率较差,对比原文本和输出文本,发现机构实体大都由多种实体嵌套而成,导致模型识别出的文本边界与原文本相差较大,5类实体平均P值为80.05,R值为87.92,F1值为0.82,故此可以得出模型在简单语义环境中的识别效果较好,可以用于地理命名实体识别任务当中。部分识别结果如表7所示。

3 结论

地理命名实体是从大量的非结构化文本中获取地理信息的基础,本文针对当前海量文本中地理命名实体识别中面临的挑战,研究了基于深度学习的地理命名实体识别方法,采用了轻量化语言模型Electra结合CRF对唐山市地区的地理命名实体进行自动识别实验,实验结果表明该模型的平均解析准确率在80%以上,可以应用在简单语义环境的地理命名实体识别任务中。

下一步将在以下方面进行研究:

(1) 模型在特定的语义环境中识别能力不足,应在数据特征约束和数据标注方面进一步加强。

(2) 后续加入能够捕捉双向语义信息的BiLSTM,以期模型能拥有更好的效果。

参考文献:

[1] 余云秀.基于分层标注的地理领域嵌套命名实体识别研究[D].南京:东南大学,2018.

[2] 王曙.自然语言驱动的地理知识图谱构建方法研究[D].南京:南京师范大学,2018.

[3] 张凯.基于增量学习的地理实体信息半自动标注方法研究[D].南京:南京师范大学,2020.

[4] 马孟铖,艾斯卡尔·艾木都拉,吐尔地·托合提.基于条件随机场多特征融合的中文地名、机构名实体识别[J].现代计算机,2019(12):13-17.

[5] 丁家伟,刘晓栋.基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型[J].信息网络安全,2021(6):63-69.

[6] 李发东,王海起,孔浩然,等.联合词汇增强的中文细粒度地理命名实体识别模型研究[J].地球信息科学学报,2023,25(6):1106-1120.

[7] 汤洁仪,李大军,刘波.基于BERT-BiLSTM-CRF模型的地理实体命名实体识别[J].北京测绘,2023,37(2):143-147.

[8] 王颖洁,张程烨,白凤波,等.中文命名实体识别研究综述[J].计算机科学与探索,2023,17(2):324-341.

[9] 何玉洁,杜方,史英杰,等.基于深度学习的命名实体识别研究综述[J].计算机工程与应用,2021,57(11):21-36.

[10] 佘文浩,李卫榜,杨茂,等.基于ELECTRA与神经网络模型的中文医疗知识图谱实体识别[J].西南民族大学学报(自然科学版),2023,49(2):197-205.

[11] 杨盈,邱芹军,谢忠,等.人在回路学习增强的地理命名实体识别[J].测绘通报,2023(8):155-160,177.

【通联编辑:李雅琪】

猜你喜欢
命名实体矩阵
命名——助力有机化学的学习
前海自贸区:金融服务实体
有一种男人以“暖”命名
为一条河命名——在白河源
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
初等行变换与初等列变换并用求逆矩阵
矩阵
矩阵