融合短语结构的多通道老挝语名词短语识别方法

2022-08-02 03:56汤礼欣周兰江张建安
中文信息学报 2022年6期
关键词:特征向量语料老挝

汤礼欣,周兰江,张 力,张建安

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)

0 引言

语块分析是识别句子中一些结构简单的独立成分的过程,其中一项代表性的语块分析任务是名词短语识别。老挝语的名词短语是老挝语信息表达的基本单位。它的识别可简化句子结构,是老挝语自然语言句法分析、机器翻译、信息抽取、问答系统等工作的基础性关键任务,因此老挝语名词短语的识别和分析具有重要的研究和应用价值。

相较于其他语言的名词短语识别研究,老挝语名词短语识别面临以下4个难点: ①老挝语名词短语存在边界模糊且界定描述模糊的问题; ②老挝语中含梵语、巴利语、古高棉语、泰语等,由于标注语料有限,导致语料存在大量的未登录名词短语; ③老挝语句式过长。老挝语中,中心词通常有多个修饰部分,如何有效利用长距离的句法依赖关系正确识别短语成为重要问题; ④含动词的老挝语名词短语结构复杂,识别难度较大。

传统的名词短语识别的相关研究主要基于特征工程和统计模型。如李荣等人[1]以词、词性为特征分别利用最大熵模型(Maximum Entropy,ME)、隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机模型(Support Vector Machine,SVM)对汉语名词短语识别;马建军等人[2]利用条件随机场模型(Conditional Random Fields, CRF)在以词、词性为特征的基础上,加入语义信息,实现英语功能名词短语识别。这些传统名词短语识别方法虽然可以取得较好效果,但需要丰富的专业先验知识以及大量的人工成本,且难以针对所有问题制定统一的模板。随着人工智能的发展,基于神经网络的方法因具有更强的泛化性在名词短语识别[3]、命名实体识别(NER)[4]、术语识别[5]等序列标记任务中取得了突破性的进展,其中,Huang Z[6]等人提出的BiLSTM-CRF模型成为了主流方法。BiLSTM-CRF模型在名词短语识别方面的应用,如方芳等人[7]利用字符级嵌入产生字符向量,使用字符向量基于BiLSTM-CRF模型与规则方法相结合,对汉语含动词的名词短语进行识别;张文敏等人[8]提出了一种基于词向量以预训练BERT模型和BiLSTM-CRF模型作为强基线模型,对汉语复合名词短语进行识别的方法;Lai H等人[9]采用BiLSTM-CRF模型和约束规则,将词性特征以拼接的形式集成到模型的输入词向量中,完成越南语名词短语识别。虽然BiLSTM-CRF模型在名词短语识别任务中能有效利用上下文信息自动挖掘特征,提升性能,但是对长距离上下文信息记忆能力不足,无法有效利用长距离的句法依赖关系。

近年来,注意力机制在图像识别、自然语言处理等领域被广泛应用。Wei W等人[10]结合BiLSTM-CRF和自注意力机制(Self-Attention)提出了能感知位置的序列标记模型,并在词性(POS)标记、命名实体识别和短语分块任务中证明了模型的有效性。注意力机制在名词短语识别方面的应用,如王闻慧等人[11]将注意力机制引入BiLSTM-CRF模型中, 考虑词、词性特征关系进行越南语名词短语识别,提升了越南语名词短语识别效果,证明了注意力机制能增强利用长距离重要信息的能力。

为解决老挝语名词短语识别任务中存在的问题,本文明确了对老挝语名词短语的界定,通过对老挝语名词短语结构的研究,提出了一种融合短语结构的多通道老挝语名词短语识别方法,首先对每个老挝词的词、字符、词性进行分布式表示;其次,将其对应的词向量、字符向量和词性向量以不同的方式组合拼接成多种输入通道,最后分别输入带有注意力机制(Attention)的多通道双向长短时记忆网络(BiLSTM),通过CRF层得到最优的标记序列完成老挝语名词短语的识别。实验结果表明,与其他模型相比本文方法在识别老挝语名词短语的任务上取得了更优的表现,模型的F1值达到了85.25%。

本文的主要贡献如下:

(1) 提出了一种通过对老挝词的词、字符、词性进行分布式表示并组合的获取老挝语名词短语结构特征的特征模板。

(2) 使模型通过多元化信息输入学习不同特征的联系,提取更多隐藏信息,降低了模型性能对特征向量初始值的依赖性。

(3) 通过加入Attention机制,考虑各个老挝词对目标词的重要程度,分配不同概率权重,解决了因老挝语句式过长而导致语义信息丢失的问题。

1 老挝语名词短语结构分析

本文基于服务上层任务原则和完整语义原则将老挝语名词短语界定为除去介词短语与关系小句作修饰语的老挝语最长名词短语,原因如下: ①在老挝语中,一个中心语可以同时由多个介词短语修饰,且介词短语又可以包含其他短语。故介词短语作修饰语使老挝语名词短语结构过于复杂,会极大地增加识别难度,而将识别关系小句作为修饰语的名词短语,会降低老挝语名词短语识别任务对句法分析等任务的支持作用。②基本名词短语作为小粒度语块,包含的信息有限,无法表达完整意义。故老挝语最长名词短语的识别更符合老挝语语言信息处理的实际需要。

本文根据老挝语名词短语(Lao Noun Phrases,LaoNP)的修饰语组成结构,对LaoNP作形式化结构描述,如表1所示。

表1 老挝语名词短语结构描述表

2 融合短语结构的多通道老挝语名词短语识别模型

2.1 模型结构

本文构建的融合短语结构的多通道老挝语名词短语识别模型结构如图1所示。模型由词嵌入层、多通道输入层、多通道双向长短时记忆网络(BiLSTM)层、合并层、注意力网络(Attention)层和CRF层组成。词嵌入层利用预训练的方式对每个老挝词的词、字符、词性进行分布式表示,得到其对应的词向量、字符向量和词性向量;多通道输入层由接收词向量、字符向量、词性向量不同组合的四个通道并列组成;多通道BiLSTM网络分别对不同通道同时提取每个老挝词的局部特征向量;采用合并层将不同通道获取的局部特征向量合并成新的特征向量,并输入Attention层;通过Attention层为新特征向量分配不同权重分数,最后利用CRF层将Attention层的输出解码,得到一个最优的标记序列,完成老挝语名词短语的识别。

图1 融合短语结构的多通道老挝语名词短语识别模型结构图

2.2 老挝词分布式表示

通过神经网络提取特征信息需要先将文本向量化,短语是由词和词按照固定的方式组合构成的,本文将老挝词转化成向量形式,通过使用全局向量(Glove)模型训练词级别语料库,Glove模型引入共现矩阵计算词向量,生成带有全局信息的词向量矩阵E∈RM×|v|,其中,|v|为词级别语料库的词条集合大小,M为每个老挝词映射的向量维度,即把每一个老挝词融合全局信息映射到M维向量。

在老挝语名词短语“中心语+修饰语”的结构中,修饰语部分的词性组合有较为明显的规律,如当修饰语中有指别词、数量词、形容词同时修饰核心名词时,由老挝语“语义靠近动因”原则,短语为“核心名词+形容词+数量词+指别词”的组合结构,并且老挝语语料存在大量的未登录名词短语,故利用粗粒度的词性信息: 不仅可以识别短语信息,还可以起到平滑数据的作用。为了有效利用老挝词词性对名词短语内部结构的强预测能力,相较于以往研究采用随机赋值的方式获取词性特征向量,本文采用预训练的词性特征向量,老挝词词性向量获取方式如下: 首先,将词级别语料库进行词性标注,形成的相对应词性序列为词性语料库,然后使用Glove模型训练词性语料库,把每一个老挝词的词性映射到L维向量。其优势在于通过由上下文词性来表示当前词性,使词性向量能表示词性之间的相似度。

2.3 多通道输入层

在其他语言的名词短语识别任务中,输入层一般为单通道输入,文献[11]将越南语词向量和词性向量以拼接的形式组成新的向量作为模型单通道输入,实验结果显示,结合不同特征以单通道形式输入网络的方法可以提高识别效果。借鉴文献[11]的思想,本文为了更充分地利用短语结构特征,将词特征、字符特征、词性特征进行不同组合,形成4个通道作为网络的输入,使模型可以根据多样化的输入,在训练过程中获取更多的隐藏信息。同时,不同通道将老挝语特征组合,让网络在一次学习过程中完成对多个特征的参数调整,降低网络模型的时间代价。

2.4 多通道双向长短时记忆网络(BiLSTM)层

LSTM是RNN模型的变体,其通过引入记忆单元和门限机制,克服了传统RNN模型因序列过长而产生的梯度消失和爆炸问题。但LSTM模型仅从前向获取特征信息,双向LSTM(BiLSTM)结构在LSTM的基础上,增加另一个LSTM提取后向状态,可以捕获完整的上下文特征。为了能有效利用上下文特征识别老挝语名词短语,本文使用多通道双向长短时记忆网络,4个BiLSTM同步进行四个输入通道的特征提取。

图2 第i个BiLSTM结构图

2.5 注意力网络(Attention)层

为了解决因老挝语句式过长、无法有效利用长距离重要信息的问题,本文利用Attention机制为多通道BiLSTM层输出的综合词特征向量分配不同权重分数,然后将综合词特征向量与权重向量加权求和即得融合关键信息的特征向量。注意力机制如图3所示。

图3 注意力机制

其计算如式(5)所示。

(5)

其中,U、W、M为权重矩阵,ci-1为前一时刻老挝词特征向量。

2.6 CRF层

BiLSTM层和Attention机制虽然能预测老挝语文本序列与标签的关系,但不能预测标签之间的依赖关系,故可能产生不符合标注规则的输出。基于此,本文引入CRF模型,兼顾标签的依赖关系,以确保标签的有效性。

Attention层输出的融合关键信息的特征向量矩阵C作为CRF层的输入,Cij表示老挝语句子中第i个词的j标签的概率。对于老挝句子s=(W1,W2,…Wn)产生正确标签序列y=(y1,y2,…,yn)概率表示如式(8)所示。

(8)

其中,A为转移矩阵,表示由标签i转移到j的概率。对K(X,y)使用softmax函数做归一化,产生标记序列y的条件概率如式(9)所示。

(9)

(10)

解码过程通过最大似然训练得到最优老挝语名词短语标签序列如式(11)所示。

(11)

3 实验

3.1 语料与模型设置

本文实验使用语料分为两部分: 一是老挝语名词短语语料。由于目前没有公开的老挝语名词短语数据集,因此本文通过网络抓取工具从老挝语维基百科爬取了篇章级老挝语语料(11 309个句子),使用实验室开发的老挝语分词和词性标注工具对语料进行处理后,通过人工标注的方法对老挝语名词短语进行标注(31 612个名词短语),最后由老挝语专家进行校对。语料库标注使用BIO标签集,对老挝语名词短语首部标注为“B”,内部标注为“I”,外部标注为“O”。二是额外的分词和词性标注语料(5 041个句子),该语料用于训练老挝词向量、字符向量、词性向量。本文采用五折交叉实验: 将老挝语名词短语语料均分为5组,选择其中1组作为测试集,其余4组作为训练集,重复进行5次实验,最终的结果取5次实验结果的均值,语料信息如表2所示。

表2 名词短语语料信息表

模型实现使用python语言及Tensorflow框架。模型实验超参数设置如表3所示。

表3 超参数设置

续表

模型由精确率(Precision,P)、召回率(Recall,R)和F1值进行评估,精确率表示正确识别的老挝语名词短语占识别出来的老挝语名词短语的百分比,反映了模型的识别能力;召回率表示正确识别的老挝语名词短语占语料中的老挝语名词短语总数的百分比,反映了模型的查全能力;F1值综合表征了精确率和召回率,体现综合性能。P、R、F1值如式(12)~式(14)所示。

其中,NC代表识别正确的老挝语名词短语,N1代表识别出来的老挝语名词短语,NY代表语料中的老挝语名词短语总数。

3.2 实验设计与分析

3.2.1 模型对比测试

为说明本文提出的模型的有效性,本文将模型与基于CRF、LSTM、BiLSTM、BiLSTM-CRF、BiLSTM-Attention、单通道BiLSTM-Attention-CRF的老挝语名词短语识别模型进行比较,针对基于CRF的老挝语名词短语识别模型,设置词相关性、词性相关性特征。针对基于LSTM、BiLSTM的名词短语识别模型使用Glove训练获得老挝词的词向量、字符向量、词性向量,并直接通过拼接得到综合词向量,输入模型识别名词短语。针对基于BiLSTM-CRF、BiLSTM-Attention的名词短语识别模型使用Glove训练获得老挝词的词向量、字符向量、词性向量,通过拼接得到的综合词向量输入BiLSTM进行训练,再分别经CRF层和Attention层计算,最终得到两个模型的输出结果。

基于同一老挝语名词短语语料,比较以上6种老挝语名词短语识别模型与本文提出模型的有效性,实验结果如表4所示。

表4 老挝语名词短语识别模型对比实验结果

实验结果表明,仅仅使用CRF模型、LSTM模型、BiLSTM模型在老挝语名词短语识别任务中,F1值分别为78.74%、81.50%、82.07%。对比可知,三个模型在一定程度上识别出部分老挝语名词短语,但是整体表现不佳,其模型效果表现为: BiLSTM模型F1值高于LSTM模型0.57%,LSTM模型F1值高于CRF模型2.76%。这说明在相同的老挝语标记语料的情况下,相较于人工提取特征的CRF模型,LSTM模型、BiLSTM模型结合深度学习的方法,能取得更好的精确率和召回率,深度学习模型能在一定程度上改善因老挝语标注语料有限,而导致存在大量的未登录名词短语的问题。使用BiLSTM-CRF模型和BiLSTM-Attention模型在老挝语名词短语识别任务中,F1值分别达到了83.40%、84.39%,相较于仅使用BiLSTM模型F1值得到了不同程度的提高,其中BiLSTM-CRF模型F1值提高了1.33%,BiLSTM-Attention模型F1值提高了2.32%,说明在老挝语名词短语识别任务中,加入CRF模型和Attention机制都能有效提高短语识别的正确率,CRF模型的引入能兼顾标签之间的约束,避免了出现不符合规定标签序列,而Attention机制分配权重分数,解决了因老挝语句式过长而无法有效利用长距离重要信息的问题。单通道BiLSTM-Attention-CRF模型,F1值达到了84.40%。针对老挝语名词短语识别难点,模型综合了BiLSTM模型、CRF模型以及Attention机制的优势,同时解决了老挝语语料有限、未登录名词短语较多、句式过长等问题,从而提升F1值。本文使用的多通道BiLSTM-Attention-CRF模型,F1取达到了85.25%,高于单通道BiLSTM-Attention-CRF模型F1值0.85%,说明在老挝语名词短语识别任务中将不同特征组合成不同的输入通道,能使特征信息在网络模型中得到更充分的利用,从而取得更好的识别效果。

3.2.2 特征融合评估

为说明每个特征及多通道融合特征的影响,本文基于同一老挝语名词短语语料,设计单通道BiLSTM-Attention-CRF模型,设置相同参数,以不同特征及特征组合作为输入与本文多通道BiLSTM-Attention-CRF模型进行对比实验,实验结果如表5所示。

表5 特征融合评估实验结果

3.2.3 典型实例分析

以上为对老挝语名词短语识别模型的定量对比分析,为进一步分析本文提出的老挝语名词短语识别方法的优点,本文在语料中抽取典型实例识别结果,并进行定性分析。

表6 典型名词短语实例分析

4 总结

本文研究了老挝语名词短语的结构,针对老挝语名词短语的结构特征,构建了融合短语结构的多通道老挝语名词短语模型。模型通过将词、字符和词性特征组合形成不同的输入通道,使用多个BiLSTM网络从多方面特征提取更多隐藏信息,同时改善了低资源语料存在大量未登录名词短语的问题。老挝语句式过长,模型引入Attention机制,增加重要特征的权重,减少了无用信息的干扰,最后利用CRF模型兼顾标签之间的约束,获得全局最优标记序列。实验结果表明,与其他模型相比本文提出的方法在识别老挝语名词短语的任务上取得了更优的表现,模型的F1值达到了85.25%。

本文提出多通道融合老挝语名词短语结构的短语识别机制,取得了一定的效果。后续工作中,我们考虑对识别后的老挝语句子进行句法分析等相关研究。

猜你喜欢
特征向量语料老挝
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
基于归一化点向互信息的低资源平行语料过滤方法*
老挝肉牛输华实现突破
朝发夕至 乘着火车去老挝
三个高阶微分方程的解法研究
濒危语言与汉语平行语料库动态构建技术研究
国内外语用学实证研究比较:语料类型与收集方法
英语教学中真实语料的运用
矩阵方法求一类数列的通项