一种针对维汉的跨语言远程监督方法

2023-02-20 09:39杨振宇王磊马博杨雅婷董瑞艾孜麦提艾瓦尼尔王震
计算机工程 2023年2期
关键词:维语三元组语料

杨振宇,王磊,马博,杨雅婷,董瑞,艾孜麦提·艾瓦尼尔,王震

(1.中国科学院新疆理化技术研究所,乌鲁木齐 830011;2.中国科学院大学,北京 100049;3.新疆民族语音语言信息处理实验室,乌鲁木齐 830011)

0 概述

关系抽取是自然语言处理领域的重要任务,主要是以深度学习模型为主。但是基于深度学习模型的性能通常受到训练语料规模的限制,并且人工构造语料的过程成本过高。语料匮乏是低资源语言在关系抽取领域没有得到有效发展的重要原因。远程监督方法正是为了解决语料稀缺问题而提出的。

2009年,MINTZ等[1]将弱监督方法引入到语料构造中并提出了远程监督方法,主要思想在于通过文字查找的方式将大量的无标注语料与现有少量的已标注语料进行实体对齐并向无标注语料迁移标记,以达到快速扩充语料的目的。远程监督可以分为2 个步骤:通过实体文字查找的方式对齐语料并构造伪标注语料,以及利用有噪声伪标注语料训练性能较好的关系抽取模型。后续也有许多学者在这一领域做出了优秀的工作。例如:ZENG等[2]将多示例学习引入到远程监督方法中,把伪标注语料分为几个句包并让句包作为新的数据单元,以减少伪标注语料中的噪声对模型训练的影响;LIN等[3]通过提出软注意力机制有效提升了模型的性能。现有绝大部份工作都是围绕着如何利用有噪声的伪标注语料提升模型的性能。但是远程监督的第一步仍有2 个缺陷:要求该语言已有部分标注语料,以及实体查找的对齐方式只能在单语种的问题中实现。这导致像维吾尔语这样缺乏标注语料的语言无法使用该方法构建语料。

针对上述问题,本文提出一种针对维汉的跨语言远程监督方法,在维语零语料的条件下利用已有的汉语标注语料实现自动扩充。在关系抽取任务中,带有同一实体对并且为同一关系的2 个句子在语义表示层面要比其他的句子更加相似。因此,本文提出使用语义相似度计算替换传统远程监督方法中的实体查找,使远程监督可以脱离语种的限制实现跨语言本文对齐。首先借助维汉已有的平行语料构造维汉相似度语料,用于训练维汉相似度模型;然后向模型分别输入维汉句子对,其中汉语是带标注的句子而维语是无标注的句子。模型将2 个句子映射到同一语义向量空间,从句子语义和实体语义2 个层面综合衡量双语句子对是否包含同一三元组。当结果的概率超出阈值时,模型就认为汉维2 个句子包含同一关系,将汉语句子的关系标签转移到维语句子上以实现维语伪标注语料的构建。为了更有效地捕捉实体的上下文和隐藏语义信息,本文提出一种带有门控单元的交互式语义匹配方法。在此方法中,融合层将编码层和注意力层进行拼接融合以最大限度地获取句子中间信息。此过程中添加的遗忘门和输入门这2 个门控单元用于保留最有用的信息使模型更好地判断语料是否对齐。

1 相关工作

本文将文本相似度计算方法与远程监督的思想相结合,使远程监督可以跨语言地构建伪标注语料。

1.1 远程监督

远程监督一直受到自然语言处理领域学者的广泛关注。多示例学习是远程监督的一个主流方法,其基本思想在于将同一关系的所有句子放在一个句包中,并以句包作为数据单位进行预测。HOFFMANN等[4]提出的多示例学习方法将每个句子分配关系数量的隐变量用于进行错误标签的预测。SURDEANU等[5]在HOFFMANN 方法的基础上进行了改进,通过计算句包与各个关系之间的相似度代替关系预测,并使用贝叶斯模型对参数进行学习。JAT等[6]在传统的多实例学习基础上添加了单词级别的注意力,对句子中每个单词分配权值,使模型可以利用更加细粒度的信息完成关系预测。YANG等[7]认为实体和关系信息可以互相帮助,并提出了使用矩阵整合实体和关系信息的方法以提升模型的性能。YE等[8]改进了JAT 的注意力方法,在单词注意力的基础上添加了句包之间的注意力机制,进一步提升了模型的性能。除多示例学习外,对抗学习也是远程监督的重要方法,其可将训练集中存在错误标记的句子进行排除以提升模型的训练效果。WU等[9]将正确的数据样本与对抗样本同时输入到模型进行对抗训练,使模型可以辨别出正确样本以减少语料的噪声。LI等[10]在WU 等思想的基础上通过实体链接技术引入外部知识帮助模型确定是否为正确的样本。HAN等[11]则通过后处理的方式改善WU 等的方法,其将伪标注语料分成了置信集和非置信集并将模型判断置信度高的数据不断补充到置信集中,直到2 个数据集都不发生变化为止。

1.2 文本相似度计算

文本相似度计算旨在脱离文本的表示形式并根据文本的语义特征来确定句子之间是否具有某种关系,是语言处理领域重要的基础任务。有许多研究人员在这一领域取得了优秀的成果。HUANG等[12]提出了深层结构的潜在语义模型,将文本对投影到一个公共的低维空间中以计算它们之间的距离。SEVERYN等[13]将传统相似度方法与深度学习模型相结合,把卷机神经网络引入到相似度计算中使模型可以更加准确地获得文本特征并对所有候选的文本对重新排序。YIN等[14]在SEVERYN 卷积网络的基础上添加了注意力机制,提出了将3 种注意力机制与卷积神经网络进行融合的方法,使注意力机制可以在不同的层面带来不同的作用以提升模型的性能。WANG等[15]改变了之前大多数模型从单一的角度去匹配文本的方法,采用4 个角度进行双向匹配,并采用了matching-aggregation 的结构对2 个句子之间的单元做相似度计算。CHEN等[16]基于链式LSTM 的推理模型改善了之前工作复杂的模型结构,利用递归架构设计模型的逻辑顺序以在局部推理建模和组合推理方面优化模型。GONG等[17]对CHEN 等的工作进行了改进,在模型的输入层添加了字向量、词向量以及多种额外特征以提升模型性能。KIM等[18]受到DenseNet网络[19]的启发,在GONG 等工作的基础上提出了一种密集连接的共同注意力递归网络,将每一层的注意力信息都进行串联,使当前注意力层都能递归地得到先前层的隐藏信息,并使用自编码器缓解串联过多导致的数据维度过大的问题。

2 维汉跨语言远程监督

本文跨语言远程监督方法的基本思想是从句子语义和实体语义2 个层面来衡量维汉句子对是否包含同一三元组,可以使维语语料在零资源情况下借助已标注的汉语语料进行自动扩充。句子语义层面的方法使用具有丰富知识的多语言预训练模型获取句子的语义信息。在实体语义层面,本文提出了带有门控机制的交互式匹配方法,可以控制迭代过程中信息的保留,并且更有效地获取实体之间的隐藏信息。

2.1 问题表述和模型概述

下面给出远程监督问题的形式化描述。给定一个已标的语料库:G=(T1,R,T2),其中,T1表示语料中的头实体集合,R表示实体之间的关系集合,T2表示语料中的尾实体集合。现有一个无标记文本S和文本中的实体对h1、h2。若同时满足h1∈T1、h2∈T2、(h1,r,h2)∈G,则认为语料库中的三元组(h1,r,h2)与无标记文本S对齐,其中r∈R。

在传统的远程监督方法中,主要是用实体文字查找的方式判断条件h1∈T1和h2∈T2是否成立。这种判断方法也导致远程监督只能应用于同一语种,而本文的方法使用文本相似度计算代替文字查找。图1 显示了本文跨语言远程监督方法的整体框架。模型包括3个关键部分:1)带有实体信息的维汉相似度语料构建;2)句子层次语义相似度计算;3)实体层次语义相似度计算。

2.2 带实体信息的维汉相似度语料构建

语料对基于深度学习的方法来说十分重要,但是维汉句子相似度语料十分稀少,特别是模型所需要的语料是带有实体信息的句子相似度语料。然而维汉有比较成熟的维汉平行语料,这也是本文工作为何针对维汉的重要原因。AZMAT等[20]发现,使用“《》”框住汉语句子中的实体并翻译成维语,翻译后的维语依然保留实体周围的“<>”符号。这一方法可以将汉语的实体识别结果迁移到维语平行句子中。受到这一工作的启发,本文方法使用机器翻译领域已有的维汉平行句子进行相似度语料的自动构建,步骤如下:

1)使用已有的维汉平行语料训练出一个机器翻译模型。

2)使用汉语命名实体识别工具将用于训练的维汉平行语料中汉语句子所包含的实体识别出来,并用“《》”进行包裹。

3)为了保证机器翻译的准确性,步骤1)中的机器翻译模型对带有“《》”符号的汉语句子进行翻译,得到使用“<>”包裹实体的维语句子。因为是翻译已经训练过的汉语句子,所以结果的准确度会很高。

4)为了保证实体翻译的准确性,翻译后的实体在已准备好的维语的字典中进行查找,若找到则认为翻译正确。

2.3 句子层面的语义相似度计算

句子编码器的目标是从句子对的信息中提取特征并输出每一个单词的特征编码以对结果进行预测。为了将维汉2 个句子特征映射到同一个空间中,本文方法使用了多语言预训练模型作为句子层面语义编码器以提取句子对的特征。向编码器输入的文本为:C=ScSu,其中,Sc表示汉语句子,Su表示维语句子。在训练过程中,预训练模型随机掩蔽或替换一些单词,并通过上下文预测来学习单词的深层表征。本文将预训练语言模型表示为R(x)并将模型的每一层表示为T(x),具体操作过程可以表示为:

模型的每一层操作可以表示为:

其中:Et是单词编码;Ep是位置编码;Es是分句编码;Ot是输入词的一个one-hot 编码;Wpre是预训练模型的编码的权重。

2.4 实体层面的语义相似度计算

与普通的句子相似度计算不同,远程监督不仅要考虑句子的关系信息,而且也要确定三元组中的头实体和尾实体是否对齐。为了更好地获取实体的上下文信息和隐藏信息,本文提出了带有门控机制的交互式匹配方法,分为4 个重要的部分:1)带有相对位置信息的注意力层;2)共同注意力层;3)带有门控机制的信息融合层;4)池化层。下面将详细介绍每一层的操作。

2.4.1 维语实体标记

由于是在无标签的维语句子中构造伪标注语料,因此需要将维语句子中的实体标记出来。在实体标记过程中,模型采用二进制分类器,对每一个维语单词分配一个二进制标记(0/1)来分别检测实体的开始和结束位置,该标记指示当前标记是否对应于实体的开始或结束位置,并且为了防止句子存在复杂三元组使模型的性能下降,模型在标记实体的过程中保留了可能性最大的2 个头实体和2 个可能性最大的与头实体相对应的尾实体。换言之,标记结果保留了4 个候选三元组以提高模型的召回率。头实体标记器的具体操作如下:

其中:Ph_start和Ph_end分别表示维语句子中单词为头实体的开始和头实体的结尾的概率,当预测的结果超出规定的阈值,此位置的值为1,否则值为0;Wh_s和Wh_e代表标记器的权重;bs和be代表偏移量。同理,模型在头实体标记的基础上对尾实体进行标记,具体操作如下:

其中:Pt_start和Pt_end分别表示维语句子中单词为与式(4)、式(5)得到的头实体对应的尾实体的开头和头实体的结尾的概率;eh_s和eh_e分别表示头实体开头和结尾的单词特征向量;Wt_s和Wt_e代表标记器的权重;bt_s和bt_e代表偏移量。

2.4.2 带有相对位置信息的注意力层

在维语和汉语的句子中,单词语序是一致的,只不过汉语是从左到右书写而维语则相反。因此,实体的相对位置信息对于模型判断实体对是否匹配至关重要。受机器翻译中相对位置表示[21]的启发,本文方法在汉语和维语句子编码器的输出层中添加了一个带有可学习相对位置信息的注意层。

在注意机制的基础上,双语句子对增加了头实体与尾实体的相对位置信息。具体来说,为了获得更全面的位置信息,模型通过2 个向量来表示每个单词之间的相对位置编码,并在计算实体单词的注意编码时学习字符级别的相对位置信息。为了描述简练,本文使用汉语句子中的实体作为例子进行描述,维语实体采用完全相同的操作。本文使用向量和来表示头实体H和其他单词之间的相对位置信息,同理,使用和表示尾实体的信息。相对位置向量<,>和<,>分别添加到注意力中的键和值的计算过程中。头实体具体操作如下,尾实体采用相同的操作:

其中:Wq、Wk、Wv分别表示注意机制中查询、键和值的权重矩阵;ah是头实体的单词编码;是带有相对位置信息的尾实体特征表示。相对位置有一个限制,即当单词的相对距离超过设置的最大长度时将其视为最大距离。本文方法设定的最大距离是50,具体操作如下:

其中:Lmax代表最大距离;h代表头实体的位置;o代表其他实体的位置。

2.4.3 实体对共同注意力(Co-Attention)层

如果文本对中出现语义高度相似的实体,计算注意力权重时这个实体会获得比其他普通单词更大的权重。受到LU等[22]图片-文本匹配工作的启发,模型利用共同注意力机制计算汉语与维语实体对中单词的注意力权重。首先将同一语言的头实体和尾实体进行拼接以得到汉语的实体对表示矩阵V和维语的实体对表示矩阵U;然后计算汉维实体对的亲和矩阵C;最后使用softmax 函数进行归一化得到注意力权重。但是不同于LU 等对图像-句子对分别加权求和,本文通过注意力权重使2 种语言的实体对相互表示,具体操作如下:

其中:Wv和Wu分别表示计算相似度时的权重;cv和cu分别为注意力操作之后的汉语和维语实体特征向量。

2.4.4 带有门控机制的信息融合层

为充分利用模型信息传递隐藏信息,本文在模型中设置了一个带有门控机制的信息融合层。融合层分别将带有相对位置信息的实体特征和共同注意力层输出的实体特征进行融合。具体来说,融合层计算bv和cv的差值和点乘结果以帮助增强实体中元素之间的隐藏信息。

为更准确地挑选出有用的信息,本文方法在信息融合后添加了2 个门控单元对信息进行处理。具体来说,本文在信息融合层中设置了一个输入门和一个遗忘门,其中输入门用于决定什么值将要更新;遗忘门用于决定什么值将要遗忘,并使用一个tanh函数创建新的候选向量。门控单元的结构在图2 中展示,具体操作如下:

图2 门控单元结构Fig.2 Structure of the gate unit

其中:fv和iv分别表示遗忘门和输入门的结果;Wf和Wi分别输入门和遗忘门的权重。使用同样的方法得到维语实体特征向量进行融合后的结果。

2.5 池化层

为全面地提取实体的特征,模型通过平均池化和最大池化来提取维语和汉语每个实体对的特征。为使实体特征融合句子的全局特征而不是周围单词的特征,模型将多语言预训练模型中的句子特征作为维汉句子对的特征连接到实体向量中再进行分类。模型通过句子对相似的概率来表示分类结果,具体操作如下:

其中:MaxP 表示最大池化;AvgP 表示平均池化;Vh和Vt分别表示汉语句子中的头实体和尾实体特征向量;Uh和Ut分别表示维语句子中的头实体和尾实体特征向量;E<s>表示预训练模型输出的句子对特征向量。

3 实验与结果分析

3.1 数据准备

通过实验验证本文方法的有效性。实验数据准备如下:

1)维汉平行语料数据集:为获得高质量的维汉双语语料来训练语义相似度计算模型,本文工作所用到的维汉平行语料数据集分别来自于CWMT2013官方语料,其中包含109 000 个平行句子,在此基础上,使用2.2 节中介绍的方法构造67 000 条带有实体信息的维汉相似度正样本语料,并且为了更好地训练模型,本文从正样本语料中随机挑选出包含不同三元组的句子对构造70 000 条负样本语料。

2)词典:本文使用汉维双语词典翻译实体,该词典包含32.8 万个独特的中文术语和53.1 万个独特的维吾尔术语。

3)维语无标注语料:为了获得规范的维语单语语料,本文从天山网站(http://uy.ts.cn/)抓取30 万条维语句子作为构造伪标注语料的基础。

3.2 实验结果

本文研究的目的是在没有维语关系抽取语料的条件下,利用汉语已有的标注语料实现维语语料的自动填充。为了证明本文方法的有效性,选取15 种关系的三元组并且人工标记3 500 条维语句子和600 条汉语句子。每个关系的三元组分别分配带有此关系三元组的200 条维语句子和40 条汉语句子,另外500 条没有包含范围内的三元组,将其作为负样本。在测试中,将汉语句子和维语句子两两组合计算相似度并将模型结果对比人工标记以判断模型结果是否正确。实验使用精确率(Precision,Prec)、召回率(Recall-weighted,Rec)、F1 值(F1-weighted,F1)3 个指标综合评价模型性能。

3.2.1 多语言预训练模型对比结果

为获知哪种多语言预训练模型更加适合本文的方法,分别挑选3 种同时带有汉语和维语信息的多语言预训练模型作为句子编码器:LASER,XLM,XLMRoberta。

1)LASER[23]是ARTETXE 等为了使低资源语言有效利用其他语言的资源所提出的多语言模型。模型中使用BiLSTM[24]作为编码器与辅助解码器相结合并让所有语言共享一个BPE 词汇表。LASER 包含93 种低资源语言并使这些语言的模型在丰富资源语言的基础上达到更好的效果。

2)XLM[25]是由LAMPLE 等在BERT[26]模型的基础上针对多语言进行优化的编码器。XLM 可以使各个语言的词汇共享同一特征空间。XLM 在训练过程中输入2 种语言的句子并用一个语言的上下文信息去预测另一个语言被遮住的token。

3)XLM-Roberta[27]是由CONNEAU 等提出的大体量多语言预训练模型,其使用2.5 TB 的文本数据进行训练包含了100 种语言,其中维语文本为0.4 GB。这一模型继承了XLM 的训练方法,也借鉴了Roberta[28]的思想,将掩码单词的学习作为唯一目标而舍弃了对下一句的预测。

计算结果在表1 中展示,加粗表示最优值,从表1 的结果中可以看出,使用XLM-Roberta-large 预训练模型得到了更好的效果,但是由于XLMRoberta-large 模型的参数体量比较大,训练过程需要花费更多的时间和更好的设备。反观XLM-Robertabase 训练代价较低也可以取得较好的成果。而XLM 和LASER 的结果并不理想。

表1 主流多语言预训练模型相似度计算结果 Table 1 Similarity calculation results of mainstream multi-lingual pre-training models %

3.2.2 与传统远程监督对比结果

为使本文方法可以与传统的远程监督方法在跨语言情况下进行对比,以证明其有效性,设计了2 种可以跨语言的传统远程监督方法:

1)将已标注汉语语料中的实体通过谷歌翻译系统(translate.google.cn/)得到维语的实体表示,然后再用传统远程监督方法在3 500 条维语测试集中进行实体查找。若查找成功则将结果与人工标签对比以验证结果是否正确。

2)使用2.2 节构建的维汉平行语料训练GIZA++实体对齐工具[29]。GIZA++可以得到双语句子对中单词的对应关系以实现实体对的查找。同样将对齐结果与人工标记相对比验证是否正确。

表2 给出了以上2 种基线方法与本文跨语言远程监督方法的对比结果,加粗表示最优值。

表2 远程监督方法对比结果 Table 2 Comparison results of distant supervision methods

从表2 的结果中可以看出,实体翻译的远程监督和词对齐的远程监督方法都有着明显的缺陷。实体翻译的远程监督结果的错误主要因为:汉语实体在翻译过程中对应多种维语的表现形式,很难准确翻译到维语句子中的实体;维语是黏着语导致维语实体单独的拼写和句子中的拼写是不一致的,这也增加了单词查找的困难。词对齐的远程监督结果的错误主要因为训练对齐工具的语料无法覆盖所有的测试集,当出现未知实体时对齐结果往往是错误的。以上的分析说明了本文的跨语言远程监督方法在维汉三元组匹配场景下有明显的优势。

3.2.3 单一关系匹配结果

为了更加全面地检测模型的性能,将包含15 种关系的三元组的语料分别作为测试集,以测试模型对单一关系的三元组的识别性能,具体结果在图3中进行展示。图3 的结果表明,本文所提出的跨语言远程监督模型在汉语和维语句子对匹配方法上也取得了较好的结果。从具体的关系种类的角度可以看出,当关系为“国籍”、“首都”、“面积”等时,模型会得到较好的效果。笔者认为是因为在上述关系的三元组中存在明显的实体,比如“国籍”关系中一定会有一个国家在三元组中出现,“面积”关系中也一定会有一个数字与之对应。但是反观模型在“导致”、“创始人”、“组成”等关系的三元组识别上取得了较低的效果,这也是因为这些关系的三元组中并没有一个明确的实体出现,也增加了模型中匹配时的难度。因此,识别这一类三元组也是今后工作的一个重点。

图3 使用XLM-Roberta-large 语言模型的跨语言远程监督精确率Fig.3 Cross-lingual distantly supervised precision using the XLM-Roberta-large language model

3.2.4 消融实验

为了评估模型各部分对结果的贡献,本文在测试集上进行了消融实验。从完整的模型开始,每次移除模型的部分结构并观察该结构对结果的影响:1)去除带有相对位置信息的注意力层,只保留从多语言与训练模型获取词向量信息;2)去除共同注意力层并直接将维汉2种语言的实体向量进行拼接;3)去除门控单元对数据的过滤,并改为拼接后的实体信息直接输出;4)将原来的Maxpooling和Averagepooling替换为直接拼接实体中的单词嵌入。消融实验的结果如表3所示。

表3 针对维汉的跨语言远程监督模型消融实验结果 Table 3 Ablation experiment result of cross-lingual distant supervision model for Uyghur and Chinese %

3.2.5 维语伪标注语料构建结果

本文所提出的跨语言远程监督方法的目的是在维语没有关系抽取语料的情况下,利用汉语已有的标注语料自动构建维语伪标注数据。所构建的伪标注语料会对维语关系抽取技术的发展起到一定的推动作用。

为了展示本文工作中语料构建的最终结果,实验以之前获取的30 万条维语无标注语料为目标,通过本文提出的跨语言远程监督方法识别维汉对齐语料并将已有的汉语语料的标签迁移到维语无标注语料中,以实现维语伪标注语料的自动构建。在构建过程中,本文针对15 种关系进行汉语与维语的语料对齐。最终的实验结果是构建了由97 949 条维语句子组成的伪标注语料。维语伪标注语料的结果在图4 中进行展示。

图4 维语伪标注语料构建结果Fig.4 Results of Uyghur Pseudo-labeled corpus construction

4 结束语

本文提出了针对维汉的跨语言远程监督方法用于缓解维语缺少关系抽取语料的问题,主要难点是如何利用语义相似度来实现远程监督任务中三元组对齐的功能。为了得到准确的维语伪标注语料,本文利用维汉平行语料构建带有实体信息的相似度语料,并且在句子相似度和实体对相似度2 个层面对双语句子对的三元组是否对齐进行打分。在实体对相似度计算中,提出使用门控机制保留最有用的特征信息。实验结果表明,本文方法可以较好地完成维汉三元组对齐工作。模型成功通过该方法在15种关系上构建了97 949条维语关系抽取伪标注语料。由于相似度语料的限制,本文只在维汉跨语言领域进行实验。后续的工作是将本文方法应用于更多的语言以证明其有效性,并且考虑到语义相似度计算会引入更多的噪声,因此也会将降噪的思想加入到模型中。

猜你喜欢
维语三元组语料
对比语言学视野下的维吾尔语与朝鲜语音义相近词比较初探
特征标三元组的本原诱导子
浅析维语口语技能的影响因素和提升路径
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
基于语料调查的“连……都(也)……”出现的语义背景分析
《苗防备览》中的湘西语料
试析否定词缀在汉维语中的不同表现
国内外语用学实证研究比较:语料类型与收集方法
三元组辐射场的建模与仿真