融入事件实体知识的汉越跨语言新闻事件检索

2022-08-12 02:30:22薛振宇余正涛高盛祥
计算机工程 2022年8期
关键词:越南语文档排序

薛振宇,余正涛,高盛祥

(1.昆明理工大学 信息工程与自动化学院,昆明 650500;2.昆明理工大学 云南省人工智能重点实验室,昆明 650500)

0 概述

汉越跨语言新闻事件检索任务是指用户将包含事件信息的汉语查询句输入检索系统后,检索系统为用户返回一系列与查询句中事件信息相关的越南语新闻文档。目前主流的跨语言信息检索系统采用查询翻译方法[1]、文档翻译方法[2]或中间语言翻译方法[3]。其中,查询翻译方法首先将查询句翻译成候选文档所使用语言下的查询句,然后使用翻译后的查询句对候选文档进行检索排序。因为该方法只翻译查询句,翻译难度较低且正确率高,所以在跨语言信息检索任务中最常使用。

目前主流的检索模型有基于特征的检索模型[4]和基于神经网络的检索模型[5]。

基于特征的检索模型由于依赖于人工寻找特征且找到的特征数量有限,导致模型参数量较少,使得模型泛化能力降低,因此,其相较于基于神经网络的检索模型在完成检索任务时表现较差。但是,有一些基于特征的检索模型在融合实体语义信息后性能会得到较大提升,包括利用实体标注进行文本表示的检索模型[6]、多排序特征的检索模型[7]、基于查询句与文档间实体连接的检索模型[8]以及基于知识图谱实现查询句和文档软匹配的检索模型[9],这些模型均是通过融合实体语义信息来提高检索性能。

基于神经网络的检索模型又可分为基于表示的检索模型和基于交互的检索模型。基于表示的检索模型[10]在初始阶段对查询句和文档单独进行处理,然后使用神经网络分别编码,得到各自的文本表征并进行相似度计算,最后将文本表征的相似度作为查询和文档的相似度得分,根据相似度得分对文档进行排序。这种基于表示的检索模型在最后阶段才会利用文本表征计算查询与文档间的相似度,模型的效果过于依赖文本表征的质量,并且会丢失对模型效果有正向作用的句法和词法等基础的文本特征。基于交互的检索模型[11]在开始阶段就计算查询句与文档之间的词级别的语义相似度作为基础的交互特征,并在交互特征的基础上进一步抽取层次交互特征,得到查询句与文档交互固定维度的表示,最后通过计算相似度对文档进行打分排序。由于基于交互的检索模型尽可能早地将查询句和文档进行了交互,捕获到了查询句与文档之间相对更基础的特征,因此检索效果相较于基于表示的检索模型提升显著。

基于交互的检索模型利用神经网络和词级交互信息学习相对复杂的排序模型,其在开放域的检索任务上性能优于基于特征的检索模型和基于表示的检索模型。然而,在汉越跨语言新闻事件检索任务中包含事件描述的候选文档中含有大量新闻事件领域内特有的事件实体[12],如人名、地名、组织机构名、特定政治概念名等事件实体。目前,事件实体的语义信息能否融入基于交互的检索模型中来提高汉越跨语言新闻事件检索模型排序的性能尚不明确,并且在事件检索任务中,一篇候选文档中可能包含多个事件,这会干扰事件查询句和包含该事件信息的候选文档匹配的性能。以越南语候选文档中的事件描 述“为例,该描述中包含3 种不同的事件,分别为:,中文解释为“Tedros 发表新 年演讲”;“”,中文解释为“政府必须增加公共卫生预算”;“COVID-19”,中文解释为“资助所有人获得COVID-19疫苗”。假定用户对“Tedros 发表新年演讲”这一事件感兴趣,用户输入的查询句可能是“”,在查询句与候选文档进行排序匹配时,其余2 种事件会增加噪声,扩大匹配的事件范围,降低查询句与候选文档匹配的准确度,影响检索模型的性能。

一篇候选文档中可能包含多个事件,为了能在候选文档中准确地找到与查询句中提及的事件相关的事件范围,每个事件均有相应的事件触发词,在事件查询句中也有事件触发词的情况下,可以将事件触发词作为分类不同事件的依据。例如“Tedros 发表新年演讲”事件中的触发词为“”。本文提出一个融入事件实体知识的基于交互的汉越跨语言新闻事件检索模型。对汉语查询句进行翻译后,利用无监督标注方法PredPatt[13]识别查询句与候选文档中的事件触发词划分候选文档事件范围,利用事件实体、事件触发词和多语言知识图谱获得查询句与事件范围中事件实体的语义知识表示。在此基础上,使用基于交互的检索排序模型并融入事件实体的语义知识表示,对查询句和文档进行匹配排序,从而提升模型检索性能。

1 本文汉越跨语言新闻事件检索模型

1.1 模型结构

本文构建一个融入事件实体知识的汉越跨语言新闻事件检索模型,模型结构如图1 所示。其中,查询句为汉语事件查询句,候选文档为越南语新闻文档。首先将汉语查询句翻译为越南语查询句;然后识别出翻译后的查询句与越南语文档中的事件触发词,并基于文档中的事件触发词对文档划分事件范围;之后使用越南语事件实体识别方法[12]识别出查询句与文档事件范围中的事件实体,进而基于多语言知识图谱和事件触发词对事件实体的语义进行扩充;最后使用基于交互的检索模型框架分别提取查询句中的词和文档事件范围中的词、查询句中的词和文档事件范围中扩充后的事件实体、查询句中扩充后的事件实体和文档事件范围中的词以及查询句中扩充后的事件实体和文档事件范围中扩充后的事件实体交互所产生的排序特征,根据排序特征计算查询句与文档最终的排序得分。

图1 融入事件实体知识的汉越跨语言新闻事件检索模型结构Fig.1 Structure of Chinese-Vietnamese cross-language news event retrieval model incorporating event entity knowledge

1.2 越南语事件查询句生成

汉越跨语言新闻事件检索首先面临的问题是汉越之间存在的语言隔阂对检索造成的阻碍。目前,跨语言新闻事件检索研究中最常用的方法是查询翻译方法,即先使用现有的翻译工具将事件查询句的语言翻译为候选新闻文档所用语言,再利用翻译后的事件查询句进行事件检索。因此,本文通过现有的翻译工具将汉语事件查询句Q 翻译为越南语事件查询句q。

1.3 文档事件范围检测

单个候选新闻文档中包含多个事件,若对整个文档与事件查询句进行匹配,会产生较大的匹配误差。因此,对于每个文档d,本文使用PredPatt 方法识别d 中所有的事件触发词假定其中一个触发词的位置为l,窗口大小为p,则取l-p至l+p范围内的词作为该触发词在文档中的事件范围Di。计算出所有触发词对应的事件范围之后,可以将文档d 看作f个事件范围的集合,即d={D1,D2,…,Df}。

1.4 事件实体的语义知识表示

本文利用越南语事件实体识别方法识别出查询句q 与文档事件范围D 中的事件实体,并在多语言知识图谱ConceptNet[14]中找到其对应的实体类型和实体描述,融入本文模型。事件触发词位于2 个实体之间并连接2 个事件实体,可以表征事件实体之间的关系。本文使用PredPatt 识别出查询句与文档事件范围中的事件触发词,并融入事件触发词本身的语义信息。最终,事件实体的语义表示包含以下4 种大小为L维的词嵌入:

1)实体词嵌入

将实体词e 通过词嵌入层Embe得到大小为L维的实体词词向量计算公式如式(1)所示:

2)实体描述词嵌入

通过ConceptNet 找到实体词e 对应的包含m个词的实体描述。首先将描述中的每一个词w 通过词嵌入层Embw得到大小为L维的词向量vw,将m个词向量视作一个整体向量矩阵Vw。然后将Vw通过卷积操作得到代表长度为h的n-gram 向量计算公式如式(2)所示:

其中:WCNN与bCNN是 卷积核的2 个参数。

3)实体类型词嵌入

通过ConceptNet 发现实体词e 隶属于n种实体类型,表示为Fe={f1,f2,…,fj,…,fn}。首先将实体词e通过实体类型嵌入层Embu得到fj的向量表示

然后使用注意力机制将n种实体类型融合为一个实体类型词向量

其中:aj为注意力分数;Pj是查询或文档事件范围向量表示与fj实体类型向量表示的点积;利用词袋模型[15]对查询句或文档事件范围进行编码,Wbow是一个参数矩阵。

4)触发词嵌入

通过PredPatt 方法识别出查询句或文档事件范围中的事件触发词ttrg,并通过词嵌入层Embtrg得到大小为L维的触发词词向量计算公式如式(7)所示:

通过线性层对上述4 种词嵌入进行融合,得到事件实体最终的语义表示,计算公式如式(8)所示:

其中:We是维度大小为L×3L的矩阵;be是维度大小为L的向量。

1.5 融入事件实体知识的检索排序

本文使用基于交互的检索模型作为融合越南语事件实体知识的模型框架,对于单个查询句q 和单个文档事件范围D,基于交互的检索模型通过建立两者之间的词级交互矩阵[16],使用q 与D 之间的词向量相似度来衡量q 与D 之间的相似度。

基于交互的排序模型首先将q 与D 中的每个词t通过词嵌入层Embw得到大小为L维的词向量vt:

然后基于得到的查询词向量和文档词向量生成交互矩阵M,其中每一个元素Mij表示q 中第i个词向量与D 中第j个词向量之间余弦相似度的值,计算公式如下:

本文借鉴XIONG 等[17]提出的基于词与实体交互的匹配模型。该模型首先利用词袋模型处理查询句与文档中的词与标注好的实体,然后使用已有的不同排序模型(如BM25[18]、TF-IDF[19]等)分别计算查询词与文档词的排序得分、查询词与文档实体的排序得分、查询实体与文档词的排序得分和查询实体与文档实体的排序得分,最后将这4 种排序得分作为特征融入模型,计算最终的查询句与文档的排序得分。然而,该模型的特征提取效果过度依赖于已有的检索排序模型且提取过程繁琐。考虑到这一点,本文在汉越跨语言新闻事件检索这一特定任务中,使用交互矩阵M={Mww,Mwe,Mew,Mee}来衡量查询词或查询实体与文档词或文档实体之间的相似程度,其中:Mww、Mwe、Mew、Mee分别表征查询句中词与事件范围中词的交互(qw-Dw)、查询句中词与事件范围中事件实体的交互(qw-De)、查询句中事件实体与事件范围中词的交互(qe-Dw)和查询句中事件实体与事件范围中事件实体的交互(qe-De)。

其中:WCNN与bCNN是卷积 核的2 个参数。

同理,得到代表长度为hD的n-gram 事件范围向量

因此,Mww、Mwe、Mew、Mee中各元素的计算方式如下:

交互矩阵M={Mww,Mwe,Mew,Mee}可以插入到任何基于交互的检索模型中,本文使用Conv-KNRM[21]这一基于交互的检索模型作为结合M的模型框架。以Mww为例,Conv-KNRM 使用K个高斯分布从Mww中提取排序特征ϕ(Mww),将每一个高斯分布Kk特征计算的结果为一个soft-TF 值[22],因此,K个高斯分布对Mww处理之后生成了一个K维特征向量ϕ(Mww)={K1(Mww),K2(Mww),…,KK(Mww)},计算公式如式(13)所示:

其中:μk和δk分别表示第k个高斯分布的均值和方差。同理,得到ϕ(Mwe)、ϕ(Mew)和ϕ(Mee)。

将ϕ(Mww)、ϕ(Mwe)、ϕ(Mew)和ϕ(Mee)拼接成最终的排序特征Φ(M):

本文在得到最终排序特征Φ(M)的基础上,利用排序学习[23]得到查询句与事件范围最终的排序得分,计算公式如式(16)所示:

其中:ωr和br是排序学习的参数;tanh 为激活函数。

由于一个文档d 中含有f个事件范围,即d={D1,D2,…,Df},因此对于查询句q 和文档d,取q 与D1,D2,…,Df中最大的排序得分作为q 与d 最终的排序得分:

其中,Φ(M)x表示查询句q 与事件范围Dx计算所得的排序特征。

最后,通过优化如下所示的合页损失函数[24]对模型进行训练:

本文通过反向传播优化模型参数,在此过程中,对实体词词嵌入、实体描述词嵌入、实体类型词嵌入、触发词词嵌入、词级交互和特征提取进行联合学习。

2 实验结果与分析

2.1 实验数据和实验参数设置

本文实验使用的汉越双语新闻数据集包含汉语数据集和越南语数据集,其中,汉语数据集用于构建汉语事件查询句,越南语数据集用于构建越南语候选文档。为了对比本文模型在越南语单语新闻事件检索任务和汉越跨语言新闻事件检索任务中的性能差异,利用越南语数据集人工构建与汉语事件查询句数量相同的越南语事件查询句。查询句与文档的相关性标签由人工标注,1 表示相关,0 表示不相关。实验中用到的汉语和越南语数据集中查询句子数与候选文档数的详细统计信息如表1 所示。

表1 数据集中查询句与候选文档数量Table 1 Number of query sentences and candidate documents in the data set

在本文实验中:窗口大小p的值设定为5;实体词嵌入、实体描述词嵌入、实体类型词嵌入和触发词嵌入的维度L设定为300;CNN 中滤波器个数为128;使用Adam 优化器优化模型参数,初始学习率设置为0.001,训练轮次为100 轮。针对越南语事件查询句和越南语候选新闻文档所使用的事件实体识别模型为融合词典与对抗迁移的越南语事件实体识别模型[12],该模型经过训练之后,在越南语新闻数据集上识别效果较好,越南语事件实体识别的F1 值达到90.05%。实验中使用的翻译工具为目前汉越翻译性能较好的Google 在线翻译软件。汉语事件查询句、越南语事件查询句和使用翻译工具翻译后的越南语事件查询句均是只包含一种新闻事件的单一事件查询句。本文使用的所有检索模型均在Nvidia Tesla P100 GPU 上进行训练和测试,在汉越双语新闻数据集上,本文提出的融入事件实体知识的汉越跨语言新闻事件检索模型每一轮数据训练时间约为0.8 h。

2.2 评价指标

在实验中使用NDCG[25](Normalized Discounted Cumulative Gain)和MAP[26](Mean Average Precision)作为评价指标。

其中:k表示k个文档的集合;ri表示排序列表中第i个文档与查询句的相关度。将DCG@k按照相关度从大到小对文档进行排序后即得到idealDCG@k;R表示与查询句相关的文档总个数;position(I)表示在检索结果列表中从前往后第I个相关文档在列表中的位置;MAP 是对多个查询语句的AP 求均值。

2.3 对比实验与结果分析

将本文模型与基线模型进行比较,验证本文方法的有效性。基线模型分为基于特征和基于神经网络2 类。基于特征的检索模型包括RankSVM[27]和Coor-Ascent[28]2 种排序学习模型以及基于词的无监督检索模型BM25;基于神经网络的检索模型包括ARC-I[29]、ARC-II[29]、CDSSM[10]、MatchPyramid[30]、DRMM[31]、K-NRM[32]、Conv-KNRM、BERT-ATT-DBSCAN[33]、ATER[34]和BERT-MaxS[34],其中,ARC-I、CDSSM、BERT-ATTDBSCAN和ATER 是基于表示的检索模型,ARC-II、MatchPyramid、DRMM、K-NRM、Conv-KNRM和BERTMaxS 模型是基于交互的检索模型。

1)RankSVM 模型将文档检索排序问题转化为文档对的分类问题,然后针对此分类问题利用SVM模型[35]进行求解。

2)Coor-Ascent 是一种用于无约束优化问题的常见优化方法。该模型在检索过程中通过一系列的一维搜索来求解最终的多元目标函数。

3)BM25 模型是在融合TF-IDF 特征的基础上计算查询句与文档相关性的模型,其先计算每个查询词与文档的相关度,再将得到的所有的词与文档的相关度进行加权求和,最后计算出最终的查询句与文档之间的相关度值。

4)ARC-I 模型使用CNN 来进行文本匹配,其先将查询句和文档表示成2 个定长的向量,再将2 个向量拼接成一个向量整体,最后把向量整体输入多层感知器中,多层感知器的输出结果即为查询句与文档的匹配得分。

5)ARC-II 模型是ARC-I 模型的扩展,其先将查询句与文档表示成向量,利用滑动窗口来选取词向量组,将词向量组作为一个固定单元进行卷积,将卷积后的结果作为查询句与文档相互作用的初步向量表示,再对其进行多次卷积和池化操作,最后将结果送入多层感知器中得到查询句与文档之间的匹配得分。

6)CDSSM 模型先将查询句与文档中的每一个词表征为词向量的形式,对设定的滑动窗口内的词向量进行卷积进而生成一个短语向量表示,再对短语向量表示进行池化操作。因为滑动窗口可以动态选取不同词向量,获取到句子中单词顺序信息,所以该模型能够对查询句与文档间的匹配关系进行更完整的描述。

7)MatchPyramid 模型构建查询句与文档间的匹配矩阵,使用卷积操作提取匹配矩阵中的特征,进而利用这些特征计算查询句与文档间的相似度。

8)DRMM 模型选取查询句中的一个词,将该词与文档中所有的词分别构成词组对,对于每一个词组对,使用余弦距离计算其相似度。该模型利用计算出的不同相似度构建直方图,因而可以有效区分查询句与文档之间相似的程度。

9)K-NRM 模型先将查询句和文档转化为向量形式,利用查询句向量和文档向量构建交互矩阵M,再引入K个核函数,通过核函数池化的方式计算查询句与文档的相似程度。

10)Conv-KNRM 模型相较于K-NRM 模型,在进行核函数池化之前,分别利用滑动窗口对查询句向量和文档向量进行卷积操作,得到新的特征向量。在此基础上,对于查询句和文档的新特征向量,两两进行余弦相似度计算形成交互矩阵M。最后,使用K个核函数池化的方式计算出查询句与文档的相似程度。

11)BERT-ATT-DBSCAN 模型先将查询句和文档分别利用加入注意力机制的BERT[36]模型转换为向量形式,再利用DBSCAN 聚类算法对查询句向量与文档向量进行聚类得到向量簇,通过计算查询句向量簇与文档向量簇的余弦相似度找到与查询句相关联的文档集合。

12)ATER 模型使用BM25 算法计算出查询句与文档的相关度值,并使用BERT 模型将查询句和文档分别转换为向量形式,利用编码器-解码器架构计算出查询句与文档之间的相关度值。在此基础上,将2 种相关度值进行加权求和,得到查询句与文档最终的相关度得分。

13)BERT-MaxS 模型使用BM25 模型计算查询句与文档的相关度值,并将文档切分为句子集合并分别与查询句进行拼接,使用基于BERT 的排序模型计算查询句与每个文档句的相关度值。在此基础上,取最高相关度值与BM25 算法计算得出的相关度值进行加权求和,得到查询句与文档最终的相关度得分。

在查询句为越南语事件查询句的情况下,对越南语候选文档进行检索排序。比较本文模型与基线模型在越南语数据集上检索性能的差异,实验结果如表2所示。

表2 在越南语数据集上的越南语单语新闻事件检索性能Table 2 Retrieval performance of Vietnamese monolingual news events on Vietnamese data set

从表2 的对比结果可以看出,本文模型检索性能优于其他检索模型。其中,基于神经网络的检索模型性能均优于基于特征的检索模型,相较于传统的BM25 检索模型获得大幅度提升,在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 评价指标上分别提升0.540 6、0.565 6、0.489 6、0.588 3 和0.531 2。与Conv-KNRM 模型相比,本文模型在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 评价指标上分别提升98.82%、76.46%、57.61%、50.93%、98.77%,原因是本文在将Conv-KNRM 作为检索模型框架的基础上,把事件实体的分布式表示作为外部知识融入排序过程中,不仅进行查询句与文档间词与词之间的匹配,而且增加了查询句与文档之间的词与事件实体的匹配、事件实体与事件实体的匹配,同时利用事件触发词划定文档中的事件范围,缩小了查询句与文档匹配的空间,提升了匹配效率。与基线模型中性能最佳的BERT-MaxS 相比,虽然BERT-MaxS 在NDCG@1 和NDCG@5 指标上 均略高于本文模型,但该检索模型是基于BERT 模型构建的,模型训练所需数据量较大,模型参数较多,完成一次检索过程的时间复杂度较高。

为探究事件实体知识的不同部分对模型检索性能的影响,进行越南语单语新闻事件检索的消融实验,在以下4 种情况下对比检索性能:1)检索模型Conv-KNRM;2)在Conv-KNRM 基础上分别加入4 种词嵌入(实体词嵌入、实体描述词嵌入、实体类型词嵌入和触发词嵌入);3)在Conv-KNRM基础上划分文档事件范围;4)在Conv-KNRM 基础上两两加入4 种词嵌入。消融实验结果如表3所示。

表3 在越南语数据集上的消融实验结果Table 3 Ablation experiment result on Vietnamese data set

从表3 中可以看出:

1)在4 种词嵌入类型中,实体描述词嵌入对于模型检索性能的提升最大,在融入实体描述词嵌入后,模型相较于Conv-KNRM 在MAP 评价指标上提升了0.157 2。

2)在只融入实体类型词嵌入的情况下,模型相较于Conv-KNRM 在MAP评价指标上只提升0.015 6;但是在同时融入实体词嵌入和实体类型词嵌入的情况下,模型相较于Conv-KNRM 在MAP 评价指标上提升了0.107 5。由此可见,相较于只融入实体类型词嵌入的情况,只有把实体类型词嵌入和其他词嵌入一同融入时,模型性能才得到较大提升。

3)融入4种词嵌入(实体词嵌入、实体类型词嵌入、实体描述词嵌入和触发词嵌入)后模型的MAP 评价指标相较于Conv-KNRM 提升0.207 7,充分证明了通过知识图谱和事件触发词找到并融合成的事件实体语义表示可以有效提升查询句与文档的匹配性能。

4)在只对文档划分事件范围后,模型的MAP 评价指标相较于Conv-KNRM 提升0.125 8。

5)相较于同时融入4 种词嵌入后的模型,本文模型在NDCG@1、NDCG@3、NDCG@5、NDCG@10和MAP 评价指标上均提升较高。由此可见,对文档划分事件范围后,可以缩小模型匹配的空间,大幅提升模型性能。

在查询句为汉语事件查询句的情况下,对越南语候选文档进行检索排序。比较本文模型与基线模型在汉越双语新闻数据集上的检索性能,实验结果如表4 所示。

表4 在汉越双语新闻数据集上的汉越跨语言新闻事件检索性能Table 4 Retrieval performance of Chinese-Vietnamese cross-language news events on Chinese-Vietnamese bilingual news data set

从表4 中可以看出:各模型检索性能相较于越南语单语新闻事件检索性能均有所降低。这是因为模型性能受所使用的翻译工具影响,翻译工具的翻译质量不高,会导致翻译生成的越南语事件查询句并不完全符合越南语正常的语法和句式表达。对于所有对比基线模型,翻译生成的越南语事件查询句质量低的情况严重影响了模型的检索性能。相较于只在越南语数据集上的NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 评价指标:RankSVM分别降低0.067 0、0.059 9、0.135 1、0.152 3 和0.074 5;Conv-KNRM 分别降 低0.135 6、0.174 8、0.202 1、0.228 9和0.130 2;而本文模型性能降低相对较少,分别仅降低0.009 9、0.006 8、0.015 1、0.003 3 和0.000 8。这是因为本文模型依赖于使用多语言知识图谱和事件触发词生成事件实体的语义知识表示,进而进行查询句与文档的词与词之间、词与事件实体之间和事件实体与事件实体之间的匹配排序。而事件实体往往可以被翻译工具翻译正确,从而降低了词与事件实体之间和事件实体与事件实体之间的匹配排序误差,因此,本文模型受翻译工具翻译质量的影响较小,能够较好地进行汉越跨语言新闻事件检索排序。

为探索查询句的翻译操作是否会影响事件实体知识的不同部分对模型检索性能所产生的促进作用,在汉越跨语言新闻事件检索时,对本文模型进行消融实验。实验设置与越南语单语新闻事件检索的消融实验设置相同,实验结果如表5所示。

表5 在汉越双语新闻数据集上的消融实验结果Table 5 Ablation experiment result on Chinese-Vietnamese bilingual news data set

从表5 中可以看出:经过查询句翻译之后,事件实体知识的各部分依然可以对模型的检索性能产生促进作用;在4 种词嵌入类型中,实体描述词嵌入对于模型检索性能的提升最大,在融入实体描述词嵌入后,本文模型相较于Conv-KNRM 在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 评价指标上分别提升0.293 3、0.268 6、0.250 9、0.277 0 和0.286 7。

3 结束语

本文通过融入事件实体知识,提出一种新的汉越跨语言新闻事件检索模型。将汉语查询句翻译为越南语查询句并识别出候选文档中的事件触发词,基于触发词对文档划分事件范围,同时识别查询句中的事件触发词并使用事件实体识别方法识别出事件范围和查询句中的事件实体,基于知识图谱和触发词得到事件实体的知识表示,将事件实体知识融入基于交互的排序学习算法中对候选文档进行排序。实验结果表明,本文模型在汉越双语新闻数据集上相较于对比的基线模型取得了最佳的跨语言新闻事件检索效果。但是本文模型在汉越双语新闻数据集上的检索性能相较于其在越南语数据集上的检索性能有所降低,原因在于模型检索的性能受到所使用翻译工具的翻译性能的限制。同时,其在查询句与文档匹配排序的过程中未考虑查询句中的事件触发词与文档中的事件触发词的歧义对查询句和文档匹配过程所造成的影响。后续将通过融入双语词典或引入双语词向量空间来辅助提升翻译工具的翻译效果,并且探索如何在查询句和文档匹配阶段进行事件触发词消歧,从而进一步提升模型匹配的性能。

猜你喜欢
越南语文档排序
排序不等式
纳苏彝语越南语亲属称谓特征及其文化内涵异同研究
有人一声不吭向你扔了个文档
恐怖排序
节日排序
刻舟求剑
儿童绘本(2018年5期)2018-04-12 16:45:32
汉语经历体标记“过”及其在越南语中的对应形式
基于RI码计算的Word复制文档鉴别
现代汉语与越南语存在句否定形式与情态特征的比较研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat