基于数据挖掘算法的汉英机器翻译二元语义模式规则

2021-12-09 06:37吕洋张静华芳
微型电脑应用 2021年11期
关键词:子目标歧义短语

吕洋, 张静, 华芳

(西北大学 现代学院基础部, 陕西 西安 710000)

0 引言

语言是人类进行沟通的基础,尤其是随着国际化发展程度越来越高,不同国家之间的往来越来越频繁,不同语言之间的翻译也变得愈加重要。在国际化发展迅速的今日,单纯依靠人工翻译已经不能满足人们日常沟通、阅读的需求,因此机器翻译应运而生[1-5]。近年来,随着国内外研究学者对机器翻译系统的开发和改进,机器翻译已经在各个领域中都出现了广泛的应用。

然而,机器翻译的质量还不能够满足特殊领域的需求。例如对于某些学术论文、文学作品中的专有词汇的翻译准确度还较低,因此机器翻译系统的语言分析和处理技术还有待进一步发展。若要提升机器翻译的质量,消除词语的歧义是首要任务[6-10]。通常一个词语具有多种词义,这种歧义称为词汇歧义。而词语在与其他词汇构成短语时,受到固定搭配,通过短语构造的句法语义规律可以消除这一歧义;除了词汇歧义外,自然语言中还存在着结构歧义,是同形短语产生的歧义,通常需要从语义关系和句法结构方面进行消除。

语义规则是一种常用于剔除歧义的规则,对于外显型歧义除了可以运用上下文的句法关系进行歧义剔除,还可以直接利用语义知识进行语法分析来排除歧义;对于内含型歧义,无法通过句法关系进行歧义剔除,只能依靠语义知识进行歧义剔除[11-12]。本文设计了一种基于数据挖掘的二元语义算法,发掘词语组合的语义规律并转换成二元语义规则集。将二元语义规则模式与句法分析规则进行结合后,应用于机器翻译的歧义消除中,并对其应用效果进行了评价。

1 优化系统的整体架构

本系统是基于XMMT英汉机译系统进行优化,对其排歧方面的不足进行了改进。原系统所采用的排歧方法是“优化”和“约束”相结合的方法,但“约束”方法的研究深度不够。由于语义知识不足和算法误差,导致了“约束”排歧的效果不理想,而且对“优化”排歧的效果也造成误导。

原系统排歧效果不理想的根本原因是语义知识不全面,因此本系统外挂了一个语义模式规则获取模块。优化后系统汉英机器翻译工作流程如图1所示。

图1 优化后系统汉英机器翻译工作流程

该系统首先基于知网语料库进行语义和句法的标注,然后获得熟语料库。运用数据挖掘方法来发掘语料库中词语组合的规律,并基于“统计”方法将语义规律转换为二元语义模式规则集;进一步通过人工调整和扩充,得到最终排歧所需的二元语义模式规则库。本系统在基于所建立的二元语义模式规则库和知网语料库的基础上对语义和句法进行分析,通过外挂句法分析库进行词义标注,通过一个外挂的二元语义模式规则库对语言进行优化和调整,最终得到语言分析结果。

2 二元语义模式规则的获取

本系统二元语义模式规则获取分为2个步骤,分别为发现子目标模式和由子目标模式获取二元语义模式规则集。

子目标模式发现算法如图2所示。

图2 子目标模式发现算法

首先,利用Find算法逐层对各个层次上的子目标进行寻找。然后利用get_filtered方法删除不包含子目标模式的项和事务,得到压缩事务数据库并循环进行下一个子目标的寻找。接着利用gen_candidates算法产生候选模式集,利用候选模式集扫描压缩事务数据库,利用Subset方法找到压缩事务数据库中所有的候选并计数和删除压缩事务数据库中不被候选模式集包含的项和事务,然后得到该子目标的子目标模式集。最后,将所有子目标模式集汇总,便得到最终的子目标模式集。

通过关联规则挖掘,可以由子目标模式获取二元语义模式规则集。根据所有子目标的支持度和近似度,基于最小值置信度规则和元规则,剔除冗余规则,得到二元语义模式规则的优选算法,将子目标模式转换为二元语义模式规则集。本文所利用的二元语义模式规则的优选算法如图3所示。

图3 二元语义模式规则的优选算法

首先,基于元规则从子目标模式集中筛选出目标模式,计算目标模式的置信度,将不满足最小置信度的模式从中剔除,得到了候选二元语义模式规则集;接着扫描候选二元语义模式规则集,机选其覆盖关系的入度,将所有入度为0的候选二元语义模式规则集筛选出来,得到最终的二元语义模式规则集。

3 基于二元语义规则的语义排歧

前文介绍本系统是基于XMMT系统进行优化后的二元语义模式规则排歧,其排歧规则与XMMT系统类似。传统XMMT系统排歧是由两部分组成,CFG产生式和伪等式,分别是描述短语、句子的组成模式和约束条件、分析结果的构造过程。只要是合理的LISP表达式,均可以出现在伪等式中,所以可以将语义评价函数加入到原有的句法分子规则中。优化后的排歧规则是将二元语义模式库中的规则与语义组合进行匹配,将不合语义项、组合、句法排除,然后将所有可能的组合保存为中间结果并评分,经进一步分析得到最终排歧结果。本系统所嵌入的语义评价函数为Semantic Value函数,进行语义评价的算法如图4所示。

图4 二元语义模式规则的语义评价的算法

首先,调用Semantic Value算法进行句法和语义分析,在二元语义模式规则库中找出相应的二元语义模式规则集,计算待归约成分中每一项组合与二元语义模式规则集的语义匹配度,如果二者之间的最高匹配度规则Best.rule高于阈值θrule,那么则认为结果合理;否则,则认为该项不符合语义。将合理的结果利用Best.rule规则进行处理并进行计分,若结果最终得分高于最小语义评价得分阈值θresult,则结果合理;否则返回fail。

另外,本文利用该二元语义模式规则进行了排歧实验,以短语“黄 皮肤 男孩”为例进行了排歧分析。首先将由语料库获取了短语中各词语的词义和词性,将其转换为待归约成分,如表1所示。

表1 示例词语的词性和义项

在对待归约成分进行归约前,先利用Semantic Value函数对各义项的组合进行语义评价,当归约结果得分高于阈值θresult时,则生成新的归约成分。所有义项组合的归约结果得分如表2所示。

表2 第一次归约结果

其中D1和D3组合,D1、D3和D4,D1、D3和D5以及D1、D3和D6组合的归约结果得分均为100分,产生新的归约序列P5和P6。以上结果表明P2和P3以及P3和P4无法归约,P1和P3可以归约得到合理结果“黄皮肤”;P1、P3和P4归约得到合理结果“黄皮肤男孩”。所得到的新的带归约序列P5可以与P4进行第二轮归约,但是无法得到新的归约结果,因此归约结束,最终只得到唯一的排歧分析结果,即“黄皮肤男孩”。另外,通过2 000组随机短语排歧实验结果表明,对比原XMMT系统,基于二元语义模式规则进行排歧时,词义排歧正确率为79.9%,结构排歧正确率为85.7%,比原系统分别提高了8.6%和3.9%。

4 总结

本文基于XMMT系统进行优化,设计了一种基于数据挖掘的二元语义算法,发掘词语组合的语义规律并转换成二元语义规则集,在汉英翻译中展现了较好的排歧效果,主要结论如下。

(1) 获取二元语义模式规则包括子目标发现和二元语义模式规则集2个步骤,通过关联规则挖掘,可以由子目标模式获取二元语义模式规则集。

(2) 嵌入的语义评价函数Semantic Value,进行句法和语义分析,进行匹配度计算,完成排歧过程。

(3) 优化后的系统排歧效果得到改善,词义排歧正确率为79.9%,结构排歧正确率为85.7%,比原系统分别提高了8.6%和3.9%。

猜你喜欢
子目标歧义短语
稀疏奖励环境中的分层强化学习①
eUCP条款歧义剖析
语文教学及生活情境中的歧义现象
雷达群目标跟踪条件下的弹道预报方法
English Jokes: Homonyms
基于关联理论的歧义消除研究
基于子目标进化算法的要地防空武器系统优化部署
《健民短语》一则
浅谈一种启发法的运用