不同语义认知视角下交互式智能翻译方法研究

2021-04-16 01:17何春燕
宿州学院学报 2021年1期
关键词:短语语义语法

何春燕

甘肃医学院外语教研室,甘肃平凉,744000

交互智能翻译的技术难度主要是由于语序不一致和虚词类型过多等原因所致,在句子翻译过程中主要依赖虚词的来源、时间和状态等因素,从而增加了交互智能翻译的难度[1]。交互式智能翻译的研究对象是语言的生成问题,理解句意是语言生成的前提,通过对句法的深入分析和理解,可以提高翻译的准确性[2]。

文献[3]提出基于双语短语约束的交互式机器翻译方法,交互式机器翻译是通过机器翻译系统与译员之间的交互作用来引导计算机解码的一种技术。目前主流的翻译方法是用解释器确定的前缀作为引导解码的唯一标准,但交互作用有限,交互效率较低。采用短语表的多样性排序算法,提升候选短语的多样性,双语短语和前缀一起约束解码过程进行解码,可减少翻译时间。文献[4]提出基于Transfer和Triangulation融合的中介语统计机器翻译方法,这是一种以英语为介质语言的德—汉翻译方法,将Transfer方法与Triangulation方法的优势相融合,形成新的翻译方法,采用解码中介短语改善短语表,提升翻译性能。在基于中介语的翻译过程中,通过对中介语短语进行解码,结合传统中介语翻译方法及其特点,可以改善短语翻译方法。文献[5]提出基于实例相似度检测的蒙汉机器翻译方法,提出了一种基于词汇的多样性排序算法来改进短语的候选词,根据译者的翻译认知过程设计交互界面,提高翻译过程中的用户体验。在翻译算法方面,利用双语短语和前缀作为约束,引导源语言短语的解码,提高翻译假设评估和过滤的准确性。

尽管以上研究取得了相应的研究成果,但由于不适合不同的语义认知角度的智能翻译,而且在翻译过程中准确率较低,因此本研究提出不同语义认知视角下交互式智能翻译方法。以英汉翻译为例,把语义单元理解和语义单元合成的句义理解结合起来,即一个语义单元存在于一个系统中,系统和被理解的对象形成了一种对应关系,表示这个系统理解这个语义单元,理解一个句子中所有的语义单元就表示这个系统理解这个句义,并且这个系统还能理解整个句子中所有的语义单元之间的相互代入关系。基于不同语义构建翻译模型,计算短语相似度,完成交互式智能翻译方法。人们浏览不同语言资料时,可通过交互式智能翻译方法实现实时翻译,为以不同语言为母语的人们提供交流便利。

1 不同语义认知视角下的翻译方法

根据语义信息的机器翻译特征,构建语义语法树,实现交互式智能翻译[6],具体步骤如下:

步骤1:根据语义信息列举语义单元;

步骤2:基于语义语法树获取语义语法模式;

步骤3:词语对齐;

步骤4:计算翻译模型处理后的单词翻译概率,采用词汇化加权公式计算该翻译概率,获取短语相似度,并作为新特征[7];

步骤5:将新特征加入解码器,输出翻译结果;图1为不同语义认知视角下的翻译技术路线图。

图1 不同语义认知视角下的翻译技术路线图

如图1所示,列举语义单元、获取语义语法模式和词语对齐在翻译模型中占有重要地位。不同语义认知视角下的交互智能翻译问题可以借鉴翻译技术路线来实现[8]。

1.1 列举语义单元

不同语言里的字与词之间并非存在明显的对应关系,在不同语言里均有表述一致语义的句子,表示不同语言能够互相翻译[9]。每种语言的语义单元合成对应语言的句子,字、词、词组与变量构成语义单元。

首先,分别从文本编码器和图像编码器学习独立的上下文向量的基础上,列出语义单元需要考虑的文本和图像[10];其次,在为文本和图像学习共享空间时,要约束句子,使它们更接近共享空间中句子的意义,即语义一致。最终建立语义单元,并用语义单元表示概念,具体表示为:

设置K种语言组成的语言合集Q={I-不同语言|I=1,2,…,G},式中,G=1。语言包括:汉语与英语等。其中,I-不同语言的一个句子的语义为句义(CC),I-不同语言∈Q。

句义表示(PICC)是在每个I-不同语言中句义一致的句子,即该句义在每个I-不同语言中的句义。

语义单元CV是在每个I-不同语言中表示意思一致的单元,(PICV)为在每个I-不同语言中的语义单元表示。

句义(CC)即语义单元(CV)。(PICV)为I-不同语言中的语义单元表示,同时是I-不同语言中的句子。

举例说明:“王女士是营养师”的四个语义单元如表1所示,与其相应的四个语义单元写法如表2所示。

表1 语义单元表

表2 语义单元写法

1.2 语义语法模式

1.2.1 语义语法树

语义语法树表示不同概念之间的语义语法层次结构。特指语义语法分类总称为根节点S,即树的顶端;语法分类名为枝节点,即第二层节点[11];语义分类名为第三层以下节点。将产生大量的单语义语法内容,如配有文字说明的图片等。图像描述生成模型对输入图像进行自然语言描述,并对其进行标注,使图像与语言相关联,即此种模式为语义语法树的表现形式。

根据同义词词林,综合考虑其余语义概念层次结构设置语义类别名称。图2、图3分别是部分英语与汉语语义语法树。

图2 英语语义语法树

图3 汉语语义语法树

图2与图3中,路径中也许存在其他节点,用虚线代表。不同类型的词语语义语法表现形式不同,英语语义语法树和汉语语义语法树也有所不同。

1.2.2 获取语义语法模式

需要解释的词为B,语义语法模式T部从存在B的句子(短语)的相同部分获取,语义语法模式V部从一个句子(短语)的不同部分获取。最后的s,d变量名为Gen(s,d),s到d的最短路径为Genscore(s,d),词、词语与变量名均可用s,d表示。

设定Genscore(s,ε)或Genscore(ε,d)=2,空字符为ε。则有

Genscore(s1…sn,d1…dn)=Genscore(s1,d1)+…+Genscore(sn,dn)

语义语法模式的算法:

(1)初始化S1S2S3…SN-1SNSN+1单词,按照从左至右顺序形成的英语句子,与其相应的E1E2E3…EM-1EMEM+1汉字按照从左至右顺序形成的汉语句子;

(2)英语与汉语语义语法模式T部从句子的相同部分获取;英语与汉语语义语法模式L部从句子的不同部分获取;

(3)如果s,d为姐妹,Gen(s,d)是s,d的父节点,或者Gen(s,d)是s的父节点,Gen(s,d)也是d的父节点,将最后结果输出;

(4)如果不同部分并非两个单个词s,d,为不同部分词语(s1…sn,d1…dm)分配指定搭配集;

(5)计算词语长度,其中各个指定搭配集长度以一个词的长度计算;

(6)Gen(s1…sn,d1…dm)=Gen(s1,d1)…Gen(sn,dm),再按照(3)的过程获取Gen(s1,d1)…Gen(sn,dm)的结果。

(7)如果计算长度不同,通过搭配空字符与词语(指定搭配集)形成Gen(s1…sn,d1…dm)的更多可能性;

(8)计算全部可能性Genscore(s1…sn,d1…dm);

(9)Gen(s1…sn,d1…dm)的最后结果是Genscore的最小情况,再按照(3)的过程获取Gen(s1,d1),…,Gen(sn,dm)的结果。

以“我是陌生的面孔=I am a strange face”与“他是陌生的面孔=He is a strange face”作为两句翻译实例,按照语义语法模式的算法,得出语义语法模式T部是从两个句子中存在face的相同部分获取,语义语法模式L部从两个句子中的不同部分获取。两个英语句子的不同部分为(I,He),两个汉语句子的不同部分为(我,他),剩下部分则为两个句子的相同部分,保留相同部分,利用语义语法树将不同部分更改成语义语法变量名,即N{pronoun}be*a strange face=N{代表}陌生的面孔,If N{pronoun}=N{代表}I=我、he=他。

1.3 词语对齐

伯克利对准器可用于机器翻译工具[12]。在翻译之前,伯克利首先训练英语和汉语的平行语料,然后再进行翻译。以英语词为标准,使汉语词与英语词对齐,出现英语词时都会出现相应的汉语翻译[13-14]。然后,根据源语言和目标语言、短语和句子之间的关系显式,优化评价两个句子的语义一致性,正式地把翻译任务转化为强化学习问题。

作为空白处,同一语料里一个英语词的两种汉语对比形式通过最大似然概率获取,使各个汉语词均精准出现在英语词后[15]。

1.4 短语翻译相似度

1.4.1 获取单词翻译概率

目标语言端的语义k近邻词是通过双语语义向量映射办法将翻译模型处理后的单词映射到目标语言端获取。以语义k近邻词为基准,计算翻译模型翻译后的单词和标准语言单词翻译概率,公式如下:

(1)

(2)

式中,y(h|f)表示翻译模型处理后的单词与目标语言端单词间的翻译概率;h′表示在目标语言端中单词f的映射向量;O(h′)表示在目标语言端中单词f的语义k近邻词集合;sim(h|hk)表示语义k近邻词hk与单词h的语义相似度,通过归一化向量余弦相似度得出语义相似度;x(hk|f)表示单词f和目标语言端语义k近邻词hk间的互译度,通过softmax函数归一化处理映射向量与k近邻词向量的语义相似度获取互译度。

1.4.2 短语翻译相似度计算

短语翻译相似度依据短语的词汇化加权公式进行计算。依据单词翻译概率,采用词汇化加权公式计算得到正反向短语翻译相似度,将正反向的短语翻译相似度当作新特征加入解码器,输出翻译结果。计算正向短语翻译相似度公式如下:

(3)

式中,f表示翻译模型翻译后的短语,h表示标准语言短语,a表示词对齐,len(f)表示f短语的长度,x(hj|fi)表示hj与fi的正向翻译概率。

同理,计算反向短语翻译相似度的公式如下:

(4)

式中,len(h)表示短语的长度,x(fi|hj)表示fi与hj的反向翻译概率。

2 实验分析

选取新闻领域的600句英语材料为实验对象,找出600句英语材料中的有关人体单词的基本信息,如表3所示。

表3 有关人体词的基本信息

根据四种不同情况测试本文方法翻译英文的准确率与召回率,四种情况分别如下:

第一种:成功输出翻译结果且翻译准确,与原本汉语译文一致;

第二种:成功输出翻译结果,与原本汉语译文不同,但意思一致,属于准确翻译;

第三种:成功输出翻译结果,翻译错误;

第四种:翻译失败表示没有输出翻译结果。

准确率P的计算公式如下:

(5)

召回率R的计算公式如下:

(6)

本文方法准确率与召回率的测试结果见表4。

表4 本文方法英译汉的准确率与召回率的测试结果

(续表)

根据表4可知,本文方法英译汉的平均准确率为97.9%,平均召回率为96.4%。实验证明:本文方法能够有效翻译目标单词,且准确率高。

采用本文方法与基于双语短语约束的交互式机器翻译方法(文献[3]方法)、基于Transfer和Triangulation融合的中介语统计机器翻译方法(文献[4]方法)对所选取新闻领域的600句英语句子进行翻译,分别统计句中小于等于20词与大于20词的情况下正确翻译句子的数量,表5为三种方法的测试结果。

表5 三种方法的翻译正确数量统计结果

由表5发现,本文方法翻译正确的句子数量高于其余两种方法。在对准器小于等于20词的句子中,本文方法翻译正确率为96%,其余两种方法的翻译正确率分别为82%与79%,在对准器大于20词的句子中,本文方法翻译正确率为98%,其余两种方法的翻译正确率分别为83%与81%。实验证明:本文方法在翻译句子时的准确率更高,可为交互式智能翻译提供重要参考。

3 结 语

本文从语义认知的角度探讨了不同语义认知视角下交互式智能翻译方法,分析了翻译中需要翻译的句义信息,提高了翻译的准确性。实验结果表明,该方法有效可行,翻译准确率高于其他两种对比方法。

鉴于今后的研究方向,单语料的发展规律可进一步加以探讨。在当前普遍采用的单语料开发方法中,训练成本和时间成本较大,如何更有效、快速地开发使用单语料是值得深入研究的问题。

猜你喜欢
短语语义语法
真实场景水下语义分割方法及数据集
语言与语义
跟踪导练(二)4
参考答案
批评话语分析中态度意向的邻近化语义构建
“吃+NP”的语义生成机制研究
《健民短语》一则