霍小静
摘 要:以高精度翻译多种自然语言的单词/语句为目标,设计基于人工智能的机器自动翻译系统。首先设计了机器自动翻译系统的总体结构,然后重点描述了机器自动翻译系统的核心模块,该模块获取单词/语句通过训练获取词向量,初始词向量并赋予词性特征,采用对数线性模型实现多种自然语言的单词/语句的词向量多特征融合翻译,最后进行了实例分析与验证。结果表明,该系统可高精度翻译自然语言,在不同句型、不同并发用户量、未登录词不同字符数量下,系统翻译性能较为稳定,能够满足实际应用需求。
关键词:人工智能;机器自动翻译;词向量;低频词
中图分类号:TP391
文献标志码:A
文章编号:1007-757X(2020)11-0077-03
Abstract:In order to translate the words/sentences of many natural languages with high precision, a machine automatic translation system based on artificial intelligence is designed. The overall structure of the MT system is designed firstly, and then the core module of the MT system is described. The module obtains the word vector and the initial word vector, and gives the part of speech features through training. The log linear model is used to realize the word vector multi feature fusion translation of multiple natural languages. Finally, an example is analyzed. The results show that the system can translate natural languages with high accuracy. Under different sentence patterns, different concurrent users and different characters of non-login words, the system has stable translation performance and can meet the practical application requirements.
Key words:artificial intelligence;machine automatic translation;word vector;low frequency word
0 引言
机器翻译将大数据技术和计算机系统作为运行基础,可在确保翻译正确率和实时性的同时,通过人工智能理论不断优化内部结构,提高翻译质量[1]。翻译并非是语言服务的全部,仅是语言服务的一个细化内容。机器翻译不仅解决了语言服务的初翻译问题,还可解决语言服务的内容管理、项目管理等内容。当前计算机技术推动机器自动翻译系统发展,机器自动翻译系统被很多高校与研究机构使用,进入实用化与商品化阶段[2-4]。人工智能技术的出现,使得机器自动翻译系统的翻译效果得以提升[5-7]。
本文围绕人工智能理论,设计了基于人工智能的机器自动翻译系统,该系统翻译模块采用基于多特征融合的神经网络翻译模型,不单可以去除语义、词义中差异,还可以实现多特征融合的机器自动翻译。
1 人工智能的机器自动翻译系统
1.1 系统架构设计
人工智能的机器自动翻译系统架构设计图,如图1所示。
系统由用户应用模块、翻译模块与系统管理模块构成。用户应用模块为用户提供登录、翻译服务,翻译模块实现多种自然语言间单词/语句翻译,将反馈结果呈现至用户。系统管理员通过管理模块进行查询、修改翻译规则。
翻译模块为人工智能的机器自动翻译系统的核心,其架构图如图2所示。
用户使用系统时,在翻译界面输入翻译请求后,翻译模块将翻译请求以词向量的形式传输至服务器,服务器使用神经网络翻译模型翻译单词/语句,能够设定访问次数限制,完成并发请求的分配。
1.2 多特征融合的神经网络翻译模型
神经网络是人工智能理论技术中的一种,采用多特征构建翻译模型,将用户输入的单词/语句通过训练获取词向量。对词向量融入词性特征,去除语义、词义中差异。
1.2.1 词向量训练
构建基于连续词向量学习方法的词向量训练模型,词向量训练模型,如图3所示。
1.2.2 低频词替换
使用具备词性特征的词向量,运算多种自然语言词和词之间的近似水平后,把系统知识库中未登录词(低频词)通过词典中和它近似水平最大的词替换掉,降低未登录词的数目[8]。
(1) 将翻译语句单词分成高頻词和低频词。
(2) 计算词向量运算低频和高频词的相似度。
1.2.3 多特征融合
(1) 使用对数线性模型融合多种语言的词性特征。对数线性模型,如式(5)。
(2) 针对某些语句与其描述内容存在词不表意情况时,使用文本词干、词缀序列依次建模的形式,获取自然语言A特征,如式(6)、式(7)。
式中,ε、μ依次描述词缀与词干特征函数权重;Ω1、Ω2分别为词缀、词干序列的特征函数。
1.2.4 模型构建
通过最大似然估计的方法训练式(5),设置词向量特征训练集为(j,φj),多特征融合的神经网络翻译结果,如式(8)。
2 实例测试
2.1 语料库
采用本文系统对CWMT201英汉新闻领域语句进行翻译,CWMT2017英漢新闻领域语句详情,如表1所示。
表1中,CWMT2017英汉新闻领域语句训练集20 000个英汉新闻领域语句,用于训练本文系统中基于多特征融合的神经网络翻译模型;开发集20 000个英汉新闻领域语句,用于优化本文系统中基于多特征融合的神经网络翻译模型参数,测试集20 000个英汉新闻领域语句,用于测试本文系统翻译效果。
2.2 召回率统计
以召回率为判断指标,本文系统对英汉语句翻译效果的召回率,如图4所示。
分析图4可知,不同语句数量下,本文系统翻译结果召回率高,翻译结果有效。
2.3 不同句型下的系统翻译性能测试
设定需要英汉翻译的句型依次是简单陈述句、一般疑问句、并列复合句、从属复合句、特殊用法句。测试本文系统对不同句型翻译后,单词翻译正确的语句数、结构正确的语句数、语义正确的语句数,如表2所示。
表2中翻译结果显示,本文系统翻译5种存在差异的句型后,单词翻译正确的语句数、结构正确的语句数、语义正确的语句数为19 999个,和原始数量相比,缺少1个,原因是特殊用法句不存在通用翻译模式,但本文系统对简单陈述句、一般疑问句、并列复合句和从属复合句翻译后,语句的单词翻译、结构和语义全部正确。
2.4 系统的翻译耗时和BLEU分数
使用翻译能力类似的4名学生设成初级翻译组Q1,使用4名在翻译单位存在至少4年翻译经验的翻译员设成高级翻译组Q2,分析两个翻译组使用本文系统前后的BLEU分数,BLEU分数是对于一个给定的句子,有标准译文S1,还有一个本文系统翻译的结果S2,对于本文系统翻译S2的所有短语而言,具有多少个短语出现在S1中,此比率即为BLEU的分数。 初级翻译组、高级翻译组使用本文系统前后的翻译耗时与BLEU分数,如表3所示。
分析表3可知,初级翻译组、高级翻译组使用本文系统前后的翻译耗时与BLEU分数差异明显,使用后的BLEU分数均大于95分,由此可证本文系统能够提高翻译速度,优化翻译效果。
2.5 并发用户量对本文系统影响
设定并发用户量依次是150~550个,测试本文系统响应用户翻译指令时,系统的响应耗时,如表4所示。
表4中,伴随并发用户量增多,本文系统对用户指令的响应耗时低于1 s,最大值仅有609 ms,原因是本文系统翻译模块中,使用解码器提升了系统的并发处理性能,优化了系统响应速度。
2.6 未登录词字符对本文系统翻译性能影响
提取CWMT201英汉新闻领域语句中未登录词字符数分别是50~250个的语句,在此条件下,测试本文系统翻译结果的BLEU分数,如图5所示。
当需要翻译语句的未登录词字符数是100个、200个时,本文系统翻译结果的BLEU分数为97分,当需要翻译语句的未登录词字符数是300个,甚至大于300个时,翻译结果的BLEU分数为96分,虽存在小幅度变化,但是分值大于95分,较为理想。未登录词字符对本文系统翻译性能不存在显著影响。
3 总结
为了获得理想的机器翻译结果,设计了基于人工智能的机器自动翻译系统,并以CWMT201英汉新闻领域语句为例,进行翻译性能测试。结果表明,本文系统翻译结果,召回率较高,翻译结果可信;翻译速度快,具有十分广泛的应用前景。
参考文献
[1] 侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-35.
[2] 哈里旦木·阿布都克里木,刘洋,孙茂松.神经机器自动翻译系统在维吾尔语-汉语翻译中的性能对比[J].清华大学学报(自然科学版), 2017, 57(8):878-883.
[3] 苏依拉,乌尼尔,刘婉婉.基于统计分析的蒙汉自然语言的机器翻译[J].北京工业大学学报, 2017, 43(1):36-42.
[4] 李强, 黄辉, 周沁,等. 模板驱动的神经机器翻译[J]. 计算机学报, 2019, 42(3):116-131.
[5] 李北,王强,肖桐, 等.面向神经机器翻译的集成学习方法分析[J].中文信息学报, 2019, 33(3):42-51.
[6] 叶绍林,郭武.基于句子级BLEU指标挑选数据的半监督神经机器翻译[J].模式识别与人工智能, 2017,30(10):937-942.
[7] 王亚娟, 李晓, 杨雅婷,等. 基于释义信息的维汉机器自动翻译系统融合研究[J]. 计算机工程, 2019, 45(4):294-301.
[8] 朱顺乐.融合多特征的汉维神经网络机器翻译模型[J].计算机工程与设计, 2019, 40(5):1484-1488.
[9] 刘宇鹏,马春光,张亚楠.深度递归的层次化机器翻译模型[J]. 计算机学报, 2017, 40(4):861-871.
(收稿日期:2020.04.11)