李金珠
摘要:随着科技的发展,统计方法在机器翻译中得到广泛应用。如今机器翻译的质量越来越高,越来越多的人群依赖机器翻译系统,然而由于翻译机器在解码时存在短语匹配过于精确的问题,导致难以充分利用翻译短语表中的短语进行翻译,因此为了进一步提高翻译质量,本文加强了对人机互助的交互式口语翻译方法的研究。本文主要分析了当前机器翻译存在的问题,并针对交互式口语翻译方法和发展方向进行了研究和探讨。
关键词:机器翻译;交互式口语翻译方法;模糊匹配
如今基于短语统计机器翻译方法的翻译质量较高,应用也比较广泛。该种翻译方法主要是采用短语精确匹配的方法,然而虽然对书面语的翻译比较精确,但由于口语的非规范性,导致口语的翻译质量并不高。对于口语翻译质量问题,本文提出了人机互助的交互式口语翻译方法,即通过短语模糊匹配的方法,提高翻译质量。
一、当前机器翻译存在的问题
当前我国机器翻译主要采用短语的统计方法,该种方法主要是指将任意连续的字符串当做短语,然后通过精确匹配短语进行翻译。短语统计机器翻译方法虽然能够通过分辨短语词序信息提高翻译质量,但其采用的短语精确匹配的策略,使只有完全符合翻译短语词序的短语在翻译过程中得到应用,导致翻译数据严重不足。在口语翻译中,由于口语的随意性,口语存在重复、次序颠倒、省略等问题,此时如果依然采用短语精确匹配的策略,则会导致翻译质量明显下降。
针对当前机器翻译存在的问题,主要有两种方法进行改善,但其中增大短语表规模的方法会致使解码系统负荷过大,因此不予采纳。另一种方法则是通过加强对短语知识的研究,如短语表中存在大量不完全匹配但语义相同的短语,在翻译过程中应当充分利用这些短语,以提高翻译质量。不过由于机器难以对短语的语义相似性进行判别,因此需要人为判别,即人机互助交互式口语翻译的质量能够得到明显提升。
二、交互式口语翻译方法
人机互助的交互式口语翻译在国内外已经得到大量的研究,其主要是通过翻译的预处理,确保翻译系统能够对正确地对输入的内容进行翻译。其大概流程如下:将源语言句子输入翻译系统后,翻译系统会将源语言句子中的所有短语进行切分,然后比对短语序列,如果短语全部在短语表中,则直接翻译,输出翻译结果。如果短语没有全部在短语表中,则采用短语模糊匹配,对句子进行扩展并进行翻译。随后利用组合分类器选择翻译质量得到提升的翻译结果,最后由人为判断选择最终的翻译结果,并输出。下文主要针对交互式口语翻译方法进行了研究,旨在利用人的知识改善翻译机器存在的短语辨别问题,保障口语翻译质量。
(一)短语模糊匹配方法
交互式口语翻译短语模糊匹配方法主要有两种,一种是计算两个相似短语之间的相似度,另一种则是判断语义的相似度。但该两种方法的翻译准确率和翻译速度均难以满足人们需求,因此为了提高计算速度,应当利用Dice系数和编辑距离,通过对无关短语的过滤,得到满足条件的短语集合,从而提高翻译质量和翻译效率。
(二)组合分类器设计方法
如果将所有相似的短语均由人工判断,则难以发挥机器翻译的优势,因此在人工交互翻译之前,翻译机器需要对得出的句子进行筛选,将翻译质量提高的句子提供给翻译者进行判断。比如,以SVM分类器作为基本分类器,对机器翻译的句子进行辨别,将句子分为翻译质量提升和翻译质量没有提升两种。组合分类器在进行语料的测试时,主要是以原始翻译结果作为参考。
(三)交互式翻译方法
组合分类器选择出翻译质量提高的句子后,由人工进行选择和判断。由于短语模糊匹配难以充分保障短语语义的一致性,因此需要采用人机互助的方法选择出翻译质量最好的句子,完成翻译任务。人机交互翻译需要通过对话管理完成,人工選择人机交互翻译方式下最优的翻译结果。在人机交互翻译过程中,需要充分考虑翻译者的负担,即翻译机器需要提高交互效率,避免翻译者出现不耐烦、厌烦等情绪,不利于翻译质量的提升。
三、交互式口语翻译的发展方向
目前人机互助的交互式口语翻译中还存在一些问题有待解决,如口语翻译中关键信息丢失问题,机器翻译评测中自动评价方法问题,口语语序问题等。人机互助的交互式口语翻译仍然是以机器翻译为主,因此在对翻译机器进行开发时,要从用户的角度出发,使机器翻译过程更加具有人性化特征,满足翻译者的需要。另外,翻译机器应当以互联网大数据作为基础,获取大规模的口语资源,通过资源共享的方式推动机器翻译的发展。将人工翻译和机器翻译有效的结合,通过人工翻译提高机器翻译质量仍然是目前国内外的主要研究方向,同时人工翻译还能够为机器翻译评测提供参考依据,从而提高机器翻译质量。
四、结束语
综上所述,随着我国加强对机器翻译的研究,如今机器翻译质量越来越高,但机器口语翻译还存在一定的问题,主要是由于口语翻译存在语序问题、重复问题等。而人机互助的交互式口语翻译能够有效通过短语模糊匹配、组合分类器排除和人工选择等方式,选择最优质的翻译句子,进而保证翻译质量。
参考文献:
[1]杜金华,张萌,宗成庆,等.中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望[J].中文信息学报,2013,04:1-8.
[2]司莉,庄晓喆,贾欢.近10年来国外多语言信息组织与检索研究进展与启示[J].中国图书馆学报,2015,04:112-126.
[3]吴丹.交互式跨语言信息检索中用户行为研究[J].中国图书馆学报,2012,03:78-90.