童毅见
(解放军外国语学院,河南洛阳 471003)
平行语料库是一种特殊的语料库,主要是指双语平行语料库,即语料库中的两种语言文本构成互译的关系。一般来说,只要两种语言的语料达到篇章级译文对应就可以称之为平行语料,但是在实际应用中我们通常对平行语料库有着更高的要求,例如要求题材分布大致平衡的双语平衡语料库、要求平行文本内句子、短语或词汇对齐的双语对齐语料库等。
平行语料库在机器翻译中有重要的应用。对于基于实例的机器翻译(EBMT)而言,对齐的双语平行语料库构成了其知识的主要部分。通过平行语料库构建实例库,对输入的句子,在实例库中检索类似的翻译实例,调整实例后生成译文,此外还可以利用翻译记忆库构成新的平行文本添加到实例库中,提高译文质量。对于基于统计的机器翻译(SBMT),句对齐的双语平行语料库通常被用来进行参数训练,优化翻译模型(或对齐模型),同时,通过平行语料库,还可以抽取如科技术语、命名实体等等价对,将其补充到词典中去,能有效地改善译文的质量。对基于转换的机器翻译而言,平行语料库也能在词法、句法分析过程中,发挥重要的作用。就汉、英两种语言而言,尽管目前没有汉英平行树库问世,但是可以预见,高质量的汉英双语平行树库的建设对汉语、英语信息处理,尤其是汉英机器翻译有着巨大的推动作用,而这一切的基础就是构建高质量的汉英双语平行语料库。
此外,平行语料库在双语词典编撰、术语库的建立、多语信息抽取、词义消歧等方的应用也取得了丰硕的成果(孙乐等 2000)。除了自然语言处理领域,平行语料库也是语言学研究的重要工具,在比较语言学、语言教学、第二外语习得等研究领域得到了广泛的应用。
歧义现象广泛地存在于自然语言中,自然语言处理的关键在于消歧。关于消歧的研究成果众多,但利用双语平行语料库自身特点来解决单语歧义问题的研究却少之又少。冯敏萱等提出平行语料库的平行处理技术,即在处理一种语言时,尽量借助另一种语言来消除本语言的歧义。我们可以从Ido Dagan的研究中为这种方法找到理论依据,Ido Dagan等(1991)认为“两种语言比一种语言蕴含信息更多”。通常来说两种语言歧义的发生是交替的,中文发生歧义时,英文可能没有歧义,例如“鸡不吃了”,我们很容易通过其英文翻译得到其确定的语义信息;同理,当英文发生歧义时,中文也可能没有歧义,例如英文词汇“fly”,当它做名词时,可表示“苍蝇、门帘”等,可以借助其中文翻译来消除词汇层的歧义。这种歧义发生的交替性,使得利用双语平行语料库的平行处理技术进行单语消歧是可行的。
利用平行处理技术解决单语层面的歧义问题可以在词法、句法、语义甚至语境等多个层面上展开。本文利用汉英双语语料库来识别中文文本中的外国人名译名,属于平行语料库的平行处理技术在词法分析层面的利用。
汉语自动分词有两个难点,一是歧义切分的问题,另一就是未登录词识别问题。所谓未登录词是指分词系统的词典中没有收录的词。外国译名的识别属于未登录词识别中的专有名词识别。在汉语分词过程中,如果文本中存在未被识别的外国译名,则很容易造成分词错误。目前,我们常用的一些分词工具如中科院词法分析器(ICTCLAS)中尚无外国人名的汉译名识别模块。例如我们在ICTCLAS 2011中,输入句子“国际田联取消费尔南多的参赛资格”,得到的切分结果如下:
国际/n田联/n取/v消费/v尔/y南/f多/a的/u参赛/v资格/n
可见,外国人名译名的识别对自动分词的重要性。
外国人名译名相比于中国人名、地名而言,有自己的特点,例如外国译名用字比中国地名用字更有规律、译文中通常含有多字词等。对外国人名译名的识别,通常采用统计的方法,在识别过程中,也可以利用上下文信息,这种上下文信息包括“总统”、“夫人”、“先生”等称谓,也可以是诸如“约翰·史密斯”中间的符号“·”。对于上下文信息不明确的外国人名译名,可以利用其自身的特点,使用一个译名表来统计译名的用字特征,并根据词串内部特征确定译名边界(孙茂松,张维杰 1993)。此外,孙宏林(2001)利用《英语译名手册》来统计译名首、中、末等位置信息的方法来识别英语人名译名;方华等(2004)提出一种运用改进分词方法进行外国译名识别的研究。值得说明的是,这些方法都是基于单语种的。
考虑到我们采用的双语平行语料库均为英汉平行语料库,其中所涉及的外国人名多为英语人名,所以本文主要做英语人名译名的识别。
我们利用平行语料库进行中文文本中英语人名译名识别的基本思路是:首先从英语文本中找出可疑的英文词汇,作为原英文人名候选集,然后利用英汉音字对应表,对候选集中的每个词汇进行首音节和尾音节分析,并在中文文本中搜寻是否同时包含首音节和尾音节对应的汉字,并且对其位置有一定的限制,找出译名的边界。将满足要求的中文对应结果存储下来,最后依据英汉音字对应表中的频率信息进行筛选。
实验中用到的《英汉音字对应表》是冯敏萱博士(2006)根据英汉发音规则,利用译名库,记录下的全部英语人名译文用字的字形、频率、可对应的多种英语人名音节及汉语拼音的声韵形式。将其转换为ACESS数据表,如图1所示。表中一共包含6个字段,其中ID为编号,是该表的主键。CW是中文字、PY是拼音、EW是对应的英文音节、count是频数、ratio是频率信息。
图1:英汉音字对应表
实验算法如下:
第一步:从英语文本中找出原英文人名候选集,首先将所有句子的首个单词到常用词词典(不含人名)中去查找,如果包含在常用词词典中,则将其舍弃,否则加入候选集。其次将所有出现在句中的首字母大写的词汇加入候选集,最后去除诸如“Lady、Miss、Mr”等噪音词汇。在加入候选集的过程中,我们还记录了对应句子的编号,方便从对应的中文句中找对应字。实际上,我们也可以采用英文词性标注工具选出标注为“/NNP”的英文词作为候选集,不过我们的方法可以从一定程度上扩展候选集,增加召回率。
第二步,对每一个候选人名,取出其所有可能的首音节及其对应汉字,在去除相应首音节后剩余的字符串中取出所有可能的尾音节及其对应汉字。为了避免诸如“Ana:安娜”这种首尾音节共用一个字母的情况,我们将剩余字符串的长度往左移一位。
第三步,在对应的中文句中,找到首汉字和尾汉字出现的位置,并要求尾汉字在首汉字后面,总字符串长度小于英文字母的个数,两个位置之间不允许出现非中文字符。将满足条件的原英文人名和可能翻译人名加入到词典中,并去掉重复的结果。
第四步,利用频率信息,进行筛选。对于同一英文名对应多个汉语词的情况,利用首尾音节频率的乘积,选出频率最大的一个。
例如候选词“Jupiter”,其首音节可能是“j”,对应汉字包括“朱”、“吉”,也可能是“ju”,对应的汉字包括“贾”、“朱”、“求”;其尾音节可能是“r”、“er”、“ter”,对应的汉字包括“尔、勒、沃、鲁、罗、雷、里、拉、赖、丽、落、利、亚、阿、厄、埃、欧、特、廷、得、塔”,在中文文本中进行搜索,满足条件的只有“朱庇特”。
利用上述算法,我们在中科院语言资源平台上下载的1500句对平行语料库上进行了测试。实验使用了窗口程序,结果显示如下:
图2:实验结果显示窗口
按词例数来计算召回率、正确率和调和平均值,得到的结果如下:
召回率=100%*识对的汉译名/英文人名=88.4%
正确率=100%*识对的汉译名/使出的汉译名=97.4%
调和平均值(F-measure)=100%*(2*召回率 *正确率)/(召回率+正确率)=92.7%
从实验结果来看,召回率不是很理想,漏识的主要类别有:
第一,平行语料库自身未匹配,如中文文本中的“埃米”,英文中用“she”来代替;
第二,有些人名直接以英语形式写入到汉语中;
第三,“英汉音字对应表”尚不完备,有一些音节和对应字未加入表中;
第四,算法中对于如“潘”,这种单字情况没有考虑;
不过通过实验,我们也发现,这种音字匹配的方法还召回了不少英文地名译文,如“Rome(罗马)”等。
基于平行语料库的英语人名译名识别,只是平行语料库的平行处理技术在词法层面的一个简单应用。
就本实验而言,我们还需要在更大的数据上进行测试,同时对算法进行改进,以得出更好、更精确的结果,我们采用的平行语料库是英语为原文而汉语为译文的“英汉平行语料库”,实际上如果采用汉语为原文、英语为译文的“汉英平行语料库”我们还可以研究中文人名翻译成英文的特点,从而进行中文人名的识别。此外,我们还可以进行其它国人名和音译的地名、机构名的识别。
就平行语料库而言,我们可以在分词、词性标注、语义标注等多个层次的应用上利用平行处理技术,使之发挥更大的作用。
Dagan,I.&Itai,A.&Schwall,U.(1991).Two Languages Are More Informative Than One[A].Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics.
方华,王振华,陆汝占,刘绍明(2005).运用改进的分词方法进行外国译名设别的研究 [J].计算机仿真(3)。
冯敏萱(2006).论汉英平行语料的平行处理 [D].南京师范大学博士学位论文。
孙宏林(2001).现代汉语非受限文本的实语块分析 [D].北京大学博士论文。
孙乐,金友兵,杜林,孙玉芳(2000).平行语料库中双语术语词典的自动提取 [J].中文信息学报(6)。
孙茂松,张维杰(1993).英语姓名译名的自动辨识,计算语言学研究与应用 [M].北京:北京语言大学出版社。