张绪华
(上海交通大学,上海,200240)
由于能够提供两种语言之间丰富的匹配信息,平行语料库已经成为语料库语言学研究的一个重点,在语言对比研究、翻译研究、外语教学、双语词典编纂以及机器翻译等领域有着重要的应用价值。国外已经建成的大型平行语料库有加拿大汉莎英—法平行语料库、奥斯陆大学英语—挪威语平行语料库等;国内有中科院计算语言研究所的大规模汉—英对应语料库、北京大学计算语言学研究所等单位联合开发可在线检索的“BABLE汉—英平行语料库”和北京外国语大学的“通用汉—英对应语料库”,以及上海交通大学在建的英汉双向平行语料库等。
建设平行语料库面临的瓶颈问题是语料库文本语言单位对应的精确性,这主要是不同的语言在语序、句子结构和逻辑意义的表达方面都存在着明显的差异(甄凤超、张霞2004)。所谓平行语料库的对齐指从源语言文本和翻译文本中找出互译片断的过程,可实现为段落、句子、短语、单词等不同级别的对齐。但目前研究者普遍采用的对齐方法或不适用于汉英语料的对齐或对齐精度不高。针对这些问题本文提出一种新的对齐方法:即“锚点②与重叠信息”(anchor and overlap)。这种方法能更大限度利用双语文本中对译的语言信息将文本对齐,避免了基于长度对齐方法的错误蔓延问题和基于词汇对齐方法中由于锚点不足导致的对齐效果不理想的问题,提高了平行语料库对齐的效率。
本文首先简述已有的句子对齐方法,然后结合语言样本实例,介绍基于“锚点与重叠信息”汉英句子自动对齐方法的步骤。
在平行语料库句子级对齐(记作AS)方法中,一个句子级对齐单位是一个二元组,记作AS=
例1:1:1句对:在这个美好的夜晚,我很高兴同大家在这里相聚,参加2005年北京《财富》全球论坛的开幕式。
I am very delighted to be with you here to join in the opening ceremony of the 2005 Fortune Global Forum in Beijing on this beautiful evening.
例2:1:2句对:北京就是一座有3000多年悠久历史的文明古城,800多年前北京开始建都。
The city of Beijing, with its long history of over 3,000 years, stands testimony to that effort.
It became the nation’s capital over 800 years ago.
用手工完成库容庞大的平行语料库的句子对齐不太现实,因此我们需要采用一定的方法,通过计算机程序实现双语文本的自动对齐。90年代初期国外学者开始了平行语料库句子层次自动对齐的研究,并提出了几种不同的方法,包括基于长度的对齐方法(length-based method)、基于词汇的对齐方法(lexical-method)和基于长度和词典相结合(the combination method)的对齐方法(黄俊红、黄萍、范云2004)。
基于长度的对齐方法假定源语言文本的句子长度与译文句子长度有很强的相关性,即源语言中的长句翻译为目标语时仍然是较长的句子,短句则翻译为较短的句子。在基于长度的对齐方法中,有的研究以句子中的单词数作为长度度量的方法(Brown 1991),有的以句子中的字符数作为长度度量的方法(Gale & Church 1993)。在语源相近的语言如英语和法语中,基于长度的对齐方法很有效。Brown和Gale分别用这两种基于长度的方法对加拿大汉莎英—法双语语料库进行自动对齐处理,准确率达到98%以上(转引自王建新 2005:121)。基于长度对齐方法的特点是把句子对齐看作是句子长的函数,并且不需要额外的词典信息。缺点是一旦此方法偶然出错,便不可能自动纠正,致使错误蔓延,对齐准确率严重下降。
基于词汇的对齐方法又被称为基于词典的对齐方法。Kay和Röscheisen(1993)最早提出基于双语词典的对齐方法,双语词典包含词汇的对译信息,是进行词对齐的重要资源。这种方法基于以下假设,即包含最大数量对译词的一对句子是最佳对译句。基于词汇的对齐方法相对可靠准确,但由于计算起来相当复杂且速度较慢,目前还没有充分证明基于词汇的方法适合于大型语料库(黄俊红等 2004)。Church(1993)则采用同源词法(cognate)进行平行语料库对齐。此方法假设两种语言中有共同的前几个字母的词汇通常是互译词,并以这些互译词为锚点进行对齐。由于英语和非印欧语系的汉语没有同源词根的存在,所以不可能将这种方法应用于英汉平行语料的对齐。
以上两种方法各有优劣,研究人员试图将它们结合起来使用,先利用双语中对应的词汇信息对语料库进行对齐处理,无法对齐的部分再使用长度关系对齐或在基于长度对齐的基础上,再利用词汇对齐关系改进对齐效果。Wu(1994,转引自王建新 2005:122)用此方法对齐了相当一部分汉英双语的香港汉莎(Hong Kong Hansard)语料库,准确率达到92.1%。
各国学者陆续提出了各种对齐方法,但基本上多为以上三种方法的变形或改良,如McEnery和Oakes(2001)在CRATER项目中的对齐方法。针对汉英双语对齐,国内的刘昕等(1998),钱丽萍等(2000)研究者也进行了一些改进的对齐方法研究。目前很多学者在进行双语对齐研究时,大多数都是在段落对齐的基础上进行句子对齐的研究。
英法等印欧语言之间存在巨大的相似性,已有专门软件如Multiconcord对其进行自动句对齐处理,精准度很高。汉语和英语隶属于不同的语系,两者之间由于标点、句式和语篇上的明显差异,实际翻译中常不以句子为单位翻译,自动句对齐处理准确度只有60%左右,因此这一工作仍需人工完成(Wang 2001)。北京大学计算语言学研究所同中国科学院计算技术研究所、清华大学智能技术国家重点实验室联合开发的“面向新闻领域的汉英机器翻译系统”的句子自动对齐程序就是采用基于长度的方法,自动对齐结果仍需要人工校对(柏晓静等2002)。
目前汉语和英语之间进行句子层次的对齐方法尚不完善,本文认为应该充分利用双语中的对译信息,突破以往着眼于英语的对齐方法,将汉语作为源语言,英语作为目标参照语言进行对齐研究,并提出一种新的平行语料库的对齐方法,即“锚点与重叠信息”。
“锚点与重叠信息”主要是基于如下思路:拥有最多共同锚点和重叠信息的n个(n≥0)汉语句子和n个(n≥0)英语句子被认为是平行句对,并被整理为平行句对的形式。这种方法主要有五个步骤:
(1) 在汉英对译文本中寻找对译的锚点;
(2) 回译英文为汉语并寻找重叠信息;
(3) 给锚点和重叠信息赋值;
(4) 标记句子边界并完成句子级的双语对齐;
(5) 对自动对齐结果进行人工校对,得到在句子层次上对齐,并带正确的句子边界标记和对齐标记的双语平行语料库。
我们以2005年胡锦涛同志在北京《财富》全球论坛开幕式上的讲话的中英文材料作为语料来说明该方法的对齐步骤。语料汉语部分为2078个汉字,45个句子;对应的英文为1356个单词,51个句子。
双语文本的对齐由程序自动实现,然后由人工校对。我们的编程环境是Visual FoxPro 6.0。FoxPro具有软件包和编程语言的特点,有着与自然语言相似的指令和函数,能够对未赋码或已赋码的语料进行处理,适合语言学计量研究(Fan 2005)。步骤(2)中使用的翻译软件是Dr. eye译典通。
Brown(1991)在对汉莎语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断。锚点的自动提取算法已很完善,国内外有很多学者做过大量的讨论和尝试,如K-vec算法和基于词对匹配特征的DK-vec(Fung & McKeown,1994)算法,以及王斌(2000)针对以上方法的改进算法等,在锚点的自动提取上都有很好的效果,我们在这里不再赘述。
现在假设,我们有一个通过自动提取算法提取的汉英对应锚点表。当然此表不可能将文本中所有对应词囊括在内,而只包含部分对应词语。我们将每一对对应锚点编号,号码是不可译的彼此相区别的符号。如图1:
图1 双语对应锚点及编号
既然在步骤(1)中得到的锚点不可能包括文本中所有对译词,为了确保自动对齐的准确率,应该更大限度地利用汉英文本中的对译信息资源,在汉英文本中寻找更多的对译信息。具体做法是:将汉英文本中的对应锚点用其相应的编号依次代替(例1经过替换成为例3),然后把替换后的英语文本用翻译软件Dr. Eye回译成汉语(例4)。此时,经过回译的文本中没有被替换为锚点编号的词语被回译成汉语,而代表锚点的编号则与汉语文本(例3)中的一致。
例3:在这个a6的a5,我很高兴同大家在这里相聚,a8 a9年a10《a11》全球a12的a13式。
I am very delighted to be with you here to a8 in the a13 ceremony of the a9 a11 Global a12 in a10 on this beautiful a5.
例4:我很高兴能与你在这里a8在a13典礼,这个a9a11的全球a12在a10在这片美丽的a5。
不难发现,例3和例4拥有相同的锚点a5、a8、a9、a11、a12和a13等,以及一些相同的词语,如,“我”、“很”、“高兴”以及“全球”等。这些词语就是“锚点与重叠信息”中的重叠信息。重叠信息包含汉英文本中提取对应锚点后剩下的对译信息,如对译的动词、形容词、副词,还包括在自动提取锚点过程中漏掉的对译的名词等。重叠信息将在自动对齐时对数量有限的锚点起到补充的作用,降低由于锚点不匹配造成的句对错误对齐的几率,提高对齐的准确性。
接下来给锚点和重叠信息赋值。观察经过步骤(1)和(2)处理过的文本,我们发现重叠信息可靠性相对较低。原因在于英语自动译回汉语时很多句子中都出现了“的”、“了”或“是”等汉字,降低了其作为重叠信息的可靠性,因此我们赋予重叠信息低于锚点的权值,重叠信息赋值为1,锚点的权值赋为2。
此步骤要完成汉英文本句子边界的标记,以及句子级对齐。首先由程序自动完成句子的边界标记,然后把替换了锚点的汉语文本和回译为汉语的文本分别进行词类归并(tokenization)。归并后的汉语文本作为源语言,抽取其中第1句,与回译的汉语文本的1~10句分别叠加(从回译的汉语文本中抽取句子的具体数量需根据汉英文本间句对数差别而定。由于语料分别为45个汉语句子和51个英语句子,相差不到10个句子,所以我们把参数设为10),其中权值最高的就被确定为对应句对(权值相同的句对需人工处理),并进行对应句对的记录,以此类推。标注后用同样的方法处理没有找到对应汉语句的英语句,直到全部双语句子找到相对应的句子。
图2 对应句对记录
图2为对应句对的记录,竖列代表汉语,横列代表英语。横列和数列的交值为两个句子的权值,Freq列为最大的权值,最后一列Sentali即为最高权值的句对,S1代表汉语第一句,冒号后的S1表示对应英语第一句。最后程序按照Sentali中对应句对记录抽取汉语原文和英语译文句子进行对齐实现(见图3),自动对齐的准确率达到90%以上。
图3 自动对齐结果
通过对自动对齐结果的人工校对,我们得到了100%对齐的汉英平行语料库(例5)。我们对语料库进行了简单的对齐标注,
例5:
本文介绍了一种以汉语作为源语,英语作为目标参照语,利用汉英中的对译信息进行句子层次对齐的“锚点与重叠信息”方法。这种方法在处理汉英语料对齐时具有很好的效果,其基本思路为:拥有最多共同锚点和重叠信息的n个(n≥0)汉语句子和n个(n≥0)英语句子被认为是平行句对,并被整理为平行句对的形式。这种方法的不足之处在于过分依赖语言资源以及翻译软件,希望在后续的大型语料库对齐研究中加强对齐算法本身的复杂性,以减轻对语言资源的依赖。与其他对齐方法相比,这种方法能更大限度地利用双语文本中的对译信息,避免基于长度的方法的错误蔓延问题和基于词汇方法的锚点不足导致的对齐效果不理想的问题,并且取得了很好的实践应用效果。
附注:
① 衷心感谢范凤祥教授在笔者撰写本文过程中给予的悉心指导。
② 锚点即在双语文本中相似位置出现的词汇对译信息,是进行对齐的重要资源,主要包括双语对译的专有名词、普通名词、数字和标点符号等(McEnery & Oakes,2001:213)。
Brown P. F. 1991. Aligning sentences in parallel corpora [A].Proceedingsofthe29thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Berkeley, CA, USA: 169-176.
Church, L. W. 1993. Char_align: A program for aligning parallel texts at the character level [A].Proceedingsofthe31thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Columbus, Ohio: 1-8.
Fan Fengxiang. 2005. Quantitative linguistic computing with FoxPro [A]. In Kaliusåenko, V, Köehler R & V. Levickij (eds.).ProblemsofQuantitativeLinguistics:ACollectionofPapers[C].Chernivtsi: Ruta: 335-348.
Fung Pascale & Kenneth W. Church. 1994. K-vec: A new approach for aligning parallel texts [A].Proceedingsofthe15thInternationalConferenceonComputationalLinguistics[C]. Kyoto/Japan: 1096-1102.
Fung Pascale & Kathleen R. McKeown. 1994. Aligning noisy parallel corpora across language groups: Word pair feature matching by dynamic time warping [A].Proceedingsofthe1stConferenceoftheAMTA[C]. Columbia/Maryland, Association for Machine Translation in the Americas.
Gale, W. & K. Church. 1993. A program for aligning sentences in bilingual corpora [J].ComputationalLinguistics19 (1): 75-102.
Kay, Martin & Martin Röscheisen. 1993. Text-translation alignment [J].ComputationalLinguistics(19): 121-142.
Manning Christopher D. & H. Schütze. 2001.FoundationsofStatisticalNaturalLanguageProcessing[M]. Cambridge: MIT Press.
McEnery Tony & M. Oakes. 1996.SentenceandwordalignmentintheCRATERproject[A]. In Jenny Thomas & Mick Short (eds.).UsingCorporaforLanguageResearch[C]. London: Longman: 211-231.
Wang, L. X. 2001. Exploring parallel concordancing in English and Chinese [J].LanguageLearning&Technology(3): 174-178.
柏晓静、常宝宝、詹卫东.2002.构建大规模的汉英双语平行语料库[A].黄河燕主编.2002全国机器翻译研讨会文集:机器翻译研究进展[C].北京:电子工业出版社:124-131.
黄俊红、黄萍、范云.2004.专门用途语类翻译平行语料库研究述评[J].重庆大学学报(社会科学版)(6):91-94.
刘昕、周明、朱胜火、黄昌宁.1998.基于自动抽取词汇信息的双语句子对齐[J].计算机学报(8):151-158.
钱丽萍、赵铁军、杨沐昀、高光来.2000.基于译文的英汉双语句于自动对齐[J].计算机工程与应用(12):59-61.
王斌.2000.基于未对齐汉英双语库的翻译对抽取[J].中文信息学报(6):40-44.
王建新.2005.计算机语料库的建设与应用[M].清华大学出版社,北京.
王克非.2004.双语对应语料库研制与应用[M].外语教学与研究出版社,北京.
甄凤超、张霞.2004.语料库语言学发展趋势瞻望——2003语料库语言学国际会议综述[J].外语界(4):74-76.