李艳翠,冯继克,来纯晓,冯洪玉,冯文贺
(1. 河南师范大学 计算机与信息工程学院,河南 新乡 453007;2. 河南科技学院 信息工程学院,河南 新乡 453003;3. 广东外语外贸大学 语言工程与计算实验室,广东 广州 510006)
自然语言的单位从小到大分为词、短语和句子,最后形成篇章。在实际应用中,自然语言处理大都要在篇章上进行,不可断章取义。要正确理解篇章,就需要了解篇章中的衔接。衔接是一个语义概念,当篇章中某个成分的含义需要依赖于另一个成分解释时,就会出现衔接,汉语和英语中都有多种衔接手段。衔接主要有指代、省略和连接: 指代是指用代词、冠词等表示特定的事物或已被提及过的事件;省略是指在事理逻辑上应有但在字面上却没有的成份;连接主要指连接不同篇章并表达语义关系(如因果、并列、转折等)的词语。汉英篇章衔接手段有差异,如例1和例2。
[例1]a: (他)r1脱下衣服的时候c1,他a1听得外面很热闹,阿Qa2生平本来最爱看热闹,(他)r2便c2即寻声走出去了。(他)r3寻声渐渐的寻到赵太爷的内院里,虽然c3在昏黄中,(他)r4却c4辨得出许多人,赵府一家a3连两日不吃饭的太太也在内,还有c5(他们)r5间壁的邹七嫂,(也有)c6(他们)r6真正本家的赵白眼,赵司晨。(鲁迅: 阿Q正传)
b:Whilec1’her1’was taking off his shirthea1’heard uproar outside,andsincec2’AhQa2’always liked to join in any excitement that was going,her3’went out in search of the sound,her4’traced it gradually right into Mr. Chao’s inner courtyard.Althoughc3’it was duskher4’could see many people there: all theChaofamilya3’including the mistress who had not eaten for two days.Inadditionc5’,theirr5’neighbor Mrs. Tsou was there,aswellasc6’theirr6’relatives Chao Pai-yen and Chao Szu-chen.(杨宪益、戴乃迭译: The True Story of Ah Q)
[例2]a:尽管c1减轻污染a1的呼声不断,(并且)c2公众日渐愤怒,污染a2还是变得更糟糕了,(这)r1越发显出环保的紧迫性。
b:Despitec1’frequent calls for cuttingpollutiona1’,andc2’growing public anger,theproblema2’has only got worse,whichr1’increasingly shows the urgency of environmental protection.
例1中的篇章衔接方式主要有指代、省略和连接。例1a省略了四个主语“他”(r1~r4),由于省略的主语在上下文中是隐含的,因此并未给读者在阅读上造成困难,省略的“他”和“阿Q”形成省略衔接。但在英语中,主语是不能省略的,否则句子的结构将不完整,如例1a的对照翻译例1b,翻译时被省略的主语“he”(r1’~r4’)都被补充上。例1a中的“他”(a1)和“阿Q”(a2)和例1b中的“he”(a1’)和“Ah Q”(a2’)形成指代衔接。例1a中的连接成分“虽然”(c3)、“还有”(c5)、“也有”(c6)分别和例1b中的“Although”(c3’)、“In addition”(c5’)、“as well as”(c6’)相对应,它们的功能相同,其中,连接词“也有”(c6)在汉语中是省略的,而相应的翻译中却根据意义补充了“as well as”(c6’)。例1给出的例子反映了汉英衔接的实际情况,例2是文献[1]文中的实例,在翻译时,连接词“尽管”(c1)和“Despite”(c1’)相应,“污染”(a2)在翻译时变成了“the problem”(a2’)。综合分析例1和例2可知,汉英篇章中都存在各种衔接,衔接手段略有差异。
本文主要进行汉英篇章衔接资源构建工作,第1部分介绍相关工作,第2部分介绍本文的标注策略,第3部分介绍语料标注情况,第4部分给出实验结果及分析,最后总结了标注中存在的难点。本文开展的汉英篇章衔接研究具有非常重要的理论意义和应用价值,形成的汉英篇章衔接对齐标注策略可用于构建语料库,所构建的语料库既可用于汉英篇章衔接的对比、翻译、教学等研究,又有助于推动汉英篇章衔接对齐分析研究及平台建设。
Halliday和Hasan[1]、Werth[2]和Cook[3]等人分别将衔接进行了分类,他们文章中均指出主要衔接手段包括连接、省略和指代。胡壮麟[4]在《语篇的衔接与连贯》中第一次系统地介绍了汉语篇章衔接与连贯,这本书是胡壮麟先生对文献[1]衔接理论的继承和发展,除了保留文献[1]以语法和词汇为重点的衔接模式外,该书还包含了英语和汉语实例,这对汉英篇章衔接的研究具有很大的启发作用。周利芳[5]、曹继阳[6]分别对汉语篇章衔接的成分和手段进行了研究和分析。在理论研究方面,汉英语篇的衔接基本都包括指代、省略、连接等,汉英语篇的衔接对比也多从这几个方面展开。奚雪峰等[7]从篇章意图性角度探讨了篇章话题结构,并在此基础上分析了篇章的连贯性和衔接性。朱永生等[8]的《英汉语篇衔接手段对比研究》将衔接理论用于汉英篇章对比,该书基于文献[1]的衔接理论,运用大量的语料分析了英汉衔接手段的异同。由于汉语是一种意合型语言,人们在选择词语和句子方面通常能省则省,英语中大多数的省略都带有形式上的标记,而汉语的省略是在不用考虑语法,甚至不用考虑逻辑的情况下表达其含义。钟书能[9]、张献丽[10]、张易男和李燕鸿[11]等人将衔接理论用于汉英语篇对比研究,这些工作大多数采用文献[1]对衔接手段的分类,结合汉英语料分析汉英篇章衔接方式的异同。以上汉英对比研究取得了一定的效果,但选择的样本均较少,往往难以排除随机性对结果的影响。英汉对比研究应着眼于两种语言的特点,选择有代表性且数量较多的样本。
语料库在自然语言处理技术的发展过程中起到了非常重要的作用。下面介绍包含指代、连接信息的语料库,以及汉英平行语料库。
(1) 包含指代信息的语料库。目前较知名的标注了指代信息的语料库主要有MUC(Message Understanding Conference)、ACE(Automatic Content Extraction)(1)https://www.ldc.upenn.edu/collaborations/past-projects/ace、OntoNotes语料库(2)https://catalog.ldc.upenn.edu/LDC2013T19。MUC语料通过指向形成指代链。ACE中具有相同指代关系的实体位于同一指代链,且该指代链拥有唯一的编号。但MUC和ACE只标注了实体指代,并且没有考虑省略的指代标注。OntoNotes语料库包括词汇层面,句子层面和篇章层面等多层次的标注,在篇章层面主要包含空语类信息、实体间以及事件的共指关系。OntoNotes语料库中包含汉语和英语,汉语部分还标注了部分零指代信息,但零指代仅标注了主语位置,而汉语的零指代种类很多,且每一类别都有其自身的特点,这就制约了汉语零指代消解的研究。文献[12]在CTB 6.0语料标注的空语类(Empty Category)基础上进行了汉语零指代信息的标注,该语料有150篇文本。
(2) 包含连接信息的语料库。包含连接信息的语料库主要有宾州篇章树库(Penn Discourse Tree Bank)(3)https://www.seas.upenn.edu/~pdtb/、汉语复句语料库(4)http://linguist.ccnu.edu.cn/jiansuo/TestFuju.jsp、清华汉语树库[13]、哈工大中文篇章结构语料[14]。以上对于篇章的标注多采用英语篇章体系,文献[15]提出一种基于连接依存树的汉语篇章结构表示方法,连接依存树的主要特征是叶子节点为子句,内部节点为连接词,连接词通过其层级地位表示篇章结构的层次,通过其语义表示篇章关系。在此基础上,作者标注了500个文档的汉语篇章语料,其中有24.8%的篇章关系有显式连接词。以上语料中虽然都涉及了连接词的相关标注,但均针对单语,篇章关系中汉语仅25%左右有连接词,英语则达45.5%,可见英语连接词使用频率大于汉语。文献[16]将文献[15]的方案扩展到汉英并进行了语料标注工作,文献[17]的标注评估表明对齐标注是构建汉英篇章结构平行语料库的合理、有效工作方式。
综上,由于汉英衔接理论不同,衔接方式也有差别,汉英衔接对比多从指代、省略和连接方面进行,但可供选择对比的样本均较少,不具有统计学意义。目前的汉英衔接语料库主要针对单语,现有的平行语料库只做了段落、句子等对齐工作,很少进行篇章衔接等深度加工,特别是衔接信息的对齐。这严重制约了基于篇章衔接对齐语料的语言对比及自动对齐分析工作。
在充分分析现有汉英衔接理论、衔接对比分析理论和汉英衔接自动分析研究内容的基础上,本文制定了标注策略。词汇衔接由于有明显的词语指示,不是汉英衔接研究的难点,所以本文重点标注语法衔接,包括指代(本文将衔接理论中的指称和替代合并为指代)、连接和省略信息。杨传鸣[18]对红楼梦及其英译本的衔接进行定量统计,发现在所有衔接手段中(包括词汇衔接和语法衔接),汉语中指代、省略和连接手段占59.6%,英语占77.0%。本文的标注内容包括全部语法衔接,且包含大部分衔接手段,具有一定的代表性。
现有的对齐语料库中,仅仅有句子等单位对齐,而没有衔接的对齐,这直接影响汉英衔接对齐知识的获取。本文标注了子句、指代、省略和连接及其对齐信息。如例2的标注内容见图1,图1中用“|”切分子句,e1和e1’是对齐子句,用连线表示衔接对齐的信息,如连接词“尽管”和“Despite”对齐;用括号表示省略的信息,省略的内容可以是连接词,也可以是指代词,如省略的内容“并且”和“and”对齐;同一语言中的指代链,用虚线表示,如“污染”和“污染”, “pollution”和“the problem”在同一指代链上。实际标注中,指代、省略和连接是相互指导,交叉进行的。
图1 例2的标注信息
汉英篇章衔接对齐语料库的对齐标注总原则是“单位对齐、词对齐”。标注语料的整体策略是以“源语为主、目标语为辅”,即以汉语为主、英语为辅。标注目标是实现双语衔接中的子句、指代、连接的对齐标注。实质上是一个“标注中有对齐、对齐中有标注”的对齐与标注合二为一的过程。
汉英篇章衔接的对齐标注,包括子句对齐、连接词对齐、指代对齐这几个关键对齐标注任务。本文考查的省略主要是连接词省略和指代省略,因此将其标注合并到相应的任务中,在标注时体现省略信息。下面详述本文标注策略。
本文参考文献[19]的子句定义进行对齐标注,假设具有对译关系的篇章,其内部的子句是一一对应的。英汉双语篇章子句的对齐,为保证一致性,采用“源语优先”即(汉语优先)的划分子句方法,首先按既定的汉语子句进行切分,然后以英语对齐来保证汉英篇章的对应关系。根据子句定义,英语的从句或句子和子句对应,子句对齐后便于衔接信息的对齐标注。本文子句以汉语为主,将英语相应的从句或短语和汉语子句对应。事实上,这种分析对于汉语是子句分析,对于英语则是子句对齐。这种分析机制,可以保证所研究的问题是篇章层面的问题。
在实际操作中,主要依据三点: 第一主要看英汉的句意。对于一个优质的翻译文本,源语中的因果、转折、并列等逻辑语义关系必然在目的语中得到反映,根据逻辑语义关系,可以分别从英汉平行语料库中相邻的子句中找出其对应关系,从而进行英汉的对齐划分;第二看结构,结合源语与目的语的结构,英汉中主谓宾的顺序是一致的,一些名词性从句、状语从句的对译也较为一致,找出英汉中相应的词汇,从而找出英汉相对应的句子成分进行划分。比如,看源语中结尾的动词、非谓语动词、宾语、各种从句或是其他成分在汉语中是否得到了体现;第三是看标点,在对译的英文文本中,英文的标点大部分会和汉语一致,根据标点情况,可以清楚地推测文意。
如例3中,汉语子句“比开放前的一九九一年增长九成多。”和英语子句“growing more than 90% compared to 1991, before they had opened.”对应。
[例3]a: 据统计,这些城市去年完成国内生产总值一百九十多亿元,|比开放前的一九九一年增长九成多。
b: According to statistics,these municipalities last year fulfilled more than 19 billion yuan of the gross domestic product,| growing more than 90% compared to 1991, before they had opened.
句子之间或子句之间存在如条件、转折、因果等语义连接关系,连接词指具有子句及其以上语法单位连接和关系提示作用的语言单位,可以根据连接词连接的子句和篇章关系两方面确定连接词。文献[20]将连接词作为篇章关系的关键因素在汉语中已进行了标注。参考汉语篇章结构中的做法,在汉英连接词对齐标注时,对连接词是否可添加或删除进行标记,为便于操作,本文仅对在汉语、英语或汉英中都出现的连接词进行标注。对双语均省略的连接词,由于添加时可供选择的词范围较大,容易导致对齐标注不一致,且在实际应用中意义不大,故本文不做处理。汉英对译篇章由于意义相同,所以对于连接词的汉英对齐标注主要为管辖范围和逻辑功能的对齐,标注时如连接词缺省则根据意义对连接词进行添加。
文献[20]在汉语连接词分类中认为,连接词可分为并列类、转折类、解说类和因果类,在此基础上又可分为17种不同的关系类型。例如,并列类可分为并列关系、顺承关系、递进关系、选择关系和对比关系五种关系类型。每种关系类型又包含多个连接词,而某些连接词可属于不同的关系类型。标注时主要考虑三种连接词对齐关系,如例4的汉语没有连接词而英语有连接词,如例5的汉英均有连接词,如例6的汉语有连接词而英语没有连接词。
[例4]a: 西藏银行部门积极调整信贷结构,以确保农牧业生产等重点产业的投入,|加大对工业、能源、交通、通信等建设的正常资金供应量。
b: Tibet’s banking sector is actively adjusting its credit structure to ensure the participation of key industries such as agricultural and livestock production, etc., |aswellasto increase the amount of the usual supply of capital funding for the development of industries, energy, transportation and communications, etc.
[例5]a: 并投资一千三百多个亿,加强基础设施和基础产业建设,|为扩大对外开放创造良好环境。
b: It has invested more than 130 billion yuan to strengthen the construction of infrastructures and basic industries|soastocreate a sound environment for expanding the opening up to the outside world.
[例6]a: 由于茅台酒制作工艺复杂,生产周期长,|因而其产量十分有限。
b: Because the art of manufacturing Mao — tai is complicated and its production cycle is long,|the output of Mao — tai is extremely limited.
在翻译时,允许出现不是一对一的情况,如例7所示。
[例7]a: 在社会主义市场经济体制建设不断推进,对外开放进一步扩大的新形势下,海关的职能不能削弱,|只能加强。
b: Under the new circumstances in which the construction of a socialist market economy mechanism is continually being promoted and the opening up to the outside world is further expanding, the functions of Customsshouldnotbeweakened, |andshouldonlybestrengthened.
经过反复的研究和实践,最终确定汉英篇章衔接对齐标注的总原则,以篇章为单位将ACE实体类型为人名、地名、机构名、时间等具有代表性的且在文章中出现频率较高的指代实体词进行汉英对齐标注。标注原则是单语中的指代信息构成指代链,汉英指代链中的项目两两相互对应。标注时边标注指代链边进行双语对齐,标注和对齐同时进行,这样可以全面考察双语的各种信息。
本文标注实体指代和事件指代信息,如例8的“金川公司”是实体代词,“这里”“这家企业”是实体指代。例8a中的“金川公司”“这里”“金川公司”和“这家企业”分别对应例8b的“Jinchuan Company”“this place”“the Jinchuan Company”和“this enterprise”,同时形成指代关系,在本篇章中都指的是“金川公司”,因此将有指代信息的汉英指代词标注在同一指代链。
[例8]a: 一九六四年,金川公司产出第一批电解镍。从此以后,逐步改变了中国镍、钴及铂族金属长期依赖进口的局面。如今,这里已成为中国最大的镍钴生产基地和铂族金属提炼中心,镍和铂族金属产量分别占全国的百分之八十八和百分之九十以上,被誉为中国的“镍都”。一九七八年,金川公司被中国政府列为全国矿产资源综合利用三大基地之一,作为中国镍工业代表的这家企业由此踏上依靠科技进步求振兴的发展之路。
b: In 1964,JinchuanCompanyproduced the first batch of electrolytic nickel.From then on, the situation of China’s long time dependence on import for nickel, cobalt and platinum family metals has been changed gradually.Up to now,thisplacehas become China’s largest nickel and cobalt production base and platinum family metals refining center, with an output of nickel and platinum family metals that respectively account for more than 88% and 90% of the whole country respectively, being praised as China’s “Nickel Capitol “.In 1978,theJinchuanCompanywas listed by the Chinese government as one of the top three bases of integrated utilization of national mineral resources.Since then,thisenterprise, as a representative of China’s nickel industry, began to step onto its vigorous development road by relying on advances in science and technology.
省略可以包含代词的省略、名词的省略以及连接词的省略等,本文认为指代和连接都可以省略。由于对篇章的理解是主观的,特别是将翻译者的主观理解添加到翻译后的文本中,可更好地反映原文,因此省略处理的原则是,汉英都省略的不做处理,主要处理汉语或者英语省略。由于汉语省略较多,标注时以英语为主,在汉语中寻找对应内容,若不存在则补充,若存在则对齐,若不能补齐,则对空。如图2中,根据英语对照补充两个省略的代词“他”,图2中用“()”标示。“(他)-he”“他-he”“阿Q-Ah Q”以及“(他)-he”依次对齐。如图1中的例子“and”在是翻译时补充的内容,可以分析得出汉语中省略了对应的词“并且”。当然,也有一些词是汉语中有,而英语在不影响理解的情况下做了省略,此时英语中也补充并对齐。
图2 例1省略和指代的对齐标注
本文充分利用已有的汉语篇章级资源,在OntoNotes的汉英平行文本上追加与篇章衔接性相关的指代、省略和连接标注信息,并进行汉英标注内容的对齐。为了便于标注,基于标注策略,制定了标注规范,开发了辅助标注平台,并以人工和计算机辅助的方式进行语料标注。
OntoNotes中已经包含实体、部分省略信息。但这些信息是单语标注,没有体现双语对齐关系。本文在此基础上添加其他衔接信息,考虑双语,标注的同时完成对齐,具体包括: ①将汉英篇章中的子句标注扩展到双语; ②以前期研究为指导,标注连接词属性和对齐信息,包含添加的连接词和连接词是否可删信息,连接词的管辖范围,连接词所连接的篇章单位是否调序等; ③种类齐全的汉英省略信息: OntoNotes语料中仅包含了主语位置的零指代关系,而汉语省略涉及多个种类,本文标注指代和连接两种省略信息。
根据篇章衔接分析机制和对齐策略,针对子句、连接词、指代、省略的标注及对齐分别提出具体的标注规范。标注注重可操作性,分别从判定原则、对齐方法等方面入手制定标注规范。
在标注规范的指导下进行标注,标注工作参考了之前汉语篇章结构语料资源构建积累的方法和经验,分4个阶段进行: ①由于语料库处理工作量大,为确保质量和通用性,制定了初步的标注规范,同时开发了标注工具,并对参与标注的人员进行了培训; ②为保证标注的一致性,将标注者分为三组,分别标注若干相同的文档,然后在一起讨论所有标注内容,包括指代、省略和连接的属性和对齐方式等,形成统一的标注思想,得到修订后的标注规范; ③标注者分组完成60篇相同文档的标注,用标注完的文档两两计算标注的一致性。选取一致率高的两组语料,由标注成员共同参与讨论,经过多次研讨形成最终的标注规范; ④根据最终的标注规范,由标注一致率高的两组成员继续完成剩下语料的标注,另一组成员负责完成语料校对和一致性的计算,形成最终的汉英篇章衔接对齐语料库。
对于子句、指代、省略和连接及其对齐信息的标注,本文开发了辅助标注平台,辅助用户选择记录需要添加的词、标注信息的类型、对齐的位置等信息,使用人机结合的标注策略,提高标注质量和效率。
完成了200个平行文档的汉英篇章衔接对齐语料标注。标注了子句切分对齐、连接词对齐和指代词对齐及指代链信息。根据制定的汉英子句对齐切分标准,通过汉英子句对齐的标注规范,即对平行语料库进行汉英子句对齐语料标注。目前平行语料中共有效标注汉英对齐段落1 974段,其中汉语句子2 424句,英语句子2 845句,汉英4 178个子句对,汉语子句平均长度是11个词语,英语子句平均长度是20个单词。汉语子句对应的英语子句主要句法结构有S、VP、NP、PP等。连接词对齐标注中,共标注了817对连接词,如“但”和“never the less”对应,共标注显式连接词462次,出现次数较多的连接词(并and)占50.9%,汉语中隐性连接词达60%。在指代对齐标注中,目前共标注有效文档193篇,标注了1 613个指代链,平均每篇文档有8.4个指代链。共标注了3 657个指代词,平均每个指代链上有2.3个指代词。省略情况主要是连接词省略和指代省略,在连接词省略中,中文省略122次,英文省略3次,中文省略现象明显多于英文。指代省略114次,其中中文省略92次,英文22次。
一致性评估主要考察标注者标注的一致内容与所有标注内容之比,本文从汉语一致性、英语一致性和汉英对齐一致性三方面进行考察。其中,汉英对齐一致性指的是标注者对相同语料的汉语标注一致并且汉语相对应的英语对齐标注也一致的情况。标注工作有6名同学参与,前期将6名同学两两分为A、B和C三组进行标注,对其标注的60篇文档进行逐一探讨并两两计算一致性,得出A-C小组在在汉语一致性、英语一致性和汉英对齐一致率等方面明显高于其他两个小组,因此由A-C小组继续完成剩下文档的标注工作,B小组成员负责校验。由于标注内容不同,针对子句、连接词和指代词分别采用了不同的计算方法。子句对齐、连接词对齐和指代对齐语料评估结果如表1所示。
表1 标注一致性计算结果
子句对齐亦可称作切分对齐,切分对齐的方法有两种: ①切分对齐方式Ⅰ: 汉语子句的切分位均标有标点符号,并计算了用作切分标记的标点符号(,;: 。)一致性。英语子句切分不一定使用标点符号作为切分标记,可以使用空格(基本上是任意单词或标点符号)的形式作为切分标记,以及是否可以使用任何空格作为一致性计算的切分标记; ②切分对齐方式Ⅱ: 计算不同标注者的所有切分(AUB)之间的共同切分(A∩B)的一致性。对于句子位置SentencePosition=“X1…X2|Y1…Y2”,计算A和B的切分位置相同的情况。与切分对齐方式Ⅰ相比,该方法的评估更准确,可以统一中英文切分评估标准。
从表1可以看出,子句切分对齐方式Ⅰ在汉语和英语一致性上均较高,主要是每个切分位置都进行计算,计算的无歧义切分位置较多。采用子句切分Ⅱ计算出汉英对齐一致性为0.909,说明子句完全对齐还有待提高,可以从提高英语切分对齐标注的位置精准性和在汉语指导下进一步实现英语切分对齐这两方面改善。
由于连接词总是有一定的管辖范围,且连接词有显隐之分。连接词对齐标注评估,从显隐对齐、显式连接词和全部连接词对齐三个方面进行评估。由表1一致性计算结果可知,显隐对齐一致率较高,其中英语一致率达0.987,同时英语普遍高于汉语的一致率。这是因为英语显式连接词明显较汉语的多,相比汉语,英语对于连接词有比较共性的认识,仅汉语的认识却有较大分歧。这也说明英语文本在关系对齐标注时作为指导性标准的可靠性。显式连接词对齐的一致性高于全部连接词,主要是表示同种连接关系所添加的隐式连接词不固定,如表因果可以是“因为”“因”等词。为提高连接词对齐标注的准确率,本文从两方面入手: 第一,进一步明确汉语连接词的定义,从而增强汉语显式连接词的对齐标注效果。第二,规范隐式连接词的添加,指定添加连接词的范围,减少隐式连接词添加的分歧。
指代词对齐主要计算标注者选择指代词的一致性,由于指代词通常比较明显,添加的指代词多为名词且固定,所以一致性高于连接词对齐。汉英指代词对齐标注的一致性达0.920,在指代对齐标注一致性计算中除对汉语一致性、英语一致性、汉英对齐一致性进行计算之处,还加入了汉语位置一致性、英语位置一致性、属性一致性、指代词个数一致性和指代链个数一致性的计算,其对应的一致率分别为0.926、0.925、0.931、0.932和0.872,其一致率的计算对汉英篇章衔接对齐语料库的构建具有重要的参考意义。由于两小组同学进行双盲标注,标注结果存在一定差异。讨论过后,进一步规范标注策略,对一些文档标注完善,个别误差大的文档进行重新标注。
文献[19]在基于逗号的汉语子句识别研究中,手工标注了100篇文档。实验结果表明,最大熵分类器模型使用CTB 6.0提供的标准语法树,最高准确率为92.8%,使用Berkeley自动语法分析树,最高准确率是89.9%。本文开发了汉语子句切分平台和英语子句切分平台,利用最大熵、决策树、贝叶斯等模型进行训练,然后分别进行汉语、英语子句的自动切分,得到中文自动切分准确率90%,英文自动切分准确率93%。在此基础上,在文献[21]中进行基于BiLSTM-CRF模型进行切分,汉英子句切分P、R、F分别为92.3%、94.4%、93.4%和95.5%、93.4%、94.4%。中文连接词自动识别准确率为92.5%,英文95.7%。
汉英连接词的自动识别实验中,中文连接词自动识别准确率为88.4%,英文为92.5%。文献[20]对中文实验结果表明,具有最佳识别效果的解说类的准确率为82.5%,连接词自动识别并分类的总正确率为89.1%。文献[22]对英文显式篇章关系识别实验表明,连接词识别正确率为92.5%,给定连接词关系分类正确率为85.6%。实验结果中,由于在关系类别分布中并列类所占比例最高,训练实例最多,并且连接词的集中度较高,因此识别率相对较高。转折类识别效果最差,一是因为关系类别分布中转折类出现次数最少,二是因为有的转折类连接词同时对应了其他的关系类别。
在最初的标注过程中,发现标注结果中真正形成指代链的实体词较少,并且存在较多指代词单独成链的现象,最终造成不同标注者的标注结果存在较大差异。经过反复的实践和讨论,最终统一标注规范,将有较多指代词的ACE Type为GPE、ORG、LOC、PERSON和DATE的实体词标注,存在较少实体词,甚至往往仅有单独一个实体词的ACE Type为MONEY、PERCENT、EVENT、QUANTITY和CARDINAT等实体词不再单独标注成链。
[例9]a: (中国)h1羽绒及其制品行业是(八十年代中期)d1开始快速发展的,全行业利用(中国)h2资源、人力优势,加上注重引进国外先进技术与设备,产品产量和质量得以大幅度提高。据不完全统计,目前(中国)h3已有羽绒及制品加工企业(三千余家)c1,其中上规模的达(六百多家)c2,从业人员约(三十万)c3,形成年产羽绒制品(五千多万件)c4生产能力,年工业总产值达(八十亿元)c5。通过(十余年)d2市场开拓,(中国)h4现已成为世界主要羽绒生产国和羽绒制品出口国,年出口羽绒近(三万吨)c6、羽绒制品(二千多万件)c7,创汇达(八点二亿美元)c8,其中羽绒服装出口额占行业出口总额(百分之五十)c9以上。
b: (China’s)h1’down and down products industry started its rapid development in (the mid '80s)d1’.The entire industry makes use of (China’s)h2’resources and manpower advantage, and additionally stresses introducing advanced foreign technology and equipment, thus increasing production volume and quality by a large margin.According to incomplete statistics, (China)h3’currently has (over 3,000)c1’down and down product enterprises, among which, those above scale have reached (more than 600)c2’, with employed staff of (about 300,000)c3’.It has an annual production capacity of 50 millionc4 down products with a total annual industrial output value reaching (8 billion yuan)c5’.Through (more than ten years’)d2’market development, (China)h4’has now become the world’s main down manufacturing country and down products export country, annually exporting(nearly 30,000 tons)c6’of down and (over 20 million)c7’down products, with earned foreign exchange reaching (820 million US dollars)c8’, including down clothing export values accounting for more than(50%)c9’of total industry export values.
如例9中ACE Type为GPE的实体词有(h1~h4),依据对齐标注原则,该实体词可标注成指代链。其中ACE Type为DATE的实体词有d1和d2,因其仅有一个实体词,不单独标注成链。ACE Type为CARDINAT的实体词(c1~c4和c7)、ACE Type为MONEY的实体词c5和c8、ACE Type为QUANTITY的实体词c6以及ACE Type为PERCENT的实体词c9不在要求标注的实体词范围内,同样不单独标注成链。
标注中有一些指代词要在特定语境中才能标注,如例10中的 “中”(e1)、“华”(e2)和“中”(e5)若单独出现时,并不能准确判断其具体含义。在本例中,根据其在文章中的语境,以及上下文信息,很容易判断其与“中国”(e3和e4)形成指代衔接,将其(e1~e5)标注在同一指代链,在对应的英文中正确翻译出“China”。同样“韩”(q1)和“韩”(q4)与“韩国”(q2和q3)形成指代衔接,应将其(q1~q4)标注在同一指代链,对应英文翻译“South Korea”。
[例10]a: 近年来,(中)e1(韩)q1两国之间的经贸往来发展迅速。截止去年九月,(韩国)q2在(华)e2投资企业总数为五千八百八十三家,(中国)e3已成为(韩国)q3最大的投资对象国。据(中国)e4海关统计,一九九五年两国贸易额已达一百六十九点八亿美元,比前年增长百分之四十四点八。经济专家预计,今年(中)e5(韩)q4两国贸易额将增至二百五十亿美元。
b: In recent years, the economy and trade contacts between the countries of (China)e1’and (South Korea)q1’have been developing rapidly.By September of last year, the total number of (Korean)q2’enterprises investing in (China)e2’totaled 5,883.(China)e3’has become(Korea’s)q3’largest target country for investment.According to (Chinese)e4’Customs statistics, in 1995, trade between the two countries reached 16.98 billion US dollars, increasing 44.8% compared with that of the previous year.Economic experts estimate that this year trade between the two countries of (China)e5’and (South Korea)q4’would increase to 25 billion US dollars.
本文进行了汉英篇章衔接语料库的标注工作,主要实现了子句、连接词、指代和省略的对齐标注。汉英篇章衔接对齐语料库的对齐标注总原则是“单位对齐、词对齐”,标注语料的整体策略是以汉语为主、英语为辅,省略添加的原则是汉语或英语有对应显式词出现。子句以汉语为主,将英语相应的从句或短语和汉语子句对应。连接词对齐标注连接词位置及其语义关系,体现为管辖范围和逻辑功能的对齐。单语中的指代信息构成指代链,汉英指代链中的词两两相互对应,汉英都省略的不做处理,主要处理汉语或者英语一方省略的情况。
在本文汉英衔接对齐标注策略基础上,选择汉英平行文本进行了汉英篇章衔接资源的构建,目前完成了200篇平行文档的标注工作。标注中采用辅助平台,对子句、连接词、指代的标注质量分别进行评估,评估结果说明本文方法切实可行,简单实验结果表明本语料子句切分、连接词识别具有较强的可计算性。
下一步工作将不断完善本标注策略,扩大标注语料,进行指代和省略的计算分析工作。