贺 敏 张春明
(上海外语教育出版社 上海 200083)
上海外语教育出版社(以下简称“外教社”)承担的上海市科委课题“双语词典编纂系统的研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目,该课题的总体目标是开发一个基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。该语料库以英语为原语、以汉语为译语,以XML(extensible Markup Language)为标注语言,对英语原文语料的标注做到分词(tokenization)、主词标注(lemmatization)及词性赋码(part of speech tagging),对汉语译文语料的标注做到分词及词性赋码。基于该语料库,词典编纂者及词典用户可以通过在线检索平台提取有效的词典例证,统计具体词语的词频信息,了解词汇的分布情况,获得具体词语或结构的用法信息(包括语义、语法、搭配等方面)。经过三年多的建设,该语料库一期工程已建成收录68万英汉双语平行句对的语料库,总字数达5455万。本文将综述该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面。
课题研究开始时,外教社课题组与各合作单位进行了较为广泛的调查工作,并以此为基础制订了详细的语料库建设实施方案,确定语料库设计阶段的主要任务为:(1)确定标注语言;(2)确立语料选取的原则及语料来源;(3)制订语料储存方案与各项工作流程;(4)编制语料库技术开发需求规约。
英汉双语平行句对语料库的标注语言采用了XML,即可扩展标记语言。XML是目前通用的数据标记语言,它能描述多种类型的文本逻辑结构,能创建不受平台或格式化协定限制的开放数据。XML的设计宗旨是传输数据,使其成为独立的信息传输与集成工具。XML文件没有任何预定义标签,因其“高度灵活,扩展性强”(梁茂成等2010)的特点,在跨平台数据交换、数据建模与分析、网络服务等众多领域得到了广泛应用。Jeffrey Zeldma在Designing with Web Standards(2nd Ed.)中这样描述XML的开放性:“XML于1998年2月被引入软件工业界时,它给整个行业带来了一场风暴。有史以来第一次,这个世界拥有了一种用来结构化文档和数据的通用且适应性强的格式,它不仅仅可以用于 WEB,而且可以被用于任何地方”(http:∥www.w3school.com.cn/x.asp)。正是由于 XML具有开放性强、兼容性好、灵活性高、扩展性强的特点,可实现信息内容、结构和表现三者的分离,我们选用了XML作为英汉双语平行句对语料的标注语言。
根据语料库的性质与定位,我们确立了六大语料选取原则:(1)语料以英语为原语,以汉语为译语,汉译英类语料不收。(2)以20世纪以来的现当代作品语料为主。(3)以书面语语料为主,口语、录音文本不收。(4)为尽量保证语料库的平衡性,确定了人文社科类语料占70%、自然科学与应用科学类语料占15%、其他类语料占15%的语料分布比例。文学类语料包括虚构类(fiction)与非虚构类(non-fiction),但不收录诗歌作品。学科广度原则优于深度原则,科技类语料以科普类作品为主。(5)为保证语篇的连贯性与完整性,语料收录以整部或整篇为单位,片段性语料不予收录。片段性语料指的是须从作品中逐个析出的以句子或段落为单位的语料,一般包括翻译教材中的译例、词典中的例证,等等。(6)除了语料库的性质与定位外,确立语料选取原则时须纳入考虑的另一个因素是语料本身的质量,这就涉及语料原本与译本的选择。为了保证质量,我们在选取语料时尽可能遵循两个原则:(1)选择声誉高、影响大、专业性出版机构的出版物;(2)同一部英语作品有多种汉语译本的,选择质量高或权威的译本。
作为全国最大、最权威的外语出版基地之一,外教社本身就拥有大量双语语料资源。在这些语料资源中,我们共选取了近200种已出版的、符合语料库定位的英汉双语对照图书的电子文本,用于语料库建设。其他语料的来源有正式纸质出版物和来自互联网的电子文本两种,以纸质出版物为主,互联网文本为辅。出于保证语料质量的考虑,这些语料必须具备四大要素——作品名、英语作者、汉语译者、出版社(或网址),语料来源最终由外教社确定。
结合自身的情况,我们初步制订了一个基本的语料加工流程(见图1)。
该语料库一期工程的规模原设定为50万句对(5000万字),但最终为68万句对。要构建一个如此规模的语料库,工作量大、耗时长久、涉及人员众多。为了保证语料加工工作的有序开展与有效进行,我们还针对图1中的各个流程制订了详细的工作规范,内容涉及原始语料的储存及文件的命名、语料来源信息的记录、原始语料在加工前的预处理、句对齐处理的原则等。关于编制语料库技术开发需求规约方面的工作,因技术性较强,本文不展开详述。
图1 外教社英汉双语平行句对语料加工流程
在确定语料库建设方案后,就进入了语料库构建阶段。语料库构建阶段的工作主要由三部分组成:(1)原始语料的采集与整理;(2)语料的句对齐与标注处理;(3)分词、主词标注与词性赋码。
一般来说,语料来源有两种,即纸质出版物或互联网电子文本。纸质出版物语料经扫描、识别与初步校对后,形成TXT格式的电子文件;互联网电子文本经转换、除噪与初步校对后,形成TXT格式的电子文件。语料文本的编码统一使用UTF-8。尽管经过初步校对,这些生语料还是存在各种各样的问题,如:遗漏空格或存在多余空格、存在乱码、多余的段落标记符及连字符、全角或半角标点符号的使用错误,等等。为了获得清洁文本,为下一阶段的语料加工工作做好准备,需要对这些电子文件做进一步的预处理。文本预处理的类型主要有以下三种:
1)使用外教社自行研发的句对标注工具去除文本中多余的段落标记符;
2)对电子文本中不能显示或不能正确显示的特殊字符予以补充或修正,如:上撇号、外国人名译名中的中圆点,等等;
3)将英语语料中的全角标点符号替换为半角标点符号,将汉语语料中的半角标点符号替换为全角,统一破折号的形式,等等。
在文本预处理完成后,语料加工者需填写EXCEL格式的“英汉双语平行语料来源信息表”,该表具体包括:语料加工者;加工开始及完成时间;语料验收者;语料验收日期;分布类别;英语书名;汉语书名;英语作者;汉语译者;英语版出版社及出版年;汉语版出版社及出版年;是否英汉对照。英语版及汉语版网址、备注、索书号为选填项目。由于语料多来源于正式纸质出版物,为保证学科分类的科学性,分布类别信息按中图分类法,填写版权页书号中的中图分类号。正如Leech(1997)所言,对语料库进行各类标注会使语料库增值,而双语平行句对语料库最基本的标注就是句对齐标注。
句对齐处理采取自动对齐与人工编辑相结合的办法。从现阶段的技术现状来看,自动对齐的正确率尚难以令人满意,要实现语料的完全对齐,还需要人工干预。
英汉双语平行句对语料库的总体对齐原则是一句英语对一句汉语,但由于英汉两种语言在表达方式和习惯上均有较大差异,有时无法实现“一对一”。遇到此类情况时,我们采取了两种方式处理:若一句英语的汉语译文为多句,则采取一对多的办法;若多句英语的汉语译文为一句,则采取多对一的办法。有时汉语译文因行文需要与英语原文的语序有所不同,为保证英汉文本在语义上的对应,则采取扩大对应单位的办法,合并相应句子,如《埃及女王克娄巴特拉》中的句对:
The spectators were about to witness a spectacle that none of them would ever forget.Cleopatra,queen of Egypt,was arriving to greet the most powerful leader of the Roman world.
克娄巴特拉,埃及的女王,正赶来这儿会见罗马最强大的将领。这里即将上演的一幕,所有到场的人都将永生难忘。
自动对齐完成后,加工者还需要对自动对齐的文件进行人工核对。核对的重点为:(1)纠错。主要是改正错别字或拼写错误,补充遗漏的空格或删除多余的空格,删除单词间多余的连字符(如to-day)。为保证语料的原始性,加工者对译文质量有问题之处不做修改。(2)强制对齐。主要是根据句对齐原则纠正机器未对齐句子。(3)处理原书中的图、表、公式、符号、文内注释编号、页眉、页脚、页码、脚注、尾注、行号、夹注、译者注。处理原则为:a.原书的页码、页眉、页脚、脚注、尾注、原文正文中指示脚注、尾注位置的编号、行号等一律删除;b.原文和译文同时对应存在的夹注保留;c.译文中的译者注删除;d.图片、表格、公式、符号等在文本文件中无法正确显示的内容均删除,在删除处“[]”加注(即,在英、汉语料中删除图、表、公式、符号的原始位置分别加上“[Illustration/Chart/Formula/Symbol omitted]”与“[图/表/公式/符号略]”)。
我们使用外教社自行开发的双语平行句对标注工具进行句对齐语料的XML标注。该工具的功能主要有:生成及编辑双语平行句对标注XML文件、统计双语平行句对标注XML文件的句对数及折合汉字数。
XML是一种自定义标记语言,以XML标记语料就需要一整套规范来定义语料的元素、属性等,保证以XML格式标记的语料具有可交换性和共享性。表1为英汉双语平行句对语料库使用的元信息元素集。
表1 外教社英汉双语平行语料库语料元信息元素表
(续表1)
将TXT格式的对齐文本及EXCEL格式的“英汉双语平行语料来源信息表”导入平行句对标注工具,生成句对齐标注语料。语料加工者根据元信息标注规则与句对齐原则,在平行句对标注工具中对句对齐标注语料进行编辑。此外,语料加工者还可以通过平行句对标注工具统计某种语料文本的句对数量与总字数。句对齐标注语料经过多次检查后验收入库,做进一步自动分词、主词标注与词性赋码处理。
分词(tokenization)指的是将一连串的字符转换成相互分离的可识别形符(token)。英汉双语平行句对语料库对英语形符做如下分类:
1) 一般意义上的单词(以空格隔开),如:ability、British、where、cliché、cleaning。
2) 带连字符的单词,如:mark-up、post-war、just-in-time、wonder-of-the-world。
3) 带“.”或不带“.”的缩写,如:UNESCO、Mr.、St.、U.S.A.、etc.。
4) 数字或数字与字母的组合,如:0.16、1/2、1000、1,000、2010、3rd、21th、3D,1980s。
5)缩约式,如:'d、've。英汉双语平行句对语料库对缩约式的处理示例详见表2。
表2 英语文本缩约式分词前后对照表
(续表2)
词典编纂者通常需要研究词的语法特征,因此,经过词形标注的语料还需要更进一步的标注,即英语单词的主词标注(lemmatization)和词性赋码(part-of-speech tagging)。主词标注是将单词的屈折变化形式还原成单词的原形,即主词(lemma)。如,英语单词look做动词用时,其屈折变化形式有现在式复数形式及第一人称单数形式look、现在时第三人称单数looks、过去式和过去分词looked,以及现在分词和动名词looking。在语料处理中,需标注具体语境中的屈折变化形式的主词。对单词进行主词标注使语料检索手段多样化,检索结果也更为丰富,提高了语料的使用价值,更方便词典编纂者。在主词标注的技术实现上,我社借鉴了通用的开源算法,准确率达到90%左右,然后进行进一步修正。
而对于词性赋码,我们结合语言学研究成果和词典编纂惯例,为本语料库制定了一个英语词性赋码集,具体内容如表3所示:
表3 英语单词词性赋码集
(续表3)
汉语的分词是一项非常复杂的工作,在分词标准上汉语研究学界也尚未达成共识。“分词是汉语信息处理中的一项基础工程。解决汉语分词问题,意义重大,但困难重重,所以‘分词问题已成为当前中文信息处理的瓶颈’。在分词的诸多问题中,最重要的是:分词的标准是什么……所以黄昌宁先生正确地指出,在汉语分词问题中,‘首先必须就汉语的分词标准取得共识’”(郭曙纶2011:35)。要制定出一套科学的、具有可操作性的分词规则需要以语言研究为基础,而本语料库首先是服务于双语词典编纂系统的,在这种情况下,我们未自行制定汉语分词与词性赋码集,而是遵循GB/T20532—2006《信息处理用现代汉语词类标记规范》进行分词与词性赋码处理。该规范将分词单位定义为“汉语信息处理使用的,具有确定语法功能的基本单位”,包括词、短语、缩略语、前接成分、后接成分,等等。下文以列表的形式对该规范的词性赋码原则略做说明。
表4 汉语词性赋码集
“语料库检索的目的是导出索引行,以便于我们批量观察类似的语言现象,找到其中的规律。”(梁茂成2010)对于双语词典编纂者而言,通过检索获取的索引行可以帮助他们找到合适的对应词与适用的例证,以更好地描述词汇的语义、语法及语用特征。实现有效检索的首要前提就是语料库检索工具。外教社英汉双语平行句对语料库的检索平台与双语词典编纂系统集成在一个系统平台上,可以更好地为词典编纂提供在线语料检索服务。该平台主要功能有:(1)语料检索;(2)语料管理;(3)词表生成;(4)语料统计。检索界面如下:
图2 外教社英汉双语平行句对语料库检索界面
现就该检索平台的核心功能——语料检索功能做简要说明。
为便于词典编纂者更准确地检索到想获取的内容,检索平台可以通过语料库检索工具设置了多个具体的检索选项:
1)检索项:检索项可为一个具体的词、短语(如:careful,look down upon,我们)或任何一个含通配符的结构(如:be*)。英汉双语平行句对语料库中用到的通配符主要有两种,即“*”与“?”。“*”可匹配任意字符串(包括无字符的情况),如:be* 匹配 be,been,being,before,behave 等;“?”可匹配任意一个字符,如:h?t匹配 hat,hit,hot等。
2)语种:若选择“英语”,则检索的范围为英语语料;若选择“汉语”,则检索的范围为汉语语料。系统默认选择“英语”。
3)词性:若语种选择“英语”,则“词性”下拉菜单为英语词性选择列表,系统默认选择全部;若语种选择“汉语”,则“词性”下拉菜单为汉语词性选择列表,系统默认选择全部。
4)英语主词匹配:仅当语种为“英语”时,此选项有效。若语种选择“汉语”,则“英语主词匹配”选项无效。该选项系统默认为“是”。此时,系统查找检索项(英语单词)的原形及其所有屈折变化形式。如,若检索项为look,系统除检索 look外,还检索look、looks、looking、looked等屈折变化形式。选择“否”时,系统按“完全匹配”原则检索,即检索与检索项完全相同的形式。
5)区分大小写:仅当语种为“英语”时,此选项有效。默认为“否”(即不区分大小写)。如,若检索项为being,则检索结果既包含being,也包含Being。
6)汉语分词匹配:仅当语种为“汉语”时,此选项有效。若语种选择“英语”,则“汉语主词匹配”选项无效,系统默认为“是”。此时,系统按汉语分词规则查找检索项。选择“否”时,系统仅检索字符串,汉语分词不作为检索条件。
7)作品名、作者/译者、出版者:输入关键字,确定检索范围。若为空白,则不作为检索条件。
8)最早出版年份、最晚出版年份:设定语料的出版时间区间。年份格式为YYYY。若为空白,则不作为检索条件。
9)分布选项:本语料按中国图书馆图书分类法对语料加以分类,系统默认选择全部类别。
按“检索”按钮,系统按设定的检索条件在语料库中查找检索项。检索结束后,系统统计检索项总数,并按页显示句对,每页显示10个句对(见图3)。句对中包含的检索项用红色字体显示。如用户需查阅某个句对的上下文,可点击句对右边的“语篇”标签,系统弹出窗口,显示句对所在语篇的前后各两个句对。
英汉双语平行句对语料库经过三年多的建设,目前已初具规模,并已正式上线试用。该语料库主要用于词典编纂,但同时也可用于包括词汇研究、句法及语用研究、比较语言学、翻译研究、话语分析等在内的语言学各分支学科研究。鉴于英汉双语平行句对语料库建设是一个复杂的跨学科的科研工作,内容涉及建库目的的确立、建库标准的制订、建库流程的优化、语料的采集与校订、语料的机器处理与入库、语料的检索与利用以及相关工具软件的研发等方面,本语料库目前尚处于初步定型阶段,有待进一步完善和扩容。我们下一步要做的工作还有许多:继续扩大语料库的规模,增强语料库的平衡性;提高语料标注质量并尝试更深层次的标注;升级检索工具的功能,尤其是搭配信息检索功能,使之进一步满足词典编纂者及语言学研究者提取语料数据、总结语言规律的实际需要;总结经验,继续开发主要用于双语词典编纂的其他外语—汉语(如法汉、意汉、德汉等)平行句对语料库,以全面推动我国双语词典编纂出版从传统纸质载体时代向真正意义上的现代数字载体时代的转变。
图3 外教社英汉双语平行句对语料库检索结果示例
1.郭曙纶.汉语语料库的建设及应用.上海:上海外语教育出版社,2001.
2.梁茂成,李文中,许家金.语料库应用教程.北京:外语教学与研究出版社,2010.
3.Leech G.Introducing Corpus Annotation.∥Garside R,Leech G,McEnery T.(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora.London:Longman,1997.