汉英学术平行语料库开发设计

2015-03-01 10:21胡海珠
新乡学院学报 2015年7期
关键词:源语言汉英语料

胡海珠

(河南师范大学 外国语学院, 河南 新乡 453007)

汉英学术平行语料库开发设计

胡海珠

(河南师范大学 外国语学院, 河南 新乡 453007)

在汉英学术平行语料库的建设中,双语界面开发、平行语料库建设、平行语料的对齐和索引软件开发都是重要的内容。由于平行语料在段落、句子和词汇层面的对齐对机助翻译研究的意义有限,在平行语料的对齐过程中,双语“对应单位”的对齐研究成为新的焦点。本研究从一个小的试验性汉英平行学术语料库的建设着手,围绕建库设计、双语“对应单位”对齐和索引软件开发等展开,希望为大型汉英学术平行语料库的建设提供一个操作参考。

汉英平行学术语料库;开发设计;对应单位

一、引言

将双语语料库的技术应用于机助翻译研究,是近20年语言学家研究的热点之一,它将翻译从规定性引向描述性,为翻译研究提供了一个新的视角。目前双语语料库的研究主要集中于web双语语料的获取、双语语料库的建库设计、双语语料的对齐和双语语料库的应用等。但双语语料库的对齐多停留在段落和句子层面,这样做虽然为从双语视角研究语言的实际使用提供了便利,但难以满足自动翻译研究的实际需求。而词汇层面的对齐虽然更精确,但类似于传统纸质词典的电子化,就翻译而言,由于需要大量的词汇组合和重组,其对于翻译的实际作用有限。目前一些研究者正致力于基于双语对应单位的对齐,以实现基于实例和基于存储的自动翻译。双语对应单位的提取多来自平行语料库。

二、相关研究

(一)平行语料库建设

语料库是指“按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集”[1]。双语语料库和单语语料库相对,是指由源语言和对源语言进行翻译后的目标语言集合而成、整体对应的语料库。

双语语料库又可分为平行语料库、翻译语料库和类比语料库,分别指由一种语言及其对应的其他语言的翻译文本所构成的语料库、由对同一源语言文本进行的不同译文构成的语料库和由时间、领域、语境、内容、规模等相似的不同语言文本构成的语料库。平行语料库可以是单向的,也可以是双向甚至多向的。

语料库的语料来源一般分为纸质材料、电子文档、网络资源和其他(如通过拍照或录制得来的语言材料)。网络来源的语料库又分为人工采集(即通过人工选择性收集语料,经过人工降噪和格式整理转化为需要的形式,更具语料选择的精确性,但很耗时耗力)、自动采集(即根据需要编辑的程序从网络上或者其他特定语料库中自动采集文本,此种采集低成本、高效率,但是目标语料不够精确)、人机结合采集(即先用计算机自动采集语料,然后对其进行人工选择和整理)。

(二)双语对应单位

语料的对齐是指将源语言的文本和对应的译文文本对应储存,并使两个文本在一定的语言层面(如篇章、段落、句子、短语、词等不同深度)一一对齐。段与段的对齐、句与句的对齐目前技术相对成熟,在语言研究中也有很重要的意义,但是句子以上层面的双语对应,其复现率很小,而基于计算机统计的机助翻译研究离不开频率信息。没有高的复现率,也就很难得到有意义的频率信息,对于机助翻译研究的意义就变得有限。

语料对齐可以基于词汇层面,即将源语言的词汇和其对应的翻译语言词汇对应起来。但是,词汇层面除了形式上的一一对应,还有一对空、空对一、空对多等其他对应形式;而形式上一一对应的词汇其实也很复杂,研究者可以依据后台预制的词库将部分词汇一一对应起来,但这些词汇本身并不是一一对应的意义关系。经过计算机统计,这些词汇最终多表现为一对多或多对一的关系。在翻译实践中,计算机可以将一对多的翻译按频率的高低显示给译者,供其选择或参考,问题在于单纯的频率信息对于翻译来说明显是不够的。任何词汇意义的产生都是脱离不了语境的,也就是说,离开了语境,词汇的意义就不能被完全确定。

双语平行文本在段落和句子上的对齐对于机助翻译研究的意义有限,在词汇层面的对齐也不能提供令人非常满意的翻译参考。我们可以取其中间,将词汇进行扩展,把对齐层面界定为带有微语境的片段。这个语境虽然不大,但是足以使词汇意义相对明确。于是,语言研究者提出了“对应单位”的概念。

对应单位是指在平行语料库中源文和译文中任何可识别的对应片段。它不只是一个理论概念,更是一个操作概念。根据一定的工作原则,如果文本的处理者认为平行语料库中的某两个双语片段在翻译过程中是对应的,就可以将它确认。这个过程当然也有意义的判断,但是它的操作相对自由。只要文本操作者是具备相关语言知识的人,他凭借自身的语言经验所做出的选择都是可接受的。北京外国语大学李文中教授曾提出,“对应单位”的概念是基于现有的语言理论研究的,但它本身不是一个语言理论层面的概念,而是用于操作层面,它使语料的处理者不会无所适从,同时又符合服务于机助翻译的目的。

三、研究设计

我们的目标语料库是一个单向的汉英学术平行语料库,源语言为汉语,目标语言为英语。该语料库开发的主要目的是用于学术汉英文本对应单位的提取和存储,为大型英汉学术平行语料库的建设提供一个参考模型,最终服务于汉语学术语料机助翻译事业,力图使其质量有所提高。

(一)语料的选择

学术研究领域可用的双语电子语料非常少。要建立双语学术语料库,一般途径是购买原版和翻译版书籍进行扫描和文字识别,经过人工正误后整理为规范的电子文本,再将双语文本对应入库。即便如此,我们可得到的双语语料多是英汉学术平行语料,汉译英的语料很少,正规汉语学术著作的英译版本收集难度更大。

我们选择语料的指导思想是:第一,必须是学术语料;第二,必须以汉语为源语言、英语为目标语言;第三,必须是双语都很规范且翻译相对稳定的文本;第四,由于该语料库为尝试性研究,建库规模不应太大。本着“汉英译向、学术性、规范性、小尺寸”四个原则,我们将目标语料设定为中文博士学位论文的中英文对应摘要,规模约10万字(源语言)。

(二)语料入库

文本入库格式被设为TXT文本,原因是这种格式的文本很干净,没有很多的文档内标记信息,所占空间很小。入库前每一篇摘要需要被整理为一个文件夹下的三个文本。第一个文本是汉语的摘要部分,第二个文本是对应的英语摘要部分,第三个文本为信息文本,保留了论文的百科分类、题目、学校、年代、文本字数等,用于双语界面录入摘要文本时输入题头信息。

建库用的双语界面需要自主开发。整个双语界面被设定为一个十字架结构,左上为汉语的题头信息录入界面,需要录入的信息包括篇名、关键词、作者性别(男、女和未知)、年代、学校、文本领域和子领域、文本字数等,不包含作者姓名信息。左下角为汉语文本的录入界面、需要复制之前存储的TXT格式的摘要文本,粘贴到文本框架内,粘贴后在提交之前允许编辑和修改。右上角和右下角为对应的英语文本录入界面,提交前同样允许编辑和修改。

语料库开发团队的每个成员都被分配一个用户名和初始密码,使用所分配的用户名和初始密码可以打开双语录入界面,将汉语的题头信息和文本以及英语的对应题头信息和文本录入,检查无误后可点击右下角的提交按钮。如看到提交成功的提示,录入者所录内容就被成功收入。提交成功后所录入的内容不可以再修改,但可以删除,然后重新录入。为了保证意外的重复录入,完全相同的题头信息和文本内容不能提交成功,题头信息录入不全的也不能提交成功。

语料提交成功后,双语界面的开发和管理者可以查看某个文本的录入负责人和录入时间,也可以对录入文档进行管理。如果发现问题,可以对其进行处理,也可以告知该文本的录入负责人,由其负责删除和重新录入。这样的监控措施保证了文本录入的规范和质量。

入库语料的段落对应很规整,通过界面录入的题目和分类等标注信息将被软件自动转换,并在后台自动生成XML格式的题头信息。除了题头信息,文本内容中的文本开始、文本结束、段落开始、段落结束等位置也被自动添加XML标记。经过XML标注的文本和录入时的纯文本形式的生语料是分开的,这样保证了生语料的干净。使用者可以在后期对生语料根据自身的需要另设标注体系,也可以使用XML标注快速定位到现有语料库的某一个文本。

(三)文本对齐及软件开发

双语翻译对应单位的对齐在起步阶段需人工识别和手动对齐,对齐的原则由语料库开发团队在抽样试验后经过讨论进行统一。随着人工识别的双语对应单位的积累,后期智能匹配的比率会逐渐增加,人工干预成分随之逐渐减少。另外,语料库的建设在经过双语界面开发、建库和双语对应单位提取的阶段后,还需开发对应的索引软件,使语料的使用者能够对已经匹配的对应单位进行查询和语境还原。

四、研究结果

(一)建成的语料库

据上所述,本着“汉英译向、学术性、规范性、小尺寸”四个原则,我们的目标语料为中文博士学位论文的中英文对应摘要,规模约10万字(源语言)。

经过人工收集和整理,该研究所建成的语料库收入了人文、理学、工业、农业和医药卫生等学科语料。其中人文类33篇,约计20 000字;理学类21篇,约计15 000字;工业类36篇,约计23 000字;农业类30篇,约计20 000字;医药卫生类30篇,约计23 000字。以源语言汉语计算,共计150篇,约101 000字,符合预期的语料类型和规模。

(二)对应单位的提取

对应单位的识别是一个复杂的工作过程。语料库开发团队在对应单位识别中采用人工识别和智能识别相结合的原则,即在初始阶段对平行文本中的对应单位进行纯粹的人工判断和识别,由软件系统对识别出的对应单位进行自动提取和标注,并利用数据库将其管理起来,继而利用数据库对新入库的文本进行智能识别和提取,而现有数据库中没有储存的部分仍然靠人工完成。在智能匹配的过程中,软件系统会给操作者以匹配建议,而操作者可以选择使用或者不用给出的建议。

对应单位的人工提取需要一定的工作理念和操作原则。经过试验和讨论,团队在这个环节的操作过程中的基本工作原则如下。

1.原则上只要操作者按照个人的语言知识判断为意义对应较完整,并且对应边界清晰的双语片段都可以被标记和提取(不影响对应单位的准确性,只影响所提取单位的长度和数量,不悖于服务机助翻译的目的)。

2.对于可长可短的对应,以取短优先;但对于长短难以取舍的对应,不拒绝一个长的语言片段和其内部成分的同时对应(不影响短对应的数量,只增加长对应的数量)。

3.如果源语言中出现习语、成语、熟语等集体出现的成分,则不再拆分,将其整体对应。

4.如果源语言中出现组织机构名称、人名、地名、术语等成分,则不再拆分,将其整体对应。

5.功能词不再对应,如冠词、介词、连词和代词等(通过词库可以实现自动翻译)。

6.对于非连续的对应单位,可以间断选择,再进行对应。非连续的成分以非连续的结构形式进行存储。

7.对于较难判断的成分,由操作者根据自己的语言经验确定对应边界。

以句子“以人机工程学为基础,分析了软技术的内涵和作用机理”及其翻译“Based on Human Engineering,this paper analyzed and validated the meaning and mechanism of soft-technology”为例,根据个人的语言判断,我们可以对汉语中的“以……为基础”“人机工程学”“分析了”“软技术”“内涵”和“作用机理”进行提取,分别对应英语中的Based on、Human Engineering、analyzed、soft-technology、meaning和mechanism,“的”与“和”没有处理,翻译中的this paper和validated也没有处理。

我们接受平行文本对应过程中的人工判断是基于以下讨论结果:虽然每个人的语言知识和语言判断不尽相同,所划分的对应边界也会不同,但这种对应的判断是基于双语视角的,双语片段必须同时界限清晰。这有效地帮助了操作者的判断和识别。操作者识别和提取的对应片段一般不会是“错”的,即不会不对应。只是不同的操作者在对同一个文本进行处理时,所提取的对应单位的长度不同,不影响所提取的双语单位的对应性。即使偶尔出现错的情况,即所提取的双语是不对应的,这种错误后期被其他操作者所重复的概率也很小。前期的人工识别在进行了一个阶段之后会辅以智能识别,即当操作者选取了源语言的某个片段之后,软件系统会将前期提取和储存的对应结果进行动态统计,同时将建议的译文对应片段高亮化显示给操作者。如果操作者接受系统建议,则系统将把这一组作为新的对应储存起来;如果操作者不接受系统的建议,他可以继续手动以使之对应。这样,已经被储存的对应单位或被继续认可和重复,从而得到频率的增长和地位的提高;或被反复拒绝,因其频率排序越来越低而成为尾巴选项,最终等同于从对应单位的行列中被剔除。因此,个别的对应错误并不能够影响对应单位提取的整体结果,只有识别者的重复对应才会形成对应单位统计上的概率基础。

(三)索引软件开发

该库对应的汉英平行学术语料库的索引软件已经由河南师范大学语料库应用研发中心开发完成,版权归河南师范大学语料库应用研发中心。目前软件经过反复测试,可以实现使用者所需要的基本功能。主要包括:1.对应单位的检索;2.对应单位的频率信息统计;3.对检索结果的统计分析;4.双语语境还原;5.双语全文检索。

不足的是,目前该索引软件只能实现精确查询,即用户输入一个确定的语言单位,让软件系统执行查询服务,并将查询结果显示给使用者。使用者可以对查询的结果进行进一步的语境查询等操作。但是,目前开发出的软件不认可通配符等符号,不能进行模糊查询,如“*穴”等。

五、结语

语言研究者和计算机工作者的合作会给机助翻译的研究带来惊人的收获。平行语料库与机助翻译的对接是一个潜力巨大的项目,而汉英学术平行语料库是目前国内平行语料库建设所缺少但很重要的构成。该语料库的开发是在国内学术入超、平语语料库研究兴起、平行语料库研究与机助翻译研究的结合日益密切、国内汉英学术平行语料库稀缺的背景下展开的,它在小规模语料库的基础上完成了建库、对应单位提取和软件开发等系列工作,为大规模的汉英平行学术语料库开发提供了可借鉴的理念基础和操作依据。

在接下来的研究中,我们将对语料库的规模加以扩大,对语料类型丰富化,对索引软件进行改进,并尝试与机助翻译实践进行实验性对接,以期为汉语学术语料的机助英译研究做出自己的贡献。

[1]梁茂成.语料库应用教程[M]. 北京: 外语教学与研究出版社,2010:3.

【责任编辑 郭庆林】

Design and Construction of Chinese-English Academic Parallel Corpus

HU Haizhu

(Faculty of International Studies, Henan Normal University, Xinxiang 453007, China)

Bilingual interface develops, parallel corpus construction, parallel text alignment and concordance software development are all important contents in the construction of Chinese-English academic parallel corpora. As the alignments of parallel texts at paragraph, sentence and lexicon levels are all limited in the use for machine-assist translation, the alignment of bilingual “corresponding unit” has become a new focus. This is a pilot study about the construction of a small Chinese-English academic parallel corpus, focusing on the parallel text alignment and concordance software development to offer a reference for the construction of large-scale Chinese-English academic parallel corpora.

Chinese-English academic parallel corpus; design and construction; corresponding unit

2015-03-25

胡海珠(1979—),女,河南西平人,讲师,研究方向:应用语言学。

H319

A

2095-7726(2015)07-0050-04

猜你喜欢
源语言汉英语料
基于归一化点向互信息的低资源平行语料过滤方法*
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
林巍《知识与智慧》英译分析
浅析日语口译译员素质
郑州市公共场所公示语汉英翻译调查
以口译实例谈双语知识的必要性
汽车德汉英图解词典(五)
《苗防备览》中的湘西语料
从目的论角度看《红高粱》中文化负载词的翻译
国内外语用学实证研究比较:语料类型与收集方法