周龙英,张莉洲
(九江学院 外国语学院,江西 九江332005)
面向双语教学的平行语料库构建及应用
周龙英,张莉洲
(九江学院 外国语学院,江西 九江332005)
本文的研究目标是要建立一个专门面向双语教学,充分考虑学生和英语教师的需求的,以英语教材为主的双语平行语料库。在此基础之上讨论了该语料库的构建及其重点和难点工作。同时对语料库的应用进行了科学调研,明确了本次研究的价值所在。
双语教学;平行语料库;可行性;应用价值
语料库(Corpus)是为了语言研究按照一定的原则收集和组织的真实的自然语言作品(书面的和口头的)的集合。其中,以双语(或多语)平行语料库为基础的应用日益增多。凭借这种双语语料库,可以比较两种语言的异同,利用它开展广泛的双语教学与研究、翻译研究(包括自动翻译)以及编撰双语词典,具有巨大的潜在研究价值。[1]
然而,为数不多的英双语语料库因受建库目的和最终用户类型等因素的影响,与单语语料库相比,无论是在规模、质量,还是加工深度都相差甚远,仅用于语言学研究、法律、翻译或词典编纂等特定领域。双语语料库自身建设亦缺乏系统性。同时,在高校教学方面,由于大多数双语教学的开设是选择专业的主课程,所要求的语料各不相同,所以这些语料库并不适合不同专业的双语教学的语料要求,这就为双语教学带来了很多不便。
创建及应用面向双语教学的英汉平行语料库,可以为学生实现自主化、个性化、立体化外语学习提供切实的保障,推动大学英语课程改革和专业双语教学的具体实施。因此,本研究力图建立一个专门面向双语教学,充分考虑学生和英语教师的需求的以大学英语教材为主的,英汉双语平行语料库。本研究的开展将把语料库与英汉双语教学有效地结合起来。
汉英/英汉平行语料库的建设过程包括总体设计、数据库框架设计、语料收集、语料导入、双语句子对齐、双语句子分词、语料校对等步骤。在总体设计上,汉英/英汉平行语料库包含若干专科语料库;在数据库建设时,采用群组分布式操作模式和以句子为基本存储单位的关系型数据库;在语料导入时,语料将统一以txt文本形式进入数据库;在对齐和分词时,采用计算机程序运作与人工校对相结合的方法。借鉴语言学语料库的检索功能,设计了关键词检索、模糊检索、搭配检索、句型检索、对译词词频统计、检索结果自动排序等6项适用于双语教学及研究的检索项目。
(一)汉英/英汉平行翻译语料库的总体设计:
1.建库目的:为面向双语教学的研究和实践提供实证支持。
2.语料库规模:中小型的、开放式的,平行语料库约100万字词,研究者可随时根据需要添加英汉/汉英双语对应的语料。
3.选材规则:选材涉及各个领域,保证语料的均衡性。英语语料主要来源于大学英语(修订本)、新编大学英语、21世纪大学英语、全新版大学英语等教材课文,汉语译文来源于上述教材相对应的教师参考书。
4.汉英比例:全库包括汉语原文数据库、英语译文数据库、英语原文数据库和汉语译文数据库等文本库,英译汉和汉译英语料各占全库语料的50%。
5.子库设置:启动检索平台时,可根据研究需要调入不同的子库文本。我们根据选材类别把语料存为独立版本及各种层级相连的子库:即设英文、中文两个独立版本的总库;其中英文和中文总库下各分设:大学英语 (修订本)、新编大学英语、二十一世纪大学英语、全新版大学英语四类教材一级子库,各级子库下面根据教材的第一、二、三、四册再分为不同的二级子库。同时添加网上能下载的双语对照小说、双语杂志、双语新闻等双语语料。[3]
(二)双语平行语料库数据组织模式选择
1.EML标记语言和群组分布式操作模式
用EML(Extend Marking Language)标记语言,并且在此基础上设计多用户并发操作模式,即群组分布式操作模式。整个语料库建设系统和使用系统由若干台联网计算机组成,其中一台计算机充当服务器,存储大量的数据,其余计算机通过局域网访问服务器,通过访问获得需要加工的数据。群组分布式操作模式下,用户或创建人员只要与服务器相连即可操作双语语料库。[4]
2.以句子为基本存储单位
汉英/英汉平行语料库由汉语和英语两种语言组成,在数据库研发阶段,主要从语言学角度对这两种语言进行对比和分析。在计算机处理语料时,要对汉语进行词性标注,对英语进行类符归类识别。汉英/英汉平行语料库宜采用基于句子的数据库存储,可将词性标注工作交给专门的分词软件进行处理,该项工作可在检索平台的建设阶段完成。
3.采用关系型数据库
目前关系型数据库已经成为数据库的主流,关系型数据库管理系统也层出不穷,比较著名的有SQL/DS、DBZ、Oracle、SQLServer、dBase等。SQLServer是具有客户/服务器结构的数据库管理系统,该软件能快速处理庞大数据。因而本研究主要使用SQLServer数据库管理系统。
(三)数据库基本表
数据库的最基本存储单位是表,汉英/英汉平行语料库的基本表包括两大类:语料基本信息类表和对译关系类表。语料基本信息类表主要用来详细精确记录文本的作者、作品名、译者、章节、段落、句子编号等信息,语料基本信息类表包括原文句子表、译文句子表、作品信息表、作者/译者信息表等。
(一)语料预处理
语料预处理分两个步骤,一是整理原始语料,是入库的语料具有统一的格式和规范;二是语料分句导入,通过对标点符号的判断完成分句工作,继而导入以句子为基本存储单位的双语语料库。
(二)对齐与分词处理
语料导入数据库只是语料库建设的初级阶段,其工作量仅占整个语料库建设的10%,而大量的工作,是语料的对齐与分词。语料对齐是实现中英文双语可链接式检索的前提,分词是进行词频统计或搜索对译词的关键。
1.句子对齐
在目前的计算机水平下,句子对齐要采用先计算机对齐后人工审核的方式。对齐顺序:按照“作品一>篇章一>段落一>句子”的先后顺序进行对齐。首先建立作品对应关系,存入表articlRe;建立篇章对译关系,存入表Ch即terR;建立段落对译关系,存入表parRa;建立句子对译关系,存入表esntenCeR,同时对原文和译文基本属性进行标注,更新表sentenee_init和sentenee_trans。[5]
计算机自动对齐方法:以句子为基本单位,采用逐步顺序基于原文译文长度的对齐方法。计算机对齐只能作为辅助,更多的还需要依靠人工对齐。
2.句子分词
本文借鉴其它研究成果,结合所设计的关系性双语语料库,提出基于词和句子规则的词语对齐方法。
分词流程:
(1)读入句子;
(2)对句子按照标点符号进行初次分割,分割出子句;
(3)对子句做正向最大构词假设,在词典中搜索是否匹配(期间可利用子句结构形式规则进行正向最大值的约束);
(4)无匹配,减小构词长度,并利用子句结构形式规则进行正向最大值的约束,寻求词典匹配;
(5)直到词典匹配为止,将此词作为已分词语进行处理;
(6)该词去掉后的子句,转到步骤(3);
(7)无词典匹配,则更新词典,并将此次作为已分词语进行处理。正反匹配所得的词再进行匹配,能够完全匹配才算成功,否则进行人工分词。[6]
(三)语料库管理
由于语料库的数据处理往往达到海量(上百万条记录),数据的维护也是多层次的,往往是多人同时处理数据,数据并发处理情况非常突出。所以要建立与数据维护相适应的管理机制,具体包括:(1)创建数据维护日志,记录语料库操作信息;(2)对数据库进行备份与恢复;(3)在数据系统的安全性设置方面,对用户操作进行加密处理,避免网络攻击,确保信息安全和数据不失真;(4)如果数据无法在一台计算机上操作执行,可以使用工作组机制,分布式操作。[7]
语料索引工具的资源共享,使我们能够有效地利用语料库进行英语教学和学习。目前,英语单语的共享索引工具有MicroConcord(Tim Johns&Mike Scott)、Wordsmith Tools(Mike Scott)、TACTWEB和Concordance 1.1.3(R.J.C.Watt)。它们的基本功能包括了词表生成、语篇统计、“带语境的关键词”索引、排序、搭配词统计、词语形式统计、主题词提取、词丛统计、联想词统计及重组等。Paraconc(Michael Barlow)双语索引工具具有汉英平行检索和带语境的关键词检索的功能。[8]
(一)英汉翻译教学
双语平行语料库及其索引可提供句子及篇章级的英汉对译,因此学生可以做各种英汉互译练习;低年级或基础较差的学生可以借助汉语的解释更好地理解英语课文;学生还可通过对英汉语篇的对比来加深对英语篇章的理解和认识等。[9]
(二)双语情景教学
学生可以通过语料库索引所提供的语境进行词汇练习,通过对大量的真实的语境的观察,配合该词或该语法规律的使用频率,验证词典、语法书中所给的定义和语法规律,从而发现更为真实准确的定义和规律,使学习的过程变成自我探索和自我发现的过程。而教师有了基于语料库的词频统计,就可以知道哪些词汇及其用法需要掌握,需要在教学中投入更多时间。在解释词或搭配的意义和用法时,可以借助语料库检索软件在语料库中寻找以该语言为母语的人对该词的使用或搭配的生动、真实的例句。语料库词汇检索还可以避免教师选择过时的表达法。[10]
(三)双语语言练习及测试
由于语料库索引提供索引词用法的真实语境、词汇搭配及频率信息,通过词语索引可以开发出实时词汇练习、同义词比较、搭配词组练习等。这样便可以极大地减轻教师的工作量,并且使题目更具真实性和可靠性。
双语平行语料库和检索工具对双语教学起到了很大的促进作用。它在帮助学生自学英语,提高双语能力方面是其它教科书和工具书所不能替代的。同时它又能帮助教师制作出准确的词汇教学大纲和词表,编排科学的练习。大量例证已经表明,双语平行语料库在大学语教学上有着广阔的使用前景和潜在的开发价值。语料库只是一个工具,对语料的收集、整理和使用都要求使用者具备语言学、外语教学等多方面知识。教师应树立实证思想,对英汉语义、语法、语篇对比、英汉双语搭配、英汉互译规律等有敏锐意识,经常求证语料库,以促进双语教学。[11]
(注:本论文是九江学院校级课题《面向双语教学的平行语料库构建及应用研究》阶段性成果之一。)
[1][3]王克非,等.双语对应语料库:研制与应用[M].北京:外语教学与研究出版社,2003.
[2][4][5][6]钱之莹.汉英/英汉平行翻译语料库的设计及其在翻译中的应用[D].华东师范大学优秀硕士论文,2005-04.
[7]常宝宝,等.双语语料库收集整理加工任务说明书以及相关规范[EB/ 0L].Http://www.icl.pku.edu.cn/icl-groups/parallel/workspace/973MT-specification-of-ParaCorpus-V1.0.Pdf,2002.
[8]邓飞.向教学的英汉双语平行语料库的创建及其应用[J].惠州学院学报(社会科学版),2005-08,25(4).
[9]王克非.双语平行语料库在翻译教学上的用途 [J].外语电化教学,2004,(6).
[10]Rundell M.The BNC-a spoken corpus[J].Modern English Teacher, 1995,(4):13-15.
[11]谢家成.小型英汉平行语料库的建立与运用[J].解放军外国语学院学报,2004-05,27(3).