崔红叶,郑敏芳
(西藏民族大学外语学院,陕西咸阳712082)
汉英平行语料库的自我构建
崔红叶,郑敏芳
(西藏民族大学外语学院,陕西咸阳712082)
基于语料库的翻译研究已经成为一种主要趋势,但大型语料库出于种种原因仅对少数教师和研究者开放,可及性不高。当前,网络技术和相关语料库软件持续发展,研究者根据兴趣自建特色小型语料库,为教学和科研服务是完全可行的。简单高效的建库方式可以有效降低语料库建设门槛,促进语料库技术的推广。
汉英平行语料库;语料库软件;自我构建
相比大型语料库,小型语料库有着种种优势,如:目标明确、语料收集针对性强、语料能不断扩展、及时更新、自主设计、灵活标注等特点[1](P28)。自建小型语料库已成为热点话题。如:梁茂成[2](P44)利用Wordpilot自建小型英语单语语料库,探讨了利用语料库辅助课程教学的问题,并指出语料库提供的检索方法可以增加语言真实性,促进研究式教育;谢家成[3](P45)借助Paraconc软件,自建规模达600万字词的个人英汉平行语料库,提出平行语料库能够很好地辅助外语教学和外语研究,学生自主学习及翻译研究,但该语料库权衡建库容量与建库难度后选择了段落对齐,不利于检索后的双语对比;肖维青[4](P62)基于小型自建语料库研究翻译批评,提出利用语料库进行研究,有助于客观把握原著风格,科学分析译者风格,全面对比分析原文和译文;赵宏展[5](P32)利用Wordsmith,Gotagger,Wordpilot软件建成小型翻译语料库,并撰文介绍了建库方法,但该语料库只涉及网络语料,且语料加注方面只介绍了英语词汇赋码,不够详尽;于正,孙东云[6](P81)利用商业软件Trados的语料对齐功能自建句对齐语料库,指出句级对齐应当是双语平行语料库较为适合的对齐方式,其选用的Trados在自动翻译方面已表现出卓越的性能,但价格不菲,如果研究者仅为了实现句级对齐,Paraconc软件完全可以实现该功能。该软件由新西兰奥克兰大学应用语言学教授Michael Barlow于1996年推出Windows版本[7](P3),网上提供免费Demo版本①。
语料库建设是研究成果的重要物质基础,而且影响长远[8](P2)。当前,网络技术和相关语料库软件持续发展,研究者根据兴趣自建特色小型语料库,为教学和科研服务是完全可行的。自建双语平行语料库需综合考虑以下几个方面的问题:语料库设计方案、语料库软件选择以及语料库构建的具体过程。
语料库设计之初就应明晰建库目的、明确建库规模、确定加工深度。笔者主要从事高校英语教学和汉英翻译方面的研究,尤其关注汉译英的方法及特征。因此,语料库建设的目的就是为英语教学和汉英翻译研究服务。初步设计为动态可扩展的、句级对应的、汉译英单向语料库。受经验及精力限制,首批内容选择篇幅普遍较短,公认影响力较大的外教社中国文化汉外对照丛书之张培基英译中国现代散文选系列。
语料库研究根据对已有语言分析体系所持态度可以分为“基于语料库”和“语料库驱动”两种研究范式,前者将语料库视为众多数据种类的一种,后者主张一切源自语料库[9](P329)。语料库体是各项语料库研究的基础平台,为了最大限度的方便研究,涉及语料全部按照来源进行了篇章编码、原作者编码及句子编码,以两种方式存储,未标注中英文词性的生语料和标注有中英文词性的熟语料。
对于广大外语教师而言,受研究经费和研究规模限制,选择建库软件的原则一般是:简便易行,功能强大,可免费试用。因此,商务软件Wordpilot,Wordsmith和Trados不适用于自建汉英平行语料库。本文拟使用Microsoft-Word整理文本,Microsoft-excel编号,ICT-CLAS和Gotagger分别标注汉英词性,Paraconc对齐和检索文本。
(二)语料库构建过程
1.语料采集和整理
语料采集主要通过两种渠道:一是借助网络获取免费的电子版本,按照需要借用转换工具进行自动转换;二是借助扫描工具自主转换原始的书面文本。需要指出的是,通过这两种渠道,尤其是第二种渠道,得到的版本都存在很多问题,需借助Microsoft-word清洁文本,如利用通配符去除多余空行,利用“编辑替换”功能修正标点符号。同时,为了保证文本质量,需购买或借阅纸质书籍,逐句核对,增补缺失语句,删除谬误信息。
语料整理即中文分字、语料分割和语料编码的过程。首先,中文分字。中英文分词差异致使语料库检索软件Paraconc无法识别未经分词的中文文本,虽然巧妙选用“正则表达式”检索,可以实现检索目的,但并不理想,比如搭配检索就会受限。参考文秋芳[10](P40)等人的建库经验,在汉字间加入空格,即可实现正常的文本检索。其次,语料分割。完成中文分字后,即可对中英文语料进行语篇分割和语句分割。语篇分割很简单,按照“第N本书+第N篇”的格式分篇命名,如101即表示第一本书的第一篇文章。语句分割相对复杂,需要分别对中英文语篇表示结句的标点符号进行搜索分割,之后再按照“第N本书+第N篇+第N句”的格式进行命名,如10101即表示第一本书第一篇文章的第一句。再次,语料编码。Paraconc缺省的常规标注码是“<>”和“</>”,分别表示片段的开始和结束,所以利用Microsoft-excel进行语料编码时全部放在“<>”和“</>”之内,语篇编码格式为“第N本书+第N篇”,原作者编码格式为“author=N”,译者编码格式为“translator=ZPJ”,语句编码格式为“第N本书+第N篇+第N句”,并将编码完成的文本命名为“第N本书+第N篇”的.txt文档,保存备用。
2.语料对齐
老贾再次伸手把多的一堆钱币拨成两堆。老贾在新分出的两堆里,从看起来很精致漂亮的一堆中取出一枚递给孟导。孟导接过钱币,心中暗叫不好。按照老贾报忧不报喜的乌鸦嘴特质,这堆钱看起来也是凶多吉少。
国内曾有多名学者撰文指出Paraconc软件只能实现文本的段落对齐[6](P80),笔者在此有心为该软件正名。Paraconc软件的对齐功能,既可以实现文本的自动段落对齐,也可以实现语句的半自动对齐[7](P20)。如图1②所示。
图1 Paraconc软件对齐单元调整界面/Figure 1 Merging and Splitting Alignment Units
经过初步整理的中英文语料,已经显示为独立的中英文语句,利用Paraconc软件的merge和split功能予以调整,可以实现语句对齐。当然这里所谓的句对齐,是一个较为宽泛的概念。中英文句子数量不一致,势必涉及到拆分句子。考虑到这里是汉译英语料,基本原则是以中文语句为准,尽量拆分英文语句。但如果中文语句对应的英文部分不能独立表意,则选择合并汉语句子。
3.语料标注
语料标注的目的是通过系统标注,附加相关信息,更大程度的方便研究。为了使语料发挥更大的作用,笔者对兴建的小型语料库进行了自动词性标注。标注工具选择了Gotagger和ICTCLAS软件。英语赋码软件GoTagger③是日本GOTO Kazuaki所开发的一款简便的词性赋码软件,可以直接在Windows环境下运行。该款软件采用Penn Treebank词性标记集④进行标注。汉语词法分析系统ICTCLAS⑤由中国科学院计算技术研究所研制,是较为理想的汉语词法分析器,支持Windows操作系统,采用计算所词类标注集ICTPOS⑥。图2和图3为标注完成的语料示例。
图2 ICTCLAS标注示例/Figure 2:Chinese Corpus Tagged by ICTCLAS
图3 GoTagger标注示例/Figure 3:English Corpus Tagged by Go Tagger
标注形式可以选择,为了方便以后的研究,中英文语料词性标注时统一选择“词+“/”+词性。经过词性标注的语料有助于研究同一词性单词或词组的不同翻译方法,特定句式的翻译模型及特定修辞结构的翻译模型等问题。
4.语料检索
语料库建设完成后,就可以方便的利用计算机进行双语检索。上载要检索的语料,选择Search选项,选择语言,键入想要搜索内容,就可以实现检索目的。巧妙利用通配符,可以实现搭配检索和模糊检索。
另外,还可以选择“Advanced Search”,控制检索内容,定义检索语法,实现高级检索。“Advanced Search”选项下设两个变量“Search Syntax”和“General search Control”。前者包含三个选项:Text Search,Regular Expressions和Tag Search,可以控制检索内容,分别对文本、正则表达式和标注进行检索;后者也包含三个选项:Ignore case of letters,Use skipping and equal characters和Sentence mode,可以定义检索语法,对忽略格式、筛选字符和选定句式后的文本进行检索。
任何语料库研究均开始于语料库体的建立[11](P63)。本文介绍的自建汉英平行语料库方法简单易行,旨在拉近广大外语教师和研究人员与语料库的距离。通过自建语料库,研究者可以在日常教学和科研工作中积累点滴,即时总结,动态补充库存语料,为将来的教学和科研工作奠定基础。当然,以上建库方法仍有不足之处,在此仅供学界参考。
注释
①Paraconc软件下载地址:http://www.paraconc.com/demo.html.
②图1、图2、图3显示语料来源均为张培基译注,上海外语教育出版社2007版的英译中国现代散文选(1).
③GoTagger软件下载地址:http://web4u.setsunan.ac.jp/Website/GoTagger.html,网页上有相关的使用说明.
④Penn Treebank词性标记集下载地址:http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html.
⑤ICTCLAS软件下载地址:http://ictclas.org/ictclas_download.aspx,网页上有相关的使用说明.
⑥计算所词类标注集下载地址:ICTPOS http://ictclas.org/otherdocs/计算所汉语词性标记集ICTPOS3.0.doc.
[1]谢家成.论个人教学语料库的构建[J].外语电化教学,2003,(91).
[2]梁茂成.利用WordPilot在外语教学中自建小型语料库[J].外语电化教学,2003,(94).
[3]谢家成.小型英汉平行语料库的建立与运用[J].解放军外国语学院学报,2004,(3).
[4]肖维青.自建语料库与翻译批评[J].外语研究,2005,(4).
[5]赵宏展.小型翻译语料库的DIY[J].中国科技翻译,2007,(2).
[6]于正,孙东云.利用翻译记忆系统自建双语平行语料库[J].外语研究,2009,(5).
[7]Michael Barlow.ParaConc:A Concordancer for Parallel Texts[M].Huston:Athelstan,2003.
[8]许家金,刘霞,等.基于CiteSpaceⅡ的国内语料库语言学研究概论(1998~2011)[J].语料库语言学,2012,(1).
[9]梁茂成.语料库语言学研究的两种范式:渊源、分歧及前景[J].外语教学与研究,2012,(3).
[10]文秋芳,王金铨.中国大学生英汉汉英口笔译语料库[M].北京:外语教学与研究出版社,2001.
[11]John Sinclair著,王建华译.关于语料库的建立[J].语言文字应用,2000,(2).
[责任编辑:吕艳]
Self-construction of C-E Parallel Corpus
CUI Hong-ye,ZHENG Min-fang
(School of Foreign Languages,Xiazang Minzu University,Xianyang 712082,China)
Corpus-based Translation Research has become a major trend.However,large-scale corpora are limited to few teachers and researchers.With the great development of Internet and corpus software,it's possible for researchers to build small-scale corpora to meet their specific need.A simple but efficient way of building corpora will help to bring corpus to more teachers and researchers.
C-E Parallel Corpus;Corpus Software;Self-construction
H315.9
A
1004-7077(2015)04-0058-04
2015-05-19
西藏民族大学校级科研项目“张培基现代散文汉英翻译语料库的设计、建立和初探”(项目编号:2013myQ14)。
崔红叶(1986-),女,河北石家庄人,西藏民族大学外语学院讲师,硕士,主要从事翻译理论与实践研究;郑敏芳(1978-),女,陕西白水人,西藏民族大学外语学院讲师,硕士,主要从事翻译理论与实践研究。