王 灏,郭建丽
(西北师范大学 外国语学院,甘肃 兰州 730070)
国内平行语料库应用现状调查研究
——基于近十年CNKI期刊论文的数据分析
王 灏,郭建丽
(西北师范大学 外国语学院,甘肃 兰州 730070)
将我国期刊全文数据库中从2005年到2015年所出版的有关平行语料库的学术论文作为研究样本,分别以语料库、平行语料库为关键词检索了国内核心期刊中有关平行语料库的学术论文,利用对上述数据的分析,对国内平行语料库应用现状展开调查,找出近几年国内平行语料库应用的特点及存在的问题。
平行语料库;学术论文;应用现状
随着计算机应用技术的迅猛发展以及语料库语言学的不断壮大,“语料库”(corpus或corpora[复])一词逐渐受到越来越多的专家、学者的关注。真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或某种语言的一种变体或文类的电子文本集。(宋红波等,2013)语料库基于大量的真实语言数据,极大地丰富了已有的研究方法,基于语料库的实证研究也在逐年增加。平行语料库是与电子信息技术结合而建立的平台,其对于语言和翻译研究、外语教学、词汇编纂以及信息检索等用处很大,此外对一些以单语语料或者直觉为基础所做的假设还可进行考察与验证,因此其发展前景十分广阔。它还有互相对应的两种语言,和语言对比研究联系紧密,是语言对比研究中的主要数据来源;此外,由于其有对应词与对应单词,因此也是词典编著者有效的数据来源之一;源语言与目标语言相互对应的特点也使其成为重要的翻译教学与外语学习工具。
我国对于平行语料库的研究并不十分深入,从全球第一个平行语料库The Canadian Hansard Corpus(包括英、法语版本的加拿大议会辩论语料)创建至今也只有约20年的历史。然而因为平行语料库在语言的对比研究、翻译以及词典编纂上有着不可估量的使用价值,因此一经开发之后便快速发展。近十年左右,我国的平行语料库也有了突破性进展,目前建有的平行语料库有英汉以及日汉等,比如北京大学计算语言学研究所的汉英平行语料库以及后来建成的英汉平行语料库,还有哈尔滨工业大学的英汉双语语料库。此外,我国近年来还创建了部分专门用语语料库,比如上海交通大学就建成了莎士比亚戏剧英汉平行语料库,燕山大学建成了《红楼梦》译本平行语料库,还有绍兴文理学院建成了鲁迅小说汉英平行语料库等。上述语料库由于专业性比较强,且语料来源较少,范围有限,因此适用于专业研究,而对于通用研究不适用。
本文通过在中国期刊全文数据库中分别以语料库、平行语料库以及平行语料库应用为主题进行检索后发现,相比较而言,以语料库为主题的文章较多,而以平行语料库和平行语料库应用为主题的文章较少,而发表在核心期刊的关于平行语料库应用的文章寥寥无几。所以本文希望通过数据分析找出国内平行语料库应用的特点及存在的问题,为以后平行语料库创建提供参考价值。
本研究采用文献检索的方式,首先,通过在中国知网中以语料库、平行语料库为关键词检索出2005年至2015年所发表的学术论文,将其按照时间顺序统计如图1所示。
图1 2005-2015历年有关语料库、平行语料库研究的论文数量统计
其次,筛选出10种外语类研究的核心期刊,分别以语料库、平行语料库为关键词进行检索,精确匹配出2005年至2015年发表在核心期刊的学术论文,并将其具体信息统计如图2所示。
图2 2005-2015历年有关语料库、平行语料库研究的核心论文数量
首先,在中国期刊全文数据库里以语料库、平行语料库为主题词,对2005-2015年间全部期刊进行检索。然后还是以以上两个词为关键词,对与语料库相关的核心期刊(《外语界》《外语教学与研究》《中国翻译》《外语电化教学》《现代外语》《外国语》《外语教学》《语言文字应用》《当代语言学》《上海翻译》)进行人工检索,组成了此次研究的数据样本。以论文发表的时间、所登期刊和论文主题为划分依据将其进行分类,从而得出了本文的统计结果。
统计数据显示国内关于平行语料库的研究少之又少,而基于语料库的研究内容却非常丰富。笔者将检索到的有关语料库的论文分类后发现主要包括以下几方面:(1)语料库翻译研究。廖七一(2000)、王克非(2006)深入探讨了语料库研究方法;王克非、黄立波(2008)对近20年来语料库翻译学的发展史与研究观念进行了综合论述。(2)语料库辅助教学研究。桂诗春等(2010)学者将海内外的语料库语言学进行了整理归纳,并表示语料库辅助外语教学将会成为将来外语教学的主要方向。(3)词汇搭配研究。娄宝翠(2004)与李晓红(2004)各自利用语料库语言学的方法对health以及effect两个词语的搭配进行了研究;何安平(2001)通过语料库语言学就中国中学生的外语拼写错误展开了研讨。(4)词典编纂研究。在没有语料库语言学之前,中国词典在编写时一直都是没有系统的依据。一直到了上个世纪70年代,辛克莱教授开创了COBULD 语料库,并通过词语索引技术开展了大范围调查,进而为当代词典的编纂奠定了一定基础。当前,我国研究人员对语料库的探索基本都集中在其对于词典编纂的引导作用、以语料库为基础的词典编写方法以及词典评价等。
通过上述分析可以看出,近十年间我国在平行语料库上发展迅速,以前只能单纯研究国外的语料库,但现在我国已有能力自行建立平行语料库,而且运用到各个研究领域。与此同时,在分析的过程中可以发现国内平行语料库的研究还是存在一些问题。
第一,语料库还需进一步地深入加工。通常,语料库的建设与研究目标合为一体,在加工标注语料库时也是基于预设研究目标为基础的,但是在创建大规模、综合性以及多用途的平行语料库时往往要考虑全面,标注的信息要便于今后的持续性研究。从预期研究目的入手,依照具体研究对象设计软件兼容的标注符,再通过软件编辑来批量赋码。
第二,应当加强学科之间的沟通与合作。语料库的发展与运用离不开计算机技术的支持,在过去较长一段时间里,人们在研究语料库时往往集中于计算机专业以及计算语言学专业,对于技术性的研究要更为重视。但是近年来,语料库语言学的崛起将语言与翻译研究很好的和计算机技术结合到一起,两方面专业工作者的交流也不断增多,语言研究者与翻译研究者为计算机专业人员指出了新的研究方向,而计算机专业人士则为其研究提供技术辅助。
第三,语料库研究领域还有待扩展。就当前而言,以平行语料库为基础的语言对比要就还不够深入,翻译研究也基本都是类比研究,以时代、译者、翻译内容等为分类参数的研究要比较少见。专科类语料库的一对多模式是指一个原文的相应译文至少有两种,这种模式也是其特色所在,不但能够运用到多语言转换研究中,还可以进行多种类比研究等。然而当前这样的研究还只局限在文学作品当中,对于非文学作品,如政论以及新闻等文本的类似研究尚比较缺乏。在开发语料库的过程中要不断完善其翻译研究方法,除了英汉语对比研究外,积极开发别的研究对象,创造全新研究方式,比如基于超大规模平行语料库辅助下对翻译语言进行历史变迁探究、翻译语言和原创语言的历时对照研究、各种翻译方面的翻译方法对比研究等。
首先可以预见的是,超级平行语料库的建设是未来的必然趋势。之所以说“超级”,是因为其不但库存量巨大,并且还具有一定的跨度性。这个库主要由人文、社会以及自然科学等众多分库组成,各个分支之间可以相互独立又可以互相融合。人文类语料还可以进一步划分为文学、法律、历史、哲学、宗教等子库;社会科学也可以划分为文化、地理、旅游、考古、经济、政治等多个子库;自然科学则涵盖生物、化学、物理、天文、医药等。各个语料库在内部还可以进一步分类,在时间上也有一定的间隔,可实现历时的对比与研究。如此一来,语料库的功能将更加强大,不但能够用于各种学术性研究与实际应用,还可以拓展语料库翻译研究的范围。
其次,语料库语言与翻译研究都必须建立在语料的加工标注研究基础之上。信息技术的发展给翻译研究带来了很大的方便。对语料的加工不单单是运行计算机,而应该有一定的语言学理论基础,在此基础上才能做好翻译研究。标注是否深入恰当对于将来的研究起了很大的决定作用,现在的自动标注是远远达不到要求的。
第三,积极设计新的软件,建立完善的网络平台。语料库本身是一种研究工具,但是创立语料库也需要用先进的工具。与别的国家进行比较,我国在适用于汉英翻译研究的有关软件开发上还比较落后。因此,语料库研究有关软件的研发将会是未来语料库翻译研究的核心内容之一。此外,建设语料库的目的是为了方便理论研究与实际运用,对于这两方面的要求,大规模、综合性以及多用途的国家级平行语料库能够很好的满足。单从实际运用上说,当前的方法主要是将语料库作为背后运行的数据库来建立网络检索平台。检索到的信息内容是否完整,是否深入完全决定于数据库的大小以及加工深度。但是当前平台只能够提供简单的词语、搭配等单一检索,利用率较差。但是随着将来语料标注和加工技术的进一步深入,检索平台必定能够更加完善,提供更优质的服务。
历经多年的发展之后,我国的语料库建设有了很大的进展,并且在语料库语言研究上也硕果累累,但是还是有一些不足之处,如:语料库语言学研究领域较为单一,很多方面的研究还比较浅薄。语料库语言学还需要不断完善和发展,有关人员要继续努力,研发出更为高效的语料库处理软件,为研究者提供有效支持。相信语料库语言学未来会有更加美好的前景。
[1]桂诗春,等.语料库语言学与中国外语教学[J].现代外语,2010(11).
[2]何安平. 学生英语拼写错误分析[J]. 外语教学与研究, 2001(3).
[3]黄立波, 王克非. 翻译普遍性研究反思[J].中国翻译,2006(5).
[4]李晓红. 基于语料库的EFFECT搭配行为对比研究[J].外语教学, 2004(6).
[5]娄宝翠. 英语常用词搭配使用的对比:以health 为例[J]. 外语与外语教学,2004(7).
[6]廖七一. 语料库与翻译研究[J]. 外语教学与研究,2000(5).
[7]宋红波, 王雪利. 近十年国内语料库语言学研究综述[J].山东外语教学,2013(3).
Class No.:H030 Document Mark:A
(责任编辑:蔡雪岚)
Investigation on the Application of Parallel Corpus —Based on CNKI Papers from 2005 to 2015
Wang Hao,Guo Jianli
(School of Foreign Languages and Literature, Northwest Normal University, Lanzhou, Gansu 730070,China)
In this paper, the academic papers about parallel corpus published from 2005 to 2015 in CNKI are used as the research samples. The corpus and the parallel corpus are used as the key words to retrieve the academic papers in the domestic core journals. By analyzing the above data, the author aims at investigating the application of domestic parallel corpus and finding out the characteristics of domestic parallel corpus and the existing problems.
parallel corpus; academic papers; application
王灏,副教授,硕士生导师,西北师范大学外国语学院。 郭建丽,在读硕士,西北师范大学外国语学院。
西北师范大学2014年度青年教师科研能力提升计划项目(人文社科类)“构建甘肃地方性法规翻译平行语料库的可行性研究”(编号:SKQNYB14014)。
1672-6758(2017)07-0146-4
H030
A