英语语料库语言学的最新发展
——2012年国际语料库语言学年会ICAME 33综述

2012-04-01 19:40王文斌
当代外语研究 2012年11期
关键词:历时语言学语料库

邵 斌 王文斌

(浙江大学,杭州,310058/浙江财经学院,杭州,310018;宁波大学,宁波,315211)

“国际语料库语言学协会”①(即International Computer Archive of Modern and Medieval English,简称ICAME)自成立以来,见证着语料库语言学的快速成长和发展。第33届ICAME年会于2012年5月30日至6月3日在比利时鲁汶大学(Katholieke Universiteit Leuven)召开,来自全球22个国家和地区的204名代表与会。大会主旨发言共5场,论文88篇,工作坊论文39篇,海报论文20篇,在研项目及软件示范26种。与2000年的ICAME 21相比(何安平2001),不论是人数抑或论文数,本次会议均增加了两倍。与去年的ICAME 32相比(杨李香2012),论文总数亦有所增加。由此可见,语料库语言学已成为新世纪语言研究的热点,研究队伍稳定且不断壮大。

本次年会的主题是“英语语言学核心与交叉研究中的语料库运用”(Corpora at the Center and Crossroads of English Linguistics)。大会论文可分以下6大议题:(1)基于语料库的英语语言诸层面研究;(2)基于语料库的语言对比及翻译研究;(3)英语变体的语料库研究;(4)社会语言学、认知语言学的语料库运用;(5)语料库与英语教学;(6)语料库的建设、软件和统计方法。本次年会体现了英语语料库语言学领域的最新发展,本文第一作者作为中国大陆的唯一代表出席了本次会议。我们现拟对大会的主旨报告和小组报告做较为详细的介绍。

1.大会主旨报告

五场主旨报告发言人中有历时语言学和词汇语义学的专家,也有心理学、认知语言学和社会语言学方面的学者,这充分体现了语料库语言学的跨学科发展态势。

Ewa Dabrowska是《认知语言学》杂志的主编,其发言题目是“从外化语言到内化语言再回到外化语言”(From E-language to I-language—and back)。外化语言是语言群体的文本,内化语言是内化在人脑中的心理语法。这对概念原先由乔姆斯基(Chomsky 1986)提出,他认为语言的研究对象是内化语言。Dabrowska对此持不同看法。她通过对波兰语的与格和属格以及英语的“长距离依存疑问句”(questions with long distance dependencies)三个个案的分析,指出基于使用的研究方法在探索语言习得过程中具有重要作用。她提出,有必要把个人和社会两个层面结合起来探索语言系统,否则只会盲人摸象,仅见局部而难见整体。

Brian MacWhinney来自美国卡内基梅隆大学,其发言题目是“语料库语言学的新天地”(The expanding horizons of corpus linguistics)。他认为,语料库语言学的扩展基于以下理论建构:语言结构的形成要历经八个主要时段,即语言处理、话轮转换、语言活动、语言习得、语言社会性、语体、历时性和语言发生学。他以口语语料库TalkBank为佐证,阐述语料库若能高效捕捉到大量话语的上述八个时段,研究上述过程的相互作用便有可能。要实现该目标,必须开发出一系列语料库分析工具,如词汇分析、定量数据分析、自动标注、错误分析、对话分析等。

Terttu Nevalainen来自芬兰赫尔辛基大学,其发言题目是“语料库语言学与语言演变”(Corpus linguistics and language change),主要阐发两个问题:一是语言变化的模型,二是历时语料库的语类配对。她以主语you的泛指功能、Youwas的使用以及“Therewas+复数名词”结构的历时变化为例,展示了“赫尔辛基历时英语语料库”在研究语言变化中的作用。她强调了在历时语料库建设中实现不同时代的语类均衡以及文本和语类配对所存在的难度,提出通过定量分析来确定文本语类的方法,着重介绍TVE(Text Variation Explorer)软件的使用②。该软件界面能呈现文本的三个语言特征数据,即类符形符比、单频词比例以及平均词长,并根据主成分分析法确定文本语类,借此从定量角度部分解决文本归类的难题。

Anne O’Keeffe来自爱尔兰利莫瑞克大学,其发言题目是“语料库语言学的应用”(The application of corpus linguistics)。她认为,语料库已经应用于各个领域和学科,比如话语分析、文体分析、法律语言学、语用学、语音技术、医患沟通、翻译研究、人工智能等等。同时,她还分析了语料库的容量、频率、代表性和理论等四大问题。她特别强调小型专门语料库对研究某一语类的作用,她以涉及酒店管理的语料库CLAS(Cambridge, Limerick and Shannon Corpus)为例说明,小型语料库有助于研究者更细致地观察特定语言的使用。在发言的主要部分,她以“剑桥学习者语料库”(Cambridge Learner Corpus)为例来说明,该语料库只是代表了非英语母语学习者的英语能力情况,并探讨了其在“欧洲语言共同参考框架”标准制定中的作用。

John R.Rickford来自美国斯坦福大学,其发言题目是“关系连词的省略和语言及社会约束的独立性”(Relativizer omission and the independence of linguistic and social constraints)。关系连词,即定语从句中wh-和that关系词的省略,是近20年来的一个研究热点。他依凭语料库探讨巴巴多斯、圭亚那、牙买加的英语、美国黑人英语和阿巴拉契亚地区英语以及4种英国英语方言等9种英语变体中关系连词的省略。通过建立逻辑回归模型对数据进行分析,并引入了“阶层”和“性别”这两个社会因素变量,借以观察社会因素和语言约束之间的交互影响。

2.分会场报告

各分会场报告的主题也紧扣本年会的6大议题,因篇幅所限,下文将择要介绍部分重要论文。

2.1 英语语言各个层面的语料库研究

语料库语言学不仅提供了定量分析的方法,也为重新审视和定义某些传统语言学概念提供了可能。英国伯明翰城市大学的Antoinette Renouf做了题为“英语新词的新定义”的报告,她把《卫报》(1984-2011)文本做成历时语料库,观察频率剧增的新词形式及其语义。新词被定义为:旧词的激增使用、传播和新的语义或用法。她以语料库检测到的bigsociety、squeezedmiddle等词在近年的高频使用和outreach、stakeholder等词的语域转移来分析各种新词类别。而挪威经济学院的Gisle Andersen则采用语料库对照方法来研究伦敦青年人英语口语中的新词。比如kinda一词出现在2008年建成的新语料库中,而1993年的旧语料库中此词未曾出现,如此可以跟踪新词新语,并通过语境观察,解释其产生的原因和机制。

英语构式的研究也是热点之一。德国海德堡大学的Sandra Mollin研究了英语“成对词”可逆性的历时嬗演。“成对词”是用and把两个词连接起来,表示一个完整的概念,比如odds and ends,但一般不可逆向使用为*ends and odds。她从Google Book中提取214个“成对词”,借助数学方法计算其可逆性值,将其制成历时演变曲线,并对其变化原因进行分析。此外还有论文基于语料库探讨英语情态构式noway的句法语义,或从语料库提取数据来研究Go-and-V构式等。对于“强调词”(intensifier)的研究也是热点之一。如从BNC中提取数据对quite和rather这对近义“强调词”进行多重对应分析,或研究当代英语中的dead作为“强调词”的分布特征等。句法层面则有探讨含有关系从句的存现句,“后期现代英语”中的现在完成时演化等。

2.2 基于语料库的语言对比及翻译研究

基于语料库的语言对比及翻译研究是近些年学界的另一热点。法国里尔第三大学的Maarten Lemmens研究了OK一词在英语、荷语和瑞典语中的语法化历程。通过语料库可以发现,自19世纪以来,OK在英语中经历了三个阶段的语法化演进:从插入语到表语形容词,最后到定语形容词。而荷语口语语料库和瑞典语语料库也显示,OK作为上述语言中的借词,也经历了类似演变。Lemmens认为,OK所历经的语法化在评价性短语的演进过程中具有典型性和普遍性。瑞典哥德堡大学的Karin Aijmer和隆德大学的Bengt Altenberg通过“英语-瑞典语平行语料库”,研究了瑞典语中garna一词在英语中的对应词,从而展示了该副词的多种意义和功能,证明基于语料库的翻译研究能促进词语多义和同义现象的理解。此外,还有论文通过自建英语、法语和荷语的财经新闻可比语料库,研究上述三种语言中概数表达方式间的异同,研究英语和捷克语平行语料库中的“become类”系动词的对应翻译,对比加拿大的英语和法语新闻中的Nationalism和Canadian两词的语义韵等等。

2.3 英语变体语料库研究

英语变体研究也是学界近年的关注点之一,特别是“国际英语语料库”(ICE)各分库的建成使得英语变体的对比研究成为可能,由此,“语料库和世界英语”也成为大会的重要议题。共有16篇论文涉及到各种新英语变体,如印度英语、菲律宾英语、新加坡英语和香港英语等。澳大利亚新南威尔士大学的Peter Collins以“菲律宾-布朗语料库”(Phil-Brown,即参照布朗语料库设计的菲律宾英语语料库)和“国际英语语料库菲律宾分库”(ICE-Phil)为基础,研究了wh-和that从句在1960至1990三十年间的频率变化,得出菲律宾英语有美国化和口语化发展趋势的结论。芬兰坦佩雷大学Juhani Klemola研究了新加坡、印度和菲律宾英语中表义务和必要意义的情态动词,他们借用ICE分库以及“圣芭芭拉美国英语口语语料库”研究了should、must、haveto、havegotto以及supposedto的频率和语义变化。结果发现,英国和美国英语中上述情态动词使用频率明显减少,而亚洲英语变体中should和must的使用频率仍很高。作者认为这和亚洲社会强调权威和责任不无关系。新加坡国立大学的Peter Tan介绍了新加坡历时语料库的建设情况,并基于此语料库对1950至1960年代新加坡英语中的词汇借用和结构本土化进行了考察。此外,还有探讨世界英语中的进行时态,世界英语中的话语标记词like的递演等等。

2.4 社会语言学、认知语言学领域的语料库运用

社会语言学领域采用语料库方法的研究也日渐增多。香港科技大学的Lynne Flowerdew讨论了语料库语言学、社会语言学和话语分析相结合的理论问题。社会语言学方面的语料库分析通常采用变异研究和互动研究两种渠道。变异研究对某一群体的语言使用进行定量分析,其变量包括年龄、性别和社会阶层等。而互动研究则侧重定性方法,对言语行为的交际互动进行分析。Flowerdew使用语料库研究了社会语言学中的互动范式,探讨了从语料库数据中发现程式化言语行为以及对话语进行解读的可能性。此外,还有使用ICE语料库研究女性使用“强调词”的情况,探索表语从句连接词that省略的社会语言学因素等等。

语料库作为认知语言学研究的一种重要方法,近些年受到较多重视。来自荷兰阿姆斯特丹自由大学的Tina Krennmayr介绍了该大学开发的“隐喻语料库在线”③(Metaphor Corpus Online)。该语料库从BNC中分离出新闻、小说、学术文本和会话等四种语类,然后对其中19万字的文本进行了隐喻标注,可用于隐喻研究。她依托该隐喻语料库探寻了不同语体中隐喻的特点,比如新闻语体中动词隐喻的高频性。德国弗莱堡大学的Martin Hipert从“美国历时英语语料库”(COHA)中提取了although、though、if和while所构成的4种让步构式,研究其在过去150年里的历时演变,发现它们整体呈现出较大的差异性,从而对Traugott提出的抽象“宏观结构”假设提出质疑。该研究的亮点之一是借助“度量的多维标定法”对数据进行量化分析,并借用Googlevis工具来观察这4种让步构式的4条动态曲线,以此窥探其历时嬗演。隆德大学的Dylan Glynn以Langacker的“认知语法”为理论框架,以自建语料库为数据来源,通过多因子语料库驱动方法研究英语的“认识立场构式”(epistemic stance construction)。

2.5 语料库与英语教学

语料库在英语教学中的应用,尤其是学习者语料库的建设,也是近些年的关注点之一。但和书面语相比,英语作为口语中介语的研究则相对滞后,本次大会非常重视口语中介语的研究。法语鲁汶大学的Ga⊇tanelle Gilquin对学习者口语和书面语英语中的动词短语进行了对比研究,她所使用的语料库分别为鲁汶大学的“国际学习者英语语料库”和“鲁汶国际英语学习者口语语料库”,前者为书面语,后者为口语。数据表明,学习者对up和down构成的动词短语使用与母语者的使用相比明显偏少,在口语中使用又比书面语偏少,这与母语者的使用恰恰相反。作者认为,这和学习者缺乏语体意识有所关联。德国吉森大学的Sandra Gotz则基于语料库对以英语为母语、二语和外语的三种人群口语中的填充性停顿进行了对比研究。其聚焦点是er、erm、uh和uhm四个停顿词。结果发现,填充性停顿在数量上形成斜坡,第一人群最少,第三人群最多。三个群体使用停顿目的有明显差异,比如母语者多用它来强调重要信息,而外语者则多用其充当短语内的词汇空缺。此外,还有论文涉及异步聊天(asynchronous chats)语料库的学习者英语特点,二语习得中的多词单位等等。

2.6 语料库的建设、软件和统计方法

美国杨伯翰大学的Mark Davies探讨了含有1550万词的Google Books作为历时语料库(1810-2010)的可行性。他设计了Google Books的语料库界面,使之便于检索。Davies以sublime、steamship和teenager三词为例,发现它们在Google Books中两百年间的频率变化曲线与COHA中的相似度很高,可见其作为超大型历时语料库具备一定的可行性。美国加州大学圣芭芭拉分校的Stefan Th.Gries提出一种新的计算词语搭配力的方法。以往计算搭配强度的统计方法,如互信息、T值、对数似然值等方法,仅能反映搭配中词1和词2之间的相互联系,但Stubbs(2001:29)的研究表明,搭配具有方向性,比如在bonsaitree搭配中,bonsai之后加tree的可能性要比tree之前加bonsai的可能性大得多。基于此,Gries经研究发现,“搭配并非一定是双向性”。他还进一步提出测试搭配方向性的统计方法ΔP。其计算公式如下:

ΔP2|1=p(word2|word1=present)-p(word2|word1=absent)

ΔP1|2=p(word1|word2=present)-p(word1|word2=absent)

ΔP若大于零,则说明两词之间是正联系;ΔP若小于零,则说明两词之间是负联系,数值能反映出搭配的方向性。该实证研究具有可操作性,为搭配研究提供了崭新思路。此外,还有研究探讨“伯明翰博客语料库”的语用信息标注、面向语言地图项目的语料库、各种语料库工具之间的互操作性、用统计手段对古英语文本进行分类等。

3.结语

综上所述,我们可以看出ICAME 33展示了英语语料库语言学的最新发展动态和几大热点问题:(1)历时语料库跨度上至古英语、下至21世纪英语,这使得语言演变研究成为焦点,这也是ICAME 32的热点(杨素香 2012);(2)各种英语变体语料库的建成,使得英语变体对比研究成为热点,这一点在今年大会非常凸显。经简单统计,使用ICE可比语料库的论文数高达23篇;(3)通过定量方法实现文本和语类的自动配对,这在去年大会中未曾提及,而今年则成为焦点话题之一;(4)随着英语成为全球通用语,学习者语料库的建设日显重要,这也是中国学者大有可为的领域。

历时五天的大会最后补选了Hilde Hasselgard、John Kirk、Michaela Mahlberg和Ute Romer等学者为ICAME执行委员会的新成员。大会还决定第34届ICAME年会将于明年5月在西班牙圣地亚哥·德孔波斯代拉大学举行。所确定的年会主题是:“前进中的英语语料库语言学:应用及其意义”(English corpus linguistics on the move: Applications and implications)。我们有理由相信,作为语言研究的重要方法和新兴领域,语料库语言学将在未来的英语教学与研究中发挥越来越大的作用。

附注:

① ICAME成立于1977年,是欧美语料库语言学的开拓者,其发起人有Geoffrey Leech、Stig Johansson等著名学者,其主要研究对象是英语语料库语言学,目前已成为语料库语言学的国际性权威学术组织。自1979年起,该协会每年轮流在世界各大学召开年会交流研究成果,并办有协会期刊ICAMEJournal,详情可见网站介绍:http://icame.uib.no。关于该协会的汉译名,何安平(2001)首次简介时将其意译为“国际语料库语言学协会”,并在2003年和2005年综述年会时沿用该译名。杨素香(2012)综述2011年年会时则按字面将其译为“国际现代及中古英语计算机档案中心”。我们认为,宜将这一协会的名称译为“现代和中古英语语料库国际研究协会”,但鉴于何安平的译名在中国学界已有影响,所以本文不另译新名。

② 该软件下载网址为:http://www.uta.fi/sis/tauchi/virg/projects/dammoc/tve.html。

③ 该文本可在“牛津文本档案库”下载,网址为:http://ota.ahds.ac.uk/catalogue/index.html。

Chomsky, N.1986.KnowledgeofLanguage[M].New York:Praeger.

Stubbs, M.2001.WordsandPhrases:CorpusStudiesofLexicalSemantics[M].Oxford:Blackwell.

何安平.2001.谈语料库语言学应用的新发展——ICAME 2000年悉尼国际语料库语言学研讨会综述[J].外国语(2):75-78.

杨素香.2012.语料库语言学的传统与趋势——ICAME 32国际会议研究热点分析[J].外语教学与研究(3):460-466.

猜你喜欢
历时语言学语料库
量词“只”的形成及其历时演变
常用词“怠”“惰”“懒”的历时演变
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
《语料库翻译文体学》评介
对《红楼梦》中“不好死了”与“……好的”的历时考察
古今字“兑”“说”“悦”“敚”历时考察
认知语言学与对外汉语教学
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现