2002-2014年基于语料库的文学研究综述

2015-03-09 06:45程萌

山东开放大学学报 2015年2期

关键词：文体学语言学语料库

程萌

(长江大学外国语学院，湖北荆州 434020)

2002-2014年基于语料库的文学研究综述

程萌

(长江大学外国语学院，湖北荆州 434020)

20世纪80年代开始，将语料库分析工具运用到文学作品中的研究逐渐升温。功能强大的语料库索引软件为文学研究和欣赏提供了一个全新的视角，国内这方面的研究始于2002年，评述国内基于语料库对文学作品研究方法的研究状况、发展过程，指出国内当前研究的不足之处。

语料库；文学；软件

一、绪论

语料库语言学以真实语言使用中的语言事实为基本证据，凭借现代计算机技术，采用数据驱动的实证主义研究方法，以其各种功能强大的语料库索引软件，对语言、语言交际和语言学习的行为规律进行多层面和全方位的研究，以文学语言和文学结构作为研究对象，通过用词分布分析、文体特征分析、情节分析等计算机统计分析技术，拓展传统的文学研究，提炼文学修辞、文学意象、文学叙事的规则，考察作者的写作风格，甚至鉴别作品的真实作者。除此之外，语料库分析工具也开始延伸到文学批评，文学教学以及文学翻译中。

语料库的建立不仅能对语料库语言学进行定量研究，也能对语料库中的文本进行定性研究，这就是文体学特有的研究方法[1]。基于作品文本的分析研究避免了只注重概念的演绎，或生搬各种文学以外的理论进行附会穿凿的流弊[2]。

由此可见，将语料库运用于文学研究是一大创新，它开辟了一个新的研究领域。可靠的数据研究结果为文学研究提供了更为客观的解释。国内在此领域的研究始于2002年，本文将简述国内这十几年在此领域研究的过程，及当前研究的不足及未来的发展。

二、语料库文体学的发展过程

分析语料库在文学中的具体运用之前，有必要介绍语料库是如何与文学相结合的。其实，语料库语言学与文学研究结合形成一门独立的学科——语料库文体学才10年短暂历史。Semino & Short在2004年出版的Corpus Stylistics Speech, writing and thought Presentation in a corpus of English writing言称能够为读者提供可借鉴的基于语料库的文体分析方法，拉近了篇章语言和语料库传统的距离，这为语料库文体学的形成奠定了基础。但是由于该研究是基于对小说言语和思想呈现的分析模式，用语料库的方法将该模式的研究对象扩展到非小说研究领域，所以只限制在对话语呈现方式的分析和研究，还没有对语料库文体学相关基本问题的系统阐释，比如这种文体分析方法研究对象是什么。

2006年，Martin Wynne在The Corpus Approaches to the Language of Literature研讨会上Corpus Stylistics methodology, theory and patterns in literary texts的报告称作是语料库文体学正式得名的开山之作[3]。这标志着新学科——语料库文体学的形成。这次，Semino &Short，David Hoover，Martin Wynne界定了这种问题分析方法研究的对象是文学语言的研究。

计算机的发展极大地促进了语料库语言学与文学研究的结合。语料库文体学研究就是基于“计算机文体学”和“统计文体学”进行的文学语篇问题的定量研究[3]。其次，计算机化语料库的建立和相关分析软件的问世为语言的统计研究提供了无可比拟的强大威力。检索工具：Microconcord，TACT( Text Analysis Computing Tools)，Wordsmith Tools , Concordance和AntConc等的使用功能和为特定研究目的服务的新检索分析工具的开发，给文学批评研究者从微观入手，通过获取大量单项或多项语言特征的实例分析语言的出现频率、分布规律和语境特征，进而归纳出所研究文本整体的文学色彩和写作风格提供了诸多方便。

文体学是采用各种语言工具对文学语篇进行的研究, 其典型方法是将语言科学的分析方法及范畴化系统应用于诗歌、小说及散文等体裁的研究, 采用社会语言学、语用学、认知语言学、历史语言学等各语言学分支学科的理论进行语音、句法、语义等语言多层面的描述[4]。

三、研究样本

本文的研究样本主要摘自“中国知网CNKI”，通过搜索“语料库”、“文学”、“文体学”在主题和关键词等检索项进行收集从2002年到2014年的文献，经分析，相关文献共138篇。结果如下。

结果表明，国内的研究起步较晚，且前几年发展缓慢，但从2010年始，国内研究趋势开始升温，到2013年已达到33篇，由于收录时间截至8月，2014年统计不完整，2014年底有望继续增长。这些研究包括对小说的叙事分析、文学文本的总体统计、主题词分析、文学教学、文学批评、文学翻译等中，研究的文学作品有英美文学，日本文学，中国古代和现在文学作品等。

此外，对这些文献的分布做了统计，其中，有些学者开始对基于语料库的文学研究做了深入钻研，其中博士论文有15篇，关乎戏剧，翻译，小说评论等，研究面涉及不多。可见，该领域的研究还不全面。

四、基于语料库的文学研究方法

1993年，国内学者杨惠中教授发表《语料库语言学与机器翻译》一文标志着中国语料库翻译研究起步，但直到2002年，语料库与文学翻译相结合的研究才出现，张美芳在《利用语料库调查译者的文体——贝克研究新法评介》，评介了贝克用语料库研究译者文体的方法及其结果[5]。这是国内首批将语料库运用到文学翻译中的研究，这为后人在此领域的研究提供了研究思路。此后，学者开始在文学文本、文学翻译以及文学教学方面展开研究。

(一) 文本总体统计

文本总体统计是一种简单的定量分析文本的方法，以图形、列表、统计等量化结果分析文本,清晰地把握了小说的总体特征,得出理性的诠释。

任培红[6]在基于语料库的《呼啸山庄》检索分析用Wordsmith Tools软件的wordlist功能进行统计《呼啸山庄》的文本字节数(bytes)、形符数(tokens，指文本一共有多少个词)、类符数(types)，指文本一共有多少个不同的词形)、类符形符比(type/ token ratio，指形符与类符的比率，即用词的变化性)、标准化类符形符比(Standardised Type/ Token)、平均词长、句子数等。因而可以推断《呼啸山庄》属中等难度水平、句子较长、篇幅较长的小说。

(二)主题词分析

马广惠[7]在《基于语料库的小说文体学研究》采用了语料库语言学分析方法。作者首先建立了一个1000多万字的254部英语文学名著语料库。Wordsmith制作出这1000多万字符语料库的词表——reference list。《喧哗与骚动》第一章的词表，统计出第一章的主题词。第一章是一个33岁的痴呆者班吉的叙述，看似乎杂乱无章，但情节分布图却有律可寻。

王雁[8]在《傲慢与偏见》的语料库检索分析用wordsmith，Concordance研究了小说人物性格及变化，先对女主人公伊丽莎白进行分析,Concordance统计出了全小说共764处，从丰富的话语资源,还是肢体动作,都表现出女主人公Elizabeth的美丽、聪颖、善于发现问题和具有远见;男主人公Darcy的孤傲不羁、不苟言笑和因爱上女主人公Elizabeth后的变化。

修饰手法不是计算机和软件能自动过滤出修饰手法，而是我们用实例来验证修饰手法。张仁霞，戴桂玉[9]在《语料库检索分析在文学批评领域中的应用》《永别了，武器》中对“rain” 一词进一步观察其索引行，分析了“雨”的象征意义:苍凉、萧条;离别伤悲;绝望、沮丧;无奈;焦虑、死亡、哀痛;“雨”不仅预示着男女主人公的悲剧结局，也体现了作者海明威和战后一代人对战争所持的极度悲观的情绪。郭放[10]在《快乐王子》中通过检索“like”和“as”埃及的美景和北欧严冬的反差。修辞性标示语(like,as , than等)的检索又使文章的各种修辞手法呈现出来，向我们展示了作者增强主题表现力和感染力的精湛技艺。

文学作品意象，特别是诗词的意象，同修饰手法一样不能通过计算机自动过滤，但可以根据语料库语言学研究词汇的共现、搭配和“语义韵”来得到不同视角的研究。卢伟[11]北京大学计算语言学研究所和古文献研究所开创了先河,创建中华古诗词计算机辅助研究系统,建立了全唐诗和部分宋代名家诗语料库,并在160万字的宋诗语料库中建立了“忧伤、淡泊、豪放、婉约”四个意象的索引。通过对“忧伤”意象的检索,发现了“蹉跎、萧然、浮生、西风、残灯、柳色”等304条相关的词语,这有助于文学意象的研究。

主题词也可以突出文体风格特征。对此，张仁霞，戴桂玉[9]利用AntConc的File View功能发现小说中“and”一词被高频率使用，通过观察“and”一词所在的索引行，进一步验证了海明威作品语言洗练的写作风格;利用Ant Conc的Concordance Plot功能，检索关键词“said”一词，发现“said”一词贯穿小说始终，分布紧密，印证了作品善用电报式对话的风格，语言简洁明了;“I”位居Wordlist和Keyword List之首，而且频率紧密贯穿始终，验证了此作品采用第一人称视角的写作手法。

(三)叙事进程分析

利用语料库分析作品的叙述进程也为理解文学作品提供新的视角。国内学者翻译了迈克尔·图兰在《短篇小说的叙事进程: 语料库文体学方法初探》，其中提出叙事进程包括叙事预示，叙事期待及叙事反应。由此，他研究了哪些文本根源让读者得以沉浸在故事的阅读体验中，因此，他提出了八种文本资源，主要人物名字等高频关键词出现的句子;主要人物是论元或及物性参与者 (施动者或受动者); 叙述性段落或小节的第一句话; 直接引语中出现的问题，请求与指令，承诺与指引未来的信息;包含否定意义的句子等等[12]。选了Garver小说《盒子》中的含了名字高频人名关键词“Jill”的句子：

接着，她说：“我也会想念你的，Jill。”

Jill啜了口咖啡，点点头。

“我本想你在这里可以更幸福的。”Jill说。

她把杯子放在她椅子旁的地上，等着Jill告诉她，其实她要求的并不多。但是Jill什么也没说。过了一会儿，我母亲开始描绘她幸福的蓝图，不一会儿，Jill低首垂眉望着她的杯子，又喝了些咖啡。

迈克尔·图兰发现不但上下文语义很连贯，而且成功地传达了Carver在原作中捕捉到的母亲、儿子和媳妇 (六种关系) 之间悲伤、无言和微妙的关系，即使对Carver的小说不熟悉的读者也能够明白故事要传达的意义。

为了验证迈克尔·图兰的研究，刘红江，李丹莉[13]选取曼斯菲尔德的短篇小说《莳萝泡菜》作为文本分析案例，运用语料库检索软件Ant Conc和 Concordance，根据图兰提出的8个叙事进程影响参数进行数据提取，通过分析单项或多项语言特征的出现频率、分布规律和语境特征，对该小说的叙事进程进行分析，探讨语料库检索软件在揭示虚构叙事文本叙事进程方而的应用方法，验证上述8个参数定位个别文本预示的具体效果。

(四)文学批评

传统的文学批评在评介文学作品时通常会结合作家的生平以及作品反映的社会背景，这就不可避免地融入了太多主观成分，刘冰[14]就认为基于语料库的文学批评应该从语言着手，对文本研究——语言内部，这就减少了主观因素，从而提出更客观的文学解释。詹宏伟和黄四宏[15]也认为传统的文学批评缺乏语料的支撑，因而其效果会受影响。语料库严密、准确的统计方法反应语言现象和语言统计模型，从而完成对文学语言的科学分析和系统研究。更理性地观察、分析、描述和解释文学作品中的客观世界和主观世界，使得文学研究不再局限于研究者仅仅凭借自己独特的理解能力、情感、价值取向、审美经验和生活阅历来解读作品。

(五)文学教学和文学翻译

张显平[16]《在构建语料库促进英美文学教学改革》中提出多种教学手段，如创建或利用语料库，形成一个统一的文学专题整体，北京大学出版社的《英美名著3000》等光盘，来激发了学生的学习热情。这为利用语料库来进行文学课的教学开辟了新道路。许展[17]就通过自建的小型文学语料库在英美文学教学中进行了试验，发现这种教学模式有助于改变以教师为中心的传统教学模式，建立起以学生为中心的数据驱动学习模式，使学生能够更客观地观察、分析、描述与阐释文学作，从而增强教学效果。但是，如何让学生在课堂更好地接受和消化巨大的数据资源没有做具体分析。

此外，语料库运用于文学翻译自2002年就吸引了学者的注意，这十几年，出现了许多研究成果。刘泽权，张丹丹[18]在《基于平行语料库的汉英文学翻译研究与词典编纂》一文中通过考察“吃”术语在《红楼梦》四译本中的103例引申义为“吃”传译方法的异同和规律性的研究验证了基于平行语料库的汉英文学翻译研究对汉英词典编纂的借鉴和反哺作用；建立在大量、真实和可资比较语料基础上的基于平行语料库的汉英/英汉翻译研究，真实地反映了语言在共时和历时语境中的实际使用情况和规律。

五、结语

基于语料库的文学研究以其严密、准确的统计方法为文学研究提供了一种新视角。文学语料库的构建与利用对于改进英美文学教学也大有帮助，此外，语料库语言学和文学批评研究的融合，有助于研究者深入地阐释作品的意义，挖掘文本的美学价值。进一步而言，语料库是大量文学作品语料的重要来源，这为文学作品的翻译提供了便利，但是国内文学作品语料库下的翻译研究处于初级发展阶段，研究范围有待扩展，研究模式和研究方法有待突破。

当前国内的语料库文体研究还有许多不足之处：1.国内研究涉及不广，主要集中于分析某个文学作品的语言特征和文体风格，而使用语料库方法开展文学批评其他方面的研究不多。2.研究方法相对单一，在广度和深度上都缺乏系统的研究；对研究前景的探讨和方法论的探讨也比较缺乏。3.研究的应用范围小，将语料库语言学应用于文学批评的研究主要集中在小说体裁，用于对诗歌、散文、戏剧等其他体裁的研究不多。

语料库的利用还不成熟，将语料库用于教学研究在未来大有发展优势，相比于传统的文学教学方式，利用语料库教学能为学生带来更广的视野。这些不足之处可能是由于语料库的创建费时费力，而现有的大型语料库又未能广泛共享。因此，语料库的创建是一项大工程，也是国内语料库文体研究方面的主要推动力。

[1] Semino. E& M. Short Corpus Stylistics Speech, writing and thought Presentation in a corpus of English writing. [J]. London Longman,2004：201

[2]杨惠中.语料库语言学导论[M].北京：中国财富出版社，2002，07：54-57.

[3]Wynne, M. Stylistics: corpus approaches[A].K. Brown. Encyclopaedia of Language and Linguistics (2nd edition ) [Z]. Oxford: Elseveier Science, 2006.

[4]李涛, 王菊丽.语料库文体学:计算机辅助文学语篇的文体分析 [J].外语电化教学，2009，(01)..

[5]张美芳.利用语料库调查译者的文体——贝克研究新法评介[J].解放军外国语学院学报，2002，(05)：54.

[6]任培红.基于语料库的《呼啸山庄》检索分析[J]. 沈阳大学学报，2008，(04) : 75-78.

[7]马广惠.基于语料库的小说文体学研究 [J].常熟理工学院学报.2005,(09).

[8]王雁.《傲慢与偏见》的语料库检索分析 [J].江苏教育学院学报社会科学版，2007，(02):100-102.

[9]张仁霞.戴桂玉语料库检索分析在文学批评领域中的应用[J].广东外语外贸大学学报，2010，(05):34-8.

[10]郭放.《快乐王子》的语料库检索分析[J].乐山师范学院学报，2004，(06):66-69.

[11]卢伟.文学语言的语料库研究方法[J].理论与争鸣文艺报,2004，(03).

[12][英]迈克尔·图兰. 短篇小说的叙事进程: 语料库文体学方法初探原载Narrative, 2008，(02).

[13]刘红江，李丹莉.基于语料库的《莳萝泡菜》叙事进程分析[J].沈阳航空航天大学学报,2012，(12):28.

[14]刘冰.语料库语言学视阂下的当代文学批评 [J].河南理工大学学报(社会科学版)，第14卷，第2期，2013，(04).

[15]詹宏伟，黄四宏. 关于文学解读中读者反应的量化研究[J].外国语，2008，(02): 85-89.

[16]张显平.构建语料库促进英美文学教学改革[J].四川外语学院学报，2007，(09).

[17]许展.小型自建文学语料库在英美文学教学中的实证研究[J].重庆第二师范学院学报，2014，(07)：147.

[18]刘泽权，张丹丹.基于平行语料库的汉英文学翻译研究与词典编纂——以《红楼梦》“吃”熟语及其英译为例 [J].中国翻译，2012，(06).

2014-08-23

程萌(1990-)，女，硕士研究生，2013级研究生在读，主要研究方向为语言学，语言文学。

H31

1008—3340(2015)02—0039—04

指的是与某个参照语料库中的词汇分布相比, 某个特定文本中出现频率显著性高的词。主题词可以突显文章主旨情节、人物性格特点，修饰手法、作品意象、文体风格特征等，以下依次分析。

2002-2014年基于语料库的文学研究综述

一 、绪论

二、语料库文体学的发展过程

三、研究样本

四、基于语料库的文学研究方法

五、结语

一、绪论