语料库辅助的文学作品主题分析

2018-10-15 09:35董晓烨柴静
关键词:语料语料库检索

董晓烨,柴静



语料库辅助的文学作品主题分析

董晓烨,柴静

(东北林业大学 外国语学院,黑龙江 哈尔滨 150040)

语料库对英语学习具有极大的辅助作用。文学研究者在运用语料库进行作家文体分析方面已经取得了一定成果。本论文将数据和主题研究相结合,对文学主题进行语料库研究,考察通过检索词、句、篇章的频率、搭配和分布等信息研究如何借用生文本和标注文本来探讨文学作品主题的方法,试图将定量和定性分析相结合,提供了一种科学、系统、深入的文本解读方式。

语料库;主题研究;生文本;标注文本

文学作品的主题就是其“中心和重要思想。它也是与小说的其它构成元素相关的统一观点和推动力量”[1]。因此,它涉及作品的主要内容、主要题材、中心思想和核心精神,确切地掌握文学作品的主题对理解文学作品非常重要。但是,以往读者对文学作品主题的学习和阐释都是主观的和印象式的。不同的人在读同一部作品时,可能会归纳出不同的,甚至是大相径庭的主题;缺乏文学感悟力或没有经过系统文学训练的人可能根本无法获知文学作品的主题;同一个读者对同一部作品的每一次重读可能都会生成不同的印象,产生不同的感悟。

语料库研究者认为上述现象的产生源自传统文论重直觉经验性的感悟式思维和缺乏可操作性科学分析的特征。他们批评传统文学评论的主观操作性过强。“研究主题的过程就是用自己的词汇来阐释文学作品中所呈现的人类经验”[2]。他们认为在进行传统方式的文学批评时,即使是在那些意思十分突出的论文中,评论家也只是在从文本中寻找细节支持论点并对论据进行一步步的细化,同时有意无意地忽视与论点相违背的数据。因为可操作性科学分析的缺乏,在反主观论者的眼中,任何一个论点的提出都是可疑的,学者的洞见因为缺少实际数据的支撑而导致了说服力弱化和学术交流的纷乱状况,学者们对文学的理解几乎无法达成共识。与之相比,语料库辅助分析为解读文学作品的主题提供了客观的、有力的论据,有助于促使读者对文学作品形成初步的和直观的理解。

语料库的支持者的观点略有夸大定量研究的功用之嫌,但我们也不可否认语料库方法对文学研究的辅助作用。运用语料库辅助分析文学作品的主题,有利于突显文学研究的客观依据。近年来,随着计算机科学的发展和人们对定量分析的重视,运用语料库语言学方法研究文学文本成为当前文学研究的主要范式之一[3]。运用语料库语言学的方法便于研究作家的语言特色和技巧。除此之外,语料库语言学的应用对于研究文学作品的主题意义也具有非常强的指导意义。语料库语言学为“挖掘文本的隐含意义”“提供了更便捷的服务”[4]。我们在研究文学文本时可以运用多种计算机辅助方法。最为初步的一种方法是对语料进行搜集,研究高频表达的隐喻意义,通过考察词汇在文本中或文本的某一部分的分布和频率,发现文本的特殊主题。这方面的研究我们可以直接借助生文本来进行。

一、生文本的主题研究

生文本是没有经过标注的原始语料。我们可以利用初步的检索手段,得出词汇在文学文本中的显现频率,考察在文本中出现的高频词汇,从而分析文学作品的创作主题。

例如在分析20世纪初的英国作家詹姆斯·乔伊斯的著名的短篇小说《阿拉比》时,我们可以利用常用的语料库检索软件AntConc来进行词汇检索研究,得出一个主题词频率列表。去除语法虚词之后,我们将出现频率的排名在前五位的词列表如下:

RankFrequencyWord 198I 220she 311street 49dark 49bazaar

从上述列表中,我们可以对小说的情节和主题形成一个初步的认知。小说以第一人称叙事视角讲述了发生在“我”和“她”之间的故事。故事主要发生在“街道”和“集市”上,小说的气氛“悲郁”。结合其它高频度的主题词和小说阅读,我们可以初步得出小说的主题是借由讲述一个男孩在初恋幻灭之后的成长,表现了成长的幻灭和20世纪初爱尔兰社会颓废和空虚的瘫痪状态。

以“bazaar”一词为例。“bazaar”表示集市,却与“fair”和“market”等词不同。它指中东的集市,因此具有异域风情。它与“Araby”相关联,让人想到阿拉伯和《一千零一夜》,因此引发了有关遥远、梦想、神秘和浪漫的意象。阿拉比的集市是“我”爱恋的对象向往的地方,因此也代表了少年的理想和主人公的探索与追求的目标。“我”把初恋当作圣洁的玛利亚去祈祷和崇拜,因此集市也成为了和信仰相关的朝圣地。“bazaar”也是少年发生顿悟的场所。阿拉比本来蕴含了少年美丽的想象和纯洁的梦想,但是当他经历了一番波折终于到了他心目中的圣地之后,他所看到的阿拉比昏暗、破败、萧条,“像做完礼拜后空无一人的教堂一般死寂”。最后在他目睹了一个女服务员和两个男人的调情之后,他对纯洁爱情的想象和向往彻底轰塌了。

我们还可以借用AntConc的一些基本功能来检索语料的主题特征。例如,我们可以对小说中的另一个高频词汇“street”这个词做cluster 功能检索,看看它的前面有哪些修饰语。我们检索到的直接用形容词来修饰“street”的例子有“quiet street”、“silent street”和“flaring streets”,除此之外在后置定语中用来修饰“street”的词还有“being blind”、“somber”、“feeble”、“jostled by drunken men and bargaining women”等。这些语句向读者展示了一个爱尔兰的典型场景。“我们”生活的环境“死寂而缺乏活力”,而外面的花花世界充满了吸引力,“灯光炫目”。“我”所居住的街道是一条“死胡同”,象征着生活在这里的人们难以与外界交流,进而影射都柏林乃至整个爱尔兰社会都没有出路。这样的环境“昏沉”、“无力”,“到处都是醉醺醺的男人和吵吵嚷嚷的女人”。上述意象与文中反复出现的“dark”一起构成了小说的背景氛围和爱尔兰社会的缩影:死寂与阴暗、庸俗与丑陋、黑暗与冷漠、瘫痪与没落、无奈与凄凉并存。小说的一个场景街道就是爱尔兰千千万万的街道中的一条,代表了20世纪初爱尔兰典型的生活场景。

我们还可以利用语料库检索分析来研究某一特定主题的呈现状况。例如在分析19世纪美国女作家凯特·肖邦的代表作《觉醒》所体现的家庭伦理方面的主题时,我们可以借助专业的语料库检索工具AntConc,或word文档中常用的查找功能,检索作品中的表示家庭成员关系的词汇。检索发现,《觉醒》中表现人物关系的词汇共有17种566个。我们可以就检索结果做出相应的分布图(检索词包括单复数两种形式),作为可供分析的实验数据。

以条形表格显示高频词汇的分布和频率,为读者提供了对文学作品进行直观解读的方式,也为学者的评论提供了支持性或是反对性的客观证据和数据。上面的条形表格清晰地显示《觉醒》一书中出现的最多的表示家庭伦理关系的词汇是“女人”一词,这说明作品的主要创作主旨是关注女性命运,作品中呈现出作者鲜明的女性主义倾向和女性意识。书中出现最少的表示家庭伦理关系的词汇是祖父母。这说明了主人公家庭观念的淡漠和家庭伦理关系的薄弱,与之相对应的是对个体权力和价值的凸显。另外,隔代亲情关系的断裂也表现了文化传承的缺失。

由此可见,通过词频来分析小说的主题是一种有效而直观的手段,也是语料库辅助主题分析的初步应用。

二、标注文本的主题呈现

标注文本是指经过人工或自动标注的语料。在找到了高频词汇的基础之上,我们可以进一步对高频词汇进行更为专业的标注和加工,用计算机语言来记录文学文本。与生文本相比,标注文本获得了增值,承载了更多有价值的信息,可以更清晰的显现语料的结构和内容特征。

对自然语言进行标注的主要程序包括:进行文本采集,创建符合研究目的的语料库;进行文本整理,创建清洁文本;进行信息标注,创建能够提供更多信息的研究文本。

我们进行语言标注的第一步是要根据研究的目的采集相应的文本。例如要分析《觉醒》的主题时,我们首先要获取小说完整的电子文本。在此基础之上,为了更深入地挖掘作家的创作特色和历史地位,我们也可以进一步采集相关文本,如肖邦全部的小说文本或是她在19世纪90年代,也就是与《觉醒》在同一时代出版的文本,如她的第一部长篇小说《过错》(,1890);肖邦其它文类的创作,如散文、日记、信件等,或是与《觉醒》在同一时期产生的其它文类的文本,如肖邦的三部短篇小说集《牛轭湖的乡亲》(1894)、《阿卡迪亚之夜》(1897)、《一个职业和一个声音》(1898);产生于同一时代的美国文学作品,如萨拉·奥恩·朱厄特(Sarah Orne Jewett)的《尖尖的榕树之乡》(1896)和玛丽·弗里曼(Mary Freeman)的《一个英格兰修女及其它故事》(1891);产生于同一时代的其它国家的作品,如英国19世纪重要的女性作家乔治·艾略特和盖斯凯尔夫人的作品;产生于不同时代和不同地域但具有类似主题的作品等等。

通过不同文本的比较研究,我们还原了文本的生产语境,挖掘出更多的相关主题。《过错》同《觉醒》一样,探讨了婚姻观念、道德理想和现代女性的困惑等主题。肖邦的短篇小说从多重视角探讨了个人,尤其是女性在社会中的位置和困境,深化了女性主义话题。与朱厄特和弗里曼等同时代的美国女性小说家的创作相比,肖邦在展现地方特色的同时,体现出更为强烈的女性意识和与传统决裂的决心。同样,与19世纪英国女作家的创作相比,肖邦的创作更关注女性个体意识的觉醒,而乔治·艾略特和盖斯凯尔夫人等英国女性小说家的创作呈现出了更为强烈的批判现实主义倾向。此外,世界文坛上不乏出轨的家庭主妇的形象,虽然艾德娜、安娜·卡列尼娜和包法利夫人最后都自杀身亡,但与安娜和艾玛别无出路的绝望自尽相比,艾德娜更多体现出对女性传统社会角色的反叛、对自由灵魂和独立个性的追求,因此,她裸身奔向大海的行为既是心灵独立的体现,也具有积极的社会意义。

随后,我们要对采集的文本进行整理,其目的是校正语言,保证文本的内容正确,清洁受污染的文本,提高搜索结果的正确率,避免由于文本排版的清晰度或是词汇的多种形式和同形异义词等原因所引起的对搜索目标的干扰。进行文本整理的主要任务是校正格式,如统一混杂的标点和字符,网页拷贝文本中的换行符和空行,校正段落格式和文本换行等,进行语言校正,如删除乱码、非英语字符和不属于文本正文的嘈杂信息等。

进行语料处理,为语料加上人工标注,是进一步获取文本信息的有效手段。“语料库分析对象实际上囊括了语言的各个层面——词汇层面、句法层面、语篇结构和语篇类型”[5]。我们可以进行不同层次的标注,如文本信息和附加信息等。文本信息主要指语言信息,包括文本的语言单位(词和句子)和内部结构(语篇)。针对文本的语言信息,我们可以进行相应的词法、句法、语义和语用标注。例如,我们可以标注词的语音、构词、词性、同义词、反义词等;标注句子的语法信息和语法属性,如句法和语义等;标注语篇信息如语段结构、衔接手段、开头策略和结尾策略等。除了上述通用的文本结构信息之外,我们还可以对与文类相关的特殊文本内部结构进行标注,如与诗歌和戏剧的文类相关的标题、章节、段落、句子、文体和错误标注等。为了开展不同目的的研究,我们还可以对文本的特殊属性进行标注,如文本的语料来源、出版信息、作者信息、语境信息等文本外部元信息和标题、段落、文献等文本内部元信息等非语言信息。

我们对文本进行标注的目的是为了便于对语料进行归类和关键词索引,从而更为快速和准确地获取文本信息。“在语料库语言学中,这种机器可读的索引被称为纵向单”[6]。纵向单包含许多字母顺序排序的关键词记录。每一条记录除包含关键词之外,还包括它的频率和识别位置等。这样,通过语料整理、清洁和标注,我们建立了可以利用的语料库文本。接下来,我们可以利用语料库检索软件进行检索,还可以利用语料库分析软件从自动标注的语料中找到文本所包含的多种信息,以此深入了解文本的外部信息和内部结构,避免忽视文本的诸多细节。一般说来,我们可以借助Go Tagger软件对已搜集的语料进行词性赋码和统计。

三、对已标注的语料的研究和利用的方法

将语料库应用于文学研究有两个重要的方法。“‘由上而下’和‘由下而上’的方法。即基于语料库的方法和语料库驱动的方法。基于语料库的方法,指的是先确定理论假设,然后再用语料库的数据来验证这种假设;而语料库驱动的方法,指的是在采集大量数据的基础上,通过分析数据现象,得出结论或总结出某种规律”[7]。接下来,我们可以根据研究目的来分析已标注的语料信息。例如通过对“Araby”进行标注,我们找到了它的同根词“Arab”,从而得出了“Araby”一词的象征意义,神秘、美丽、爱情、梦幻、梦想等。而“Araby”一词的发音由同一元音字母的开口音和非重读音组成,加重了这种梦幻式的情景。除此之外,整个单词的发音由开口音到闭口音的变化有力地表现了童年的纯真梦想的消失这一主题。

另外,我们通过同义词和相关词标注发现在《阿拉比》中还有许多表示宗教意义的词汇。在小说的开头,作者插入了一个已经死去的牧师的故事。在短短的几句话中牧师死去这一事件不断被重复。die、will、leave、late等词不停地出现,凸显了死亡事件。通过初步分析,我们发现牧师影射了宗教。爱尔兰是一个宗教氛围浓厚的国家。大多数爱尔兰人信仰天主教,这与英国国教发生冲突,因而导致爱尔兰的宗教氛围令人窒息。牧师的死亡意味着宗教在现代社会的败落,影射了整个爱尔兰社会的瘫痪状态和生活于其间的人们的颓废、空虚和无奈。

通过同义词标注,我们在文中还发现了除“牧师”之外的许多与宗教相关的表述,例如圣杯、修道院和虔诚等等。这样的表述同样暗示了文章的主题。如在小说开头出现了一句话:“The wild garden behind the house contained a central apple-tree and a few straggling bushes, under one of which I found the late tenant’s rusty bicycle-pump.”这句话的意思是:“在房子后面有一个废弃的花园。花园的中间长着一颗苹果树,园中还有一些杂乱的灌木,我在灌木丛下发现了已故的房客的上锈的自行车气筒”。这句话中的“garden”和“apple”无疑都影射了伊甸园的典故,因此这句看似平常的话实际上含义丰富,表达了纯真的失去、理想的陷落、宗教的丢弃和信仰的失落等等。小说中还有一个重要的宗教意象“圣杯”。当主人公经过了一番波折终于到了他心中向往的圣地“阿拉比”之后,嘈杂、肮脏的环境令其不知所措,他只有默念着纯洁的初恋的名字,“想象举着我的圣杯在一群敌人中安然穿过。”圣杯是基督教的圣器,因此神圣而又珍贵。男孩将这个嘈杂混乱的环境想象成纯洁的爱的圣地,因此,圣杯在此象征了纯洁的爱,而那群敌人无疑象征了充满了敌意的爱尔兰社会。

除此之外,我们也可以就标注文本的元信息进行分析。例如,《阿拉比》中的另外一个主要人物是曼根的姐姐(Mangan’s sister)。曼根是一名爱尔兰诗人的名字,他写过一首非常流行的诗《褐色的罗萨琳》,此后人们常用《褐色的罗萨琳》来寓指爱尔兰,因此我们可以推断,这个小说中没有名字的女主人公实际上就是爱尔兰的抽象的化身。男孩爱情的幻灭实际上体现了主人公对爱尔兰的希望与失望、盼望与绝望的复杂感情。

再以我们提到的另一部小说《觉醒》为例。我们可以对小说中的词法进行标注。例如标注小说标题“The Awakening”的语音特征,发现这个词的元音发音由中元音变成前元音,再变成中元音。这一系列的口型的变化,配合了“唤醒、觉醒”的词义,表明了在觉醒前的半梦半醒的状态。另外,对“Awakening”的构词法和词性进行标注。动词结尾加“ing”的用法具有现在分词和动名词的双重功用,既强调了觉醒的结果,也强调了觉醒的过程。我们还可以标注小说中其它词汇信息。如法语姓名反应了小说的文化背景,主人公的名字与当时流行的地方色彩小说《圣艾尔墨》和《女人王国》中的女主人公同名,但肖邦在表现地方色彩的基础之上,开辟了具有反叛性的新女性的形象。

对小说的语篇和创作手法进行标注,发现小说呈现了三位典型的女性形象:艾德娜、艾德娜的朋友阿黛尔·勒布朗和蕾茨小姐。分别以三个人的名字Edna、Adele Ratignolle和Mademoiselle Reisz作为检索词,借助语料库软件 AntConc对小说进行检索,再做concordance (语境共现) 和collocates (词汇搭配)功能分析,“通过提取和分析语篇中具有超常频率的词以及具有共现关系的词语或词群, 可以确定语篇的主题和表达该主题的词集, 进而研究作者对某一主题的表述”[8]。检索三位人物出现的文本语境和搭配表达,标注她们在外貌、语言、行为、心理、生活环境等方面的特征,可以发现人物形象,比较得出肖邦对女性的社会角色的多重和深入思考。

以三位主人公的家庭关系为例,我们可以标注出她们对家庭的不同态度。勒布朗夫人是典型的贤妻良母。她全身心服务于家庭。“结婚7年,两年生一个孩子,并把这作为自己义不容辞的责任”[9]10。她宠爱孩子,常常责备艾德娜对孩子的关心不够。她崇拜丈夫。在丈夫侃侃而谈时,“专心地听着,不愿错过一个字,时而随声附和,时而代他把话说完”[9]69。配合对她的外貌和言行等方面的描写,勒布朗夫人被塑造成传统的家庭型女性。她迷人大方、举止得体,极富女性气质。她献身家庭,是完美的主妇。从勒布朗夫人在格兰德岛上的社会地位和周围人对她的评价上,我们可以看出她是克里奥尔人心中完美女性。

蕾茨小姐与勒布朗夫人截然相反。她没有家庭、丈夫和孩子,以教人弹琴谋生。与勒布朗夫人精致的生活状态不同,蕾茨小姐长相苍老、衣着寒碜、生活窘迫。她在人们的眼中性情孤傲、“令人讨厌、名声最坏”[9]72,因此受人排斥,处在社会的边缘地位。

艾德娜兼具二者的特征,试图在两者之间找到平衡。她拥有前者的美貌端庄和社会地位,但她却喜爱艺术和思考,追求后者不受家庭束缚的自由。在对二者的思考中艾德娜开启了追求自我的觉醒之旅。她无法为了家庭而放弃自由,因此成为家人眼中的反叛的女儿、妻子和不尽责的家庭主妇和母亲。在自我和家庭责任发生冲突时,艾德娜抛弃了贤妻良母的社会角色,正如她所说,“我爱我的孩子,但我不能为他们而奉献自己”[9]67。三种女性形象的并置说明了女性气质的多变,环境对个人诉求的压抑以及寻求个人精神独立的代价。

标注小说的社会背景和作者信息也有助于挖掘主题。19世纪末男权主义的盛行、当时女性的生存状态、理想的女性角色、南方淑女的传统等都说明肖邦发出了女性主义小说的先声,但经济独立和脱离家庭是一种超前的生活方式,这样的女性在当时受到人们的鄙视和排斥。这反映了女性追求自由独立所面临的困难和男权社会文化对女性意识的遏制。而肖邦本人家境富有,从小受到良好教育,爱好艺术,但不断痛失亲人使她成为怀疑主义者。祖母、母亲、女老师等聪明而独立的单身女性提升了肖邦对女性个体价值的认识。青年守寡,独立支撑家庭重担的经历使肖邦肯定女性的独立和坚强。

通过为语料加上人工标注,我们能够方便地获取文本信息。有关文本内的语言信息标注可以直观呈现文本的文体和语体特色,从而在词法、句法和章法的研究中找到形式所反映的内容和主题特征。有关文本外的元文本信息标注有助于展现与主题相关的作者的创作语境、创作伦理、创作目的和文本接受效果等问题。

综上所述,“语料库的优势在于它的信息储存量巨大以及电脑检索的快捷和准确”[10]。数据的直观呈现一方面可以使得隐藏于大量文本中的语言信息得以浮现,另一方面可以大量地节省读者的学习时间,提高学习的有效性。将数据和主题研究相结合,对文学主题进行语料库研究,考察词、句、篇章的频率、搭配和分布等信息同样具有文学批评的优势。因此,语料库的手段是对传统文论批评的有力支持和补充。定量和定性分析相结合,提供了一种科学、系统、深入的文本解读方式,既有助于呈现文本的细节特征,又有助于检验我们的论断,同时辅助提高那些没有经过专门训练的读者的文学敏感性、阐释能力和艺术鉴赏能力。

[1] 金莉,张剑.文学原理教程[M].北京:外语教学与研究出版社,2004:42.

[2] 林六辰.英美小说要素解析[M].上海:上海外语教育出版社,2005:113.

[3] 卢卫中,夏云.语料库文体学:文学文体学研究的新途径[J].外国语,2010 (1):47-53.

[4] 李晋,郎建国.语料库语言学视野中的外国文学研究[J].外国语,2010(2):82-89.

[5] 李涛.语料库文体学:计算机辅助文学语篇的文体分析[J].外语电化教学,2009(1):19-24.

[6] AITKEN A J.The Computer and Literary Studies[C].Edinburgh:Edinburgh UP,1973:172.

[7] 尚必武.叙事研究的新领域和新方法:语料库叙事学评析[J].解放军外国语学院学报,2011(3):104-109.

[8] 张仁霞.语料库检索分析在文学评论领域中的应用[J].广东外语外贸大学学报,2010(9):34-39.

[9] CHOPIN KATE.The Awakening[M].Londong:Everyman’s Library,1992.

[10] 何安平.语料库与外语教学[J].国外外语教学,2001(3):15-19.

Corpus-Assisted Thematic Analysis of Literary Works

DONG XIAOYE, CHAI JING

Corpus is an aid for English study and contributes to the analysis of literary style in which literary critics have won certain achievements. This paper tries to employ statistics into thematic study and develop corpus-assisted thematic analysis of literary works so as to retrieve the frequency of words, sentences, passages, collocation and distribution of textual data and then discusses the themes of original texts and tagged text. The cooperation of quantitative analysis and qualitative analysis bring about a scientific, systematic and profound method of textual interpretation.

corpus; thematic study; raw text; tagged text

本文推荐专家:

胡江波,中国科学院大学外语系,副教授,研究方向:英美文学与教学。

黄芙蓉,哈尔滨工业大学外国语学院,教授,研究方向:英美文学与教学。

2017-12-14

本文系黑龙江省高等教育学会高等教育科学研究“十三五”规划课题“美国文学数据驱动教学模式研究”(编号:16Q022);中央高校基本科研业务费专项资金项目“文学伦理学视域下的华裔美国文学研究”(编号:2572016CC02)阶段成果。

董晓烨(1978-),女,黑龙江哈尔滨人,东北林业大学外国语学院,副教授,博士研究生,研究方向:英美文学与教学;

柴 静(1981-),女,黑龙江哈尔滨人,东北林业大学外国语学院,讲师,研究方向:语料库语言学。

H08

A

1008-472X(2018)02-0106-06

猜你喜欢
语料语料库检索
基于归一化点向互信息的低资源平行语料过滤方法*
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
专利检索中“语义”的表现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
异种语料融合方法: 基于统计的中文词法分析应用