困境与出路:数字人文视阈下英美文学应用研究

2021-12-27 14:37郑飞乐双嘉
广东外语外贸大学学报 2021年5期
关键词:语料库研究者人文

郑飞 乐双嘉

引 言

数字人文是将人工智能技术与人文学科相结合的学术领域,它以数字化的研究资源、跨学科的研究方法和定量研究为特点,旨在通过计算机工具为人文学科研究提供高效、准确的新方法,并为传统研究提供新思路。多年来学者针对数字人文的定义和研究范围意见不一,但对数字人文范式的4种特征取得了共识:(1)使用已存在的语料库开展研究;(2)使用量化模型解析人文研究领域中的问题;(3)选择特定学科来设计研究项目;(4)运用多种跨学科技能——如编程与批评分析——开展研究(Liu, 2013)。

随着信息技术的发展,信息资源的获取打破了地理空间限制,即使身处乡野,人们也能将获取信息的范围向外无限扩展,通过高速网络体验数字技术带来的世界快速变化(罗靖,2020: 123-124)。作为计算机技术与社会科学紧密结合的产物,数字人文这一跨学科的研究范式发端于20世纪中期的人文计算领域,它凭借灵活调配研究资源、跨学科的研究方法以及定量研究等优势迅速为人文学科研究提供高效、准确的验证数据,填补了传统人文研究的效率短板。在文学学者仍字斟句酌、页页唏嘘、苦寻契合时,数字人文已迅速且精准定位到相隔数十页,甚或数百本书中的字词句篇,令文学研究省时省力,因而这一新型范式的出现势必成为信息时代人文研究中的一个趋势和走向。然而,作为文学研究领域的新生产物,数字人文的发展正面临诸多困境,同时,如何从研究者、研究工具、研究方法、研究目的与成果等多方面推动数字人文的实际运用与创新是目前文学研究领域亟待解决的问题。本文基于“中国知网”检索出的国内相关文献,在分析归纳国内数字人文文学研究的发展现状与阶段成果基础上,总结现有数字人文领域文学研究困境,并结合多年研究成果,为数字人文视域下的英美文学寻求新的研究思路,提供新视角。

图1 中国知网“数字人文”与“英美文学”相关文献数量增长走势图

国内研究的成果与困境

以“数字人文”“语料库”和“英美文学”为主题词搜索中国知网相关文献,可见1993—2020年间共1971篇论文,剔除非相关文献(如图书馆、情报学、翻译等)后,与主题词密切相关的论文共81篇(其中应用类文章53篇,综述类文章28篇)。由于数字人文运用于文学研究的具体方法和有效工具在国内外处于探索阶段,大多数研究中所运用的“数字人文”技术仍局限于语料库方法,因而我们将数字人文的关键因素——语料库作为此总结的关键因子来探讨,此类相关文献增长走势如图1所示。

对其中的应用类文章进行研究要素分析和统计,结果如表1所示(括号中为论文数)。

表1 国内数字人文视域下英美文学应用类研究论文统计结果

对论文中作为研究对象的作家作品统计结果如表2所示(括号中为涉及相应作品的论文数)。

表2 国内数字人文视域下英美文学应用类研究论文中作家作品统计结果

结合图1和表1、2可见,尽管近年来国内数字人文与文学研究取得了一定进展,仍面对如下4个方面的问题与挑战:

(一)发展态势落后于国际水平

国际上,作为一种新兴研究方法,数字人文公认发源于19世纪的计量文献学、20世纪20年代的俄罗斯形式主义以及法国的年鉴学派。21世纪伊始,意大利学者弗朗科·莫莱蒂(Franco Moretti)提出“世界文学体系”和“远读”概念后(杨玲,2017:296),国际数字化文学研究热潮迅速形成。随着数字人文的日益成熟,计算机技术与文学研究的联系更加密切,现今已有数据语料库、文本挖掘和可视化、文学地图、社会网络分析、数字记忆建构、学术编辑等多种研究手段与形式问世。部分学者基于利用计算机协助文学批评所涉及的技术和文学层面的考量,证明数字人文可助推文学批评的论证和创新,引起学界广泛重视,相关理论性著作已有数十部。此外,数字人文相关建设也提上日程,部分学者在基金资助下讨论数字人文研究工具的通用性,例如罗伊·罗森茨魏格历史与新媒体中心(The Roy Rosenzweig Center for History and New Media)在美国国家人文基金会的资助下,在文本挖掘和可视化领域的研究极大地推动了数字人文工具的开发,使数字人文与英美文学研究结合更为紧密(Gibbs,etal.,2012)。

中国有关数字人文的研究始于21世纪初期,晚国外近50年。从上述图表可见,国内数字人文与英美文学研究不仅起步较晚,发展态势也显见舒缓。转折期来自2015年,得益于数字人文概念的传播及相关著述的影响增强,数字人文在文学领域迎来新发展。直至近3年,数字人文与英美文学结合研究发展步伐加快,成果数量显著增长,约占成果总量的80%。目前国内已有一定量的论文成果,但仍鲜有数字人文与英美文学研究的课题和专著面世。因而,相较国际上数字人文课题计划、语料库建设、成果数量的长足发展,中国数字人文与文学的相关研究方呈起势,发展速度较缓,且尚未形成规模。

当前,国际数字人文研究持续升温,态势迅猛。2019年3月的德国Erlangen文体学(Phraseology and Stylistics of Literary Language)高端论坛会议上50多位来自欧洲的语言学者运用数字人文的一个重要工具——语料库进行文学的各种阐述。遗憾的是除笔者外,没有其他中国学者参加;2019年5月美国文学年会(ALA 30th Annual Conference)中,运用语料库及数字人文进行文学处理的研究者形成一个小型团队,个中不见中国学者影子;2020年10月在中国上海举办的“语料库语言学国际研讨会:跨学科视角”300余人参与的跨学科盛会上,文学研究的分组会上发言人仅有聊聊6位。

(二)研究手段单一、研究作品体裁集中

对表1的结果进行简单分析可见:

1.研究手段较雷同:几乎所有研究都基于语料库平台(包括平行语料库),使用的软件工具均为国外常用语料库分析软件;

2.研究作品体裁集中:绝大多数(占比超过86%)研究对象集中于单部作品,超过90%的研究体裁又集中于小说研究,戏剧只占3部,不见诗歌研究;

3.研究依据理论角度单一:研究所依据的理论主要为语料库文体学(除未标明理论依据外,占比约56%)和语料库语言学(占比约19%);

4.研究角度趋同:绝大多数论文重复集中于几个角度来研究文本,研究作品主题约占26%,情节发展占比约15%,人物相关(形象、性格、关系)占比34%,语言及语篇特征占比约43%。

可见,语料库应用于作品主题、文体特征和人物形象分析方面成果频出,而在分析人物情感、理清叙事方面收效甚微。值得注意的是,在有限行文范围内,由于要考虑作品主题、写作风格等多方面因素,综合研究文章结论会流于浅显;而我们匮乏的恰恰是那种单一角度深度挖掘作品,有可能得出新结论、发现新问题的研究。此外,针对单一作品的多维度分析类成果,或单一作品的单角度研究数量较多,而针对多部作品和多个作家的研究成果数量非常有限,综合研究成果十分匮乏,此等重个体轻整体的研究局面对数字人文与文学结合研究的长远发展极其不利。而此时国际学者已跳出文本,在采集、标记、统计与解析大量文学因素的基础上,对作者与作品主题、作者与叙述形象选择倾向的关系展开“网状”研究(Siobhán,etal.,2017)。

在体裁研究中,国际上利用数字人文手段进行小说、戏剧、诗歌和散文分析研究的成果均有产出。相关学者多搜集小说集、散文集等,组建大型语料库展开研究,并不局限于特定文本。还有学者展开对文学批评主义的纵深研究,如Shawna Ross和James O’Sullivan(2016)使用数字人文学科的特定计算方法来展开现代主义案例研究。研究者从数据挖掘和可视化到地图绘制和工具构建等等,为借助数字人文手段研究文学和文化问题提供了新途径。目前国内绝大部分研究均选取小说这一文学体裁作为语料,涉及戏剧和戏剧家的相关研究成果甚少,其他体裁鲜有涉及。仅有戏剧方面的语料库研究成果包括:郑飞(2009)分析奥尼尔戏剧《悲悼》中的海岛意象及“海岛”一词的搭配和寓意;方颖(2016)提出Paul Werth的文本世界假说能有效阐释戏剧情境如何动态地影响人物性格;詹宏伟等(2017)探究《罗密欧与朱丽叶》中男女主人公表达爱意的不同方式;石志亮(2018)基于国内外莎剧研究现状的文献,论证了开展基于语料库的莎剧人物形象接受研究的必要性。小说研究者在文学研究中占多数,小说在数字人文研究对象中占“绝对优势”这一现象可以理解,但从长远看,不利于数字人文与文学研究这一新型范式的均衡与深度发展。

上述各种分布不均表明:数字人文与文学研究的结合仍有很大发展空间,如何利用数字人文手段更加深入地分析文本?文本分析的不同角度是否需要转变数字化手段使用方式?如何更为全面系统地进行多部作品的横向分析以及作家不同创作阶段的纵向分析?已成为数字人文学者们不得不直面的一系列问题。

(三)语料库欠丰富

语料库建设是数字人文与文学研究无法回避的艰巨任务。小到一篇散文,大到整个文学史,视学者研究需求都可组建大小不一的语料库。目前国内绝大多数语料库由纯文学文本组成,且多停留在文字层面上进行分析和研究。与此同时,国际上已开始有图片、视频等层面的语料库建设。如图形叙述语料库用英文写成的图形小说、回忆录和非小说数字化建成语料库,其中还包含分层监控语料库,除满足基本数字分析外,语料库可以平衡不同的历史时期、地理起源、文学体裁以及作者的性别和种族背景。

从表2的结果可以直观得出以下结论:

1.语料库规模较小:除个别论文外,绝大多数研究都针对某个作家的一部作品创建语料库进行研究;

2.规模较大的语料库影响力较小:国内达到一定规模的语料库有海明威短篇小说语料库(24部作品)、哈代“性格与环境”小说语料库(20部作品)及乔治·艾略特小说语料库(11部作品),但是彼此较孤立,未能形成彼此共享的有益关联,因此也缺乏第三方验证。

总之,中国的数字人文视阈下的文学研究与相关语言学与翻译研究相比,呈现出起步晚、研究者少、语料库小等特点;语料库文学相较数字人文与其他学科的结合来看发展程度更是相去甚远。如何构建并利用好大型语料库?如何实现语料库之间的交互共通?国内语料库如何与国外语料库取得有效联系?这些又是数字人文研究者亟待解决的问题。

(四)创新性待加强

近10年来国际上一些学者已不再过分欣喜于数字化手段的便捷和高效,对数字人文的认识与利用已进入更深层次。如Manfred Thaller(2012)发现了数字人文科学当前阶段的困境并提出一系列颇有争议的具体问题;也有学者开始重视数字人文对性别和文化交流的项目中的作用,如Jacqueline Wernimont(2013)探讨数字文学档案馆项目中女性主义评估的可能性,该研究有助于认识女性主义数字文学研究对数字人文领域的影响。而国内数字人文的文学研究仍停留在文本或作家研究层面,研究者大多机械化利用软件工具,分析较为泛泛,深度仍待加强。更有学者将数字人文作为“噱头”,尚未实现数字人文与研究内容的有机结合。数字人文与文学研究结合模式方面,在文本之外的文学批评主义、空间研究、文化交流等领域亟待创新思考。

值得肯定的是,近两年国内数字人文文学研究论文数量的增长可见其发展速度的加快和认可度的提高。一俟数字人文被更多文学学者接纳,针对同一作家多部作品的纵向研究及某一时代多位作家多部作品的横向研究以及更多跳出思维定式,思考数字人文与文学结合新可能的研究将指日可待。

数字人文视域下的英美文学研究出路

针对数字人文视域下英美文学研究困境,本文团队经过13年前期语料库生成、文学研究平台的搭建以及分析软件的开发及验证,产生出一套由方法论和应用研究实践构成的数字人文视域下的英美文学研究模式,期待为数字人文视域下的文学研究提供新研究方法的同时,为致力于本领域的研究者提供一定研究视角。

(一)方法论研究:由目标确定、分析-假设、假设验证及验证结论四个环节组成

1. 目标确定环节:通过文本细读确定研究对象(某一意象/观点等),通过“英美文学语料库”“文化资料库”“评论库”和“传记库”确定研究对象的显著性及对其分析的关键性;

2. 分析-假设环节:从“英美文学语料库”中提取文本至“文学分析平台”,通过关键词(簇)排序、语义簇密集程度、分布信息找出主干词,并从话轮中提取高频“共现”词,结合语境加以分析,形成论点假设;

3. 假设验证环节:将假设带入下列层次验证:

A. 原文本验证:借助“文学分析平台”回归文学作品文本,验证假设是否符合人物性格、情节发展、文本逻辑及角色的命运走向;

B. 其他作品验证:从文本语料库中提取同一作家的其他文本,定位类似的意象/观点,验证假设可行性;

C. 作家生平验证:从“传记库”中定位作家生平经历中相应的意象/观点,作为佐证;

D. 心理学/哲学/社会学验证:借用“文本分析理论框架”,结合“传记库”寻找作家生平中的心理学根源和作家对某类哲学迷恋等根源,验证假设合理性;

E. 评论验证:利用“文学分析平台”,从“评论库”挖掘评论界对作家作品的相关评说及定论;

F. 作家本人言辞验证:运用“传记库”中资料查找作家创作初衷,进行验证;

G. 传统文化验证:运用“文化资料库”中资料查找西方传统文化意象等信息进行验证。

4. 验证结论环节:按照以上验证步骤,确定/推翻原有假设

(二)应用研究:由主题研究和创作风格研究两部分组成

应用研究之一:主题研究

1. 主题确定环节:借用“作品研究”及“文学理论框架”方法论(如原型批评和新历史主义批评理论等),在文本细读基础上确定主题;

2. 语料库+文本分析环节:以“关键词”“毗邻对”“角色出场信息”“角色描写信息”“话轮转换”等为主要研究手段,以传统“文学理论框架”及“文本分析理论框架”为指导分析主题,提出假设论点;

3. 验证环节:根据收集资料的类型灵活运用方法论研究“假设-验证环节”中的7种验证途径进行验证;

4. 确认主题环节:确定本主题的合理性和可行性。

应用研究之二:创作风格研究

1. 创作风格假设环节:

A. 抽取共通特征:基于作家多部作品“创作技巧”“人物形象”“文体特征”等研究基础,抽取作家手法共同之处,借用“作家研究”及“文学理论框架”方法论,在文本细读基础上确定创作风格的假设;

B. 语料库语言学/社会学方法论:运用 “毗邻对”“优选结构”“反馈项目”等细节分析风格特征;

2. 验证环节:在“英美文学语料库”中选取其他作家作品(如同时代、同流派、同种族作家作品)导入戏剧分析平台。结合“文本分析理论框架”,选取方法论研究“假设-验证环节”中的验证途径,对目标作家进行对比研究。

3. 结论环节:确定作家创作风格。

本方法论和应用研究结合了语料库、文学分析平台、语言学、文学、心理学、哲学及社会学等研究方法,多角度、全方位对文学作品、作家风格进行系统分析,是将数字人文运用于文学研究的较突破性尝试,在作品主题、作家风格方面提出可量化的研究依据,同时验证和佐证既有研究成果,在美国波士顿文学年会(The ALA 30thAnnual Conference)上得到与会专家们的一致好评,更得到尤金·奥尼尔协会会长Robert Dowling及阿瑟·米勒协会与会会员们的高度肯定。

结 语

数字人文作为一种科学方法将以其无可辩驳的事实改变着人文研究的面目,只是这种改变非但不因其科学性而消弭人文精神,反而会在自觉的人文精神支配下使文学的创作与研究增添更多客观性因素和理性因素。为此,在困境面前,文学研究者,特别是数字人文的文学研究者应:

摒弃成见,拥抱机遇。一直以来,文学批评重视文本“细读”,不少学者对引入数字化手段进行文学研究持怀疑甚至否认态度。然而大数据与不同学科的结合研究是大势所趋,数字人文极大程度上帮助研究者站在更高视角审视更为庞大繁杂的语料,我们需破除学科壁垒,接纳数字化跨学科的发展机遇,令文学研究紧跟时代潮流。

开放包容,多方合作。数字人文必将借助计算机软件进行研究,这对一直以来靠人力研究的传统文学研究者来说是不小的挑战。文学研究者需秉承开放包容的心态,向计算机、语料整理、软件开发等专业人员积极“取经”,甚至寻求文学与计算机的“跨界”合作,早日建立起一套行之有效的数字人文与英美文学研究方法论,以便充分全面享受数字手段的便捷优势,助推文学研究的多样发展。

打破定式,推陈出新。正如前文所言,当前数字人文与文学的结合模式较为单一,研究成果实际是单一模式下针对不同文本的具体演绎,长此以往,可研究对象变少,结论也将几近枯竭。因此,研究者必须创新思考数字人文与文学的结合方式,并多加实践。同时,在既有结论的基础上,如何准确、充分、完整解读数字化信息从而获得新发现,以及新发现与既有结论有所出入时如何恰当取舍,这些必须引起广大数字人文文学研究者的重视和思考;

善用工具,审慎思考。科技是一把双刃剑,数字工具为研究者带来极大便利的同时也有可能引发一些不必要的麻烦,研究者如果过分重视数据解读,让数据“大于”文本,将与文学批评的本质背道而驰。数字化手段仅仅为一项提高效率、启发新知的工具,研究者应善用之,不可过度依赖,在思辨中努力挖掘文学研究的新价值。

猜你喜欢
语料库研究者人文
美在山水,魂在人文
最朴素的人文
基于语料库的清末民初日源外来词汉化研究
用水痘病毒开发新型HIV疫苗
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
运用语料库辅助高中英语写作
年轻瘦人糖尿病增多
人文社科
语料库与译者培养探索