周 琨,张荣梅
(江苏科技大学 外国语学院,江苏 镇江 212003)
从语料库文体学的视角看培根Essays的文体特征
周 琨,张荣梅
(江苏科技大学 外国语学院,江苏 镇江 212003)
采用实证的研究方法,从语料库文体学的视角出发,建立一个包含培根随笔集Essays的小型语料库,并借助于WordSmith软件,详细比较Essays和参照语料库Flob的部分文体特征,发现Essays具有词汇丰富,句式灵活多变等鲜明的特点,验证了语料库的方法在文体学研究中的有效性。
语料库文体学;培根随笔集;文体特征
20世纪60年代以来,随着语料库语言学的迅速发展,基于语料库的研究方法逐渐为人们所认识并采用,成为一种重要的研究范式。语料库语言学与文体学相结合而催生的语料库文体学(Corpus Stylistics)是一个新兴的研究领域,旨在借助语料库的工具提供一种新的途径来描述语篇中的言语、写作和思想表达形式,以实证的方法对文本的文体特征进行定量和定性的研究。[1]
弗朗西斯·培根(1561-1626)是英国文艺复兴时期著名的哲学家和文学家,Essays是其主要文学著作,在世界文坛享有不朽的文学声誉。该书包括58篇散文,内容非常丰富,涉及哲学思想、伦理探讨、处世方法以及艺术欣赏等。培根的论述见解独到,且文笔优美,简洁老练,警句迭出,被奉为散文史上的杰作,因而备受推崇,重印不衰,并被译成各国文字广为流传。
Leech和Short(1981)提出了一个文本分析模式,用来分析文本的文体特征。他们将考察的对象按层次整理,并列出了一个详尽的清单,包括词汇特征、语法特征、修辞手段、语境和衔接四大类,每一大类下面又具体分了各小类。[2]75-80本文将用语料库的方法来研究Essays的词汇特征和语法特征。
国内外有多家出版社都出版了Essays这部作品,但基本都是忠实于原著,没有进行什么删改。作者以目前较为流行的外语教学与研究出版社1998年4月的版本为依据,将全书58篇文章电子化,并对书中的标题、段落以及句子等基本信息进行初步的标注(annotation)。在此基础上,利用CLAWS标注系统对其进行词类赋码(tagging)并进行后期的手工校对,改正自动赋码过程中的少量错误。这样,一个简单Essays语料库就建成了。
Flob (Freiburg-Lob Corpus of British English)语料库是Lob语料库的更新版本,收录了20世纪90年代英国英语语料。该语料库的库容为100万词左右,包含500个各类文体的文本,每个文本大约2000词,是一个很好的参照语料库。
WordSmith是一款功能非常强大的语料库软件,目前的最新版本是5.0,由利物浦大学的Mike Scott博士开发。它具有很强的词语索引和统计功能,能提供多项统计数据,如形符、类符、类符/形符比、标准化类符/形符比、词频、平均词长、平均句长等。
本文所采用的WordSmith 5.0软件在分析过程中将所考察的部分词汇和语法范畴交叉在一起,例如表1同时包含词汇和句子的分析数据,而其中句长等概念在Leech和Short的清单中则属于语法范畴;表4中包含的各个词类则依实词和虚词的区分被分别归入了词汇和语法范畴。因此,为了方便讨论,在下面的研究中笔者也把这两大类特征放在一起考察。
运行WordSmith 5.0,分别打开Essays和Flob语料库,利用软件中的“Wordlist”功能,经简单计算后可以得到如下的统计数据:
表1 Essays和Flob基于Wordlist功能的主要统计数据
形符(tokens)是一个语言单位,类似于我们日常说的“词”。[3]9形符数是语料库容量的最常用的测量单位,一个文本的形符数就是该文本的长度。比如,一个1亿词的语料库就是指这个语料库有1亿个形符。从表1可以看出,Essays的总形符数为51,952,去除文本中的阿拉伯数字以后的形符数为51,949;Flob 的总形符数为 1,235,041,去除阿拉伯数字后的形符数为1,004,738,因此这两个语料库从容量上来说相差近20倍。
类符(types)指不重复计算的形符数,重复出现的形符只能记作一个类符。[3]9一个文本的类符数就是该文本不同形符的数量。例如,一个100词的文本中,如果有80个不同的单词,那么这个文本的形符数为100,类符数为80。如表1所示,Essays和Flob的类符数分别为为6,727和45,539。
类符/形符比(TTR,type/token ratio)是衡量文本中词汇密度(lexical density)的常用方法。[3]9从表1的数据来看,两个语料库的TTR存在巨大差异:Essays为 12.95,而 Flob仅为 4.53,但这并不表示Essays的词汇密度达到Flob的三倍之多,而主要是由于两库的库容相差巨大,TTR不能准确反映其词汇密度水平。这种情况下我们可以借助标准化类符/形符比的概念来进一步考察两库的词汇密度情况。
标准化类符/形符比 (STTR,standardised type/token ratio)是按一定长度分批计算文本的TTR,然后计算所有TTR的平均值所得的结果。比如,Wordsmith默认设置长度设为1000(可根据文本的长度进行适当的调整),则在运行过程中会计算文本中每1000个形符的TTR,然后计算出所得的所有TTR的平均值,得到的数值就是该文本的STTR。这种方法可以弥补用TTR来计算不同长度文本词汇密度的不足。因此我们来看一下这两个语料库的STTR 值:Essays为 41.35,Flob 为 39.03,Essays高于Flob 5.94%。这组数据应该是比较理性和可靠的,它们说明相对于参照语料库来说,Essays的词汇密度较大,也就是说Essays的词汇使用更加灵活,词汇量更为丰富。
词长 (word length)即一个单词所包含的字母数。通过Wordsmith的Wordlist功能,我们还可以得到语料库中有关词长的数据。
表2 Essays和Flob的词长分布情况
观察表2的数据我们可以发现,Essays和Flob中四个字母以下的单词均占较大的比重,所不同的是,Essays的双字母单词和四字母单词的比例大于Flob,而单字母单词和三字母单词的比例则小于Flob。另外,Essays中包含5-7个字母的单词所占比重均高于Flob,而8个及以上字母构成的单词则比重较小。
平均词长(average word length)指文本中单词的平均长度。一般来说,一个文本的平均词长反映该文本中词汇的复杂程度和难易程度。从表1的数据来看,Essays的平均词长为4.375,略高于Flob的4.367,这说明整体而言,Essays中用词的复杂程度和难度略高。
平均句长(average sentence length)指文本中句子的平均长度。一般来说,一个文本的平均句长越长,则说明该文本的句子越复杂,反之则越简单。根据表1的数据,Essays的平均句长达到每句29.28个单词,大大高于Flob的平均每句18.83个单词,这充分说明培根在Essays中使用了大量较长的语句。
标准差(std.dev.,Standard Deviation)是一个统计学概念,指一个数据集中各数据偏离该数据集平均数的距离的平均数,能反映该数据集的离散程度。就句长标准差而言,如果一个文本的句长标准差较大,则表示该文本的句长偏离平均句长较大,也就是说该文本中各个句子间的长度差异较大;反之则说明该文本中各个句子的长度比较一致,相差较小。观察表1中的数据发现,在Essays中,句长标准差为17.45,高出Flob近30%,可以看出培根在Essays中的语言使用富于变化,句式灵活,既有大量的长难句,也运用了一些简洁的短句,增加了语言的表现力。
词频(word frequency)指一个单词在文本中出现的次数。词频可用于观察、比较不同单词的使用频率,并从文本中出现的一些高频词中发现作者的用词习惯。
用Wordsmith分别运行Essays和Flob,观察各自的frequency列表,我们可以发现,Essays中词频超过1%的高频词有13个 (如表3所示),Flob有8个;而Essays中词频超过0.1%的有120个,Flob有97个。从表3中还可以看出,在这13个高频词中,只有a和the这两个冠词在Essays中出现得比Flob少,特别是the,少了近1%,这说明培根在Essays中冠词使用偏少。另外,Essays中部分连词的使用则明显多于 Flob,如 and,that,but等,这也符合 Essays中句式比较复杂,长难句较多的特点。
表3 Essays和Flob中的部分高频词
运用Wordsmith的Concord功能对Essays和Flob分别进行检索,并对检索结果进行简单的计算,可以获得这两个语料库中主要词类的使用情况,如表4所示:
表4 Essays和Flob的词类分布情况
表4的数据显示,两个语料库在词类的构成上总体相当,差别不是太大。主要区别有以下几点:(1)Essays的名词使用量较少,相应地,主要用来修饰名词的形容词和冠词的使用量也偏少;(2)Essays中的连词使用较多,所占比例几乎接近Flob的2倍,使得语句更加流畅、丰满,同时也增加了句子的长度和难度;(3)Essays中很少使用感叹词,感叹词在文本中所占的比例大约相当于Flob的1/5,这说明口语化的表达在Essays中很少出现,而基本上是以书面语为主;(4)Essays中大量使用了外来语,如拉丁语、希腊语及法语等,外来词汇的使用比例几乎达到了Flob的20倍之多,这是该作品的一个显著特色。
从以上的分析中可以看出,Essays在词汇和语法方面都具有较为鲜明的特色,如词汇丰富,句式灵活多变等。这一结果和读者在阅读这部作品时的主观感受相一致,同时也验证了语料库在文体分析中的有效性。然而,由于语料库文体学毕竟还是一个比较年轻的学科,其本身还存在一定的不足,尤其是文本分析与计算机技术的结合,还有待进一步的研究和完善,如语料的深层次自动标注和相关分析软件的研制等。笔者坚信,随着计算机技术的不断发展,语料库文体学将会在语言学和文学的研究中发挥更大的作用。
[1]刘 靖,黄立波.《语料库文体学》述介[J].外语教学与研究,2010,(3):236.
[2]Leech,G.N.,Short,M.H.Style in Fiction:A Linguistic Introduction to English Fictional Prose[M].London:Longman,1981.
[3]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
Stylistic Features of Bacon's Essays:A Corpus Stylistic Perspective
ZHOU Kun,ZHANG Rong-mei
(School of Foreign Languages,Jiangsu University of Science and Technology,Zhenjiang,Jiangsu China,212003)
From the perspective of Corpus Stylistics,the author constructs a small corpus composed of Bacon's Essays,compares some stylistic features of Essays and Flob,a reference corpus,and finds that Essays has very striking lexical and grammatical features.The results of the research also confirm the validity of the corpus-based approach in stylistics studies.
Corpus Stylistics;Bacon's Essays;stylistic feature
H315
A
1008—7974(2011)11—0059—04
江苏科技大学人文社科项目“曹明伦译《培根随笔集》的文学文体学研究”阶段性成果。项目编号:2009WY124J
2011—08—20
周 琨(1976-),安徽合肥人,江苏科技大学外国语学院讲师,硕士;张荣梅(1978-),女,江苏南通人,江苏科技大学外国语学院讲师,硕士。
林凡)