苗艳艳
摘 要: 基于语料库技术对文本风格进行定量研究在国外已经发展得比较成熟,而国内的文本分析大都还处于文艺风格的内省式研究。苏童是先锋作家的代表人物,第九届茅盾文学奖获得者,并且作品被翻译成多国语言,在国内和国际文学上有很大的影响。从语言学角度研究其文本风格的很少,我们采用计算风格学理论,利用语料库技术对苏童的代表作品进行从高频词的使用、标点符号的运用以及文本阅读难度三个方面分析。
关键词: 苏童 作品风格 计算风格学 语料库
基于语料库的定量分析属于验证性的分析,我们的研究试图通过定量分析验证内省式分析的结论并且发现内省式研究不能得到的结论。苏童是先锋作家的代表人物,第九届茅盾文学奖获得者,并且作品被翻译成多国语言,在国内和国际文学上有很大的影响。苏童擅长描写女性,其作品中包含了不同类型的女性形象;他出生在江苏,作品中有着江南水乡的影子;谢光胜(2015)指出苏童小说语言的“陌生化”程度比较高的特点,其中包括标点符号的陌生化。
上世纪30年代,西方文体学界引入了定量分析,尤其是统计学的方法。到了50年代,由最初的人工统计文本中的语言项目,到后来借助计算机进行统计,大大提高了研究的效率。这种研究方法取得了很大的成就,逐渐发展成一支独立的学科——计算风格学(Computational Stylistics)。计算风格学是数理语言学的一个分支,其理论基础是写作是个人将思想通过文字表达出来的一种活动,其隐含的是作者语言编码的方式,作者本人可能也察觉不到。因此,可以通过量化文本中语言结构的方式发现作者的写作风格。
1.自建作品语料库
20世纪90年代,随着计算机技术和互联网的快速发展,文本的搜集变得更加方便,文体学研究呈现出了Leech和Short(2001)所说的“语料库转向”。言语的使用差别很大,仅仅凭内省式的言语感知是不能很好地判断的。使用语料库则极大地提高了文本分析的效率和精确性,避免了人们主观上的误差,为文本分析提供了一种新的分析方法。我们自建了苏童作品语料库,包括了他的四部代表作品,共571477字。具体如表1:
我们自建的语料库的语料是从网上下载的,根据权威网站的文本,加上人工校对,以纸质版书籍為依据,确保语料的正确性。语料是我们分析研究的对象,语料的正确性决定着研究结果的正确性。然后就是对语料的处理,主要是分词。因为本研究中并没有涉及到词类,因此我们使用的是中科院张华平老师的分词软件。该分词软件正确率很高,但是我们也对处理后的语料进行了人工校对。分词主要是关系到类符形符比这一分析。数据的统计,使用AntConc可以帮助我们统计高频词和标点符号。
2.苏童作品分析
2.1基于语料库的高频词分析
高频词是文本主题的反映,根据高频词我们可以知道作家的写作内容主题以及关不同文本之间的差异。这里的高频词仅仅只是实词,不包括虚词。我们用AntConc的Wordlist功能处理苏童作品语料库可以得到前100个高频词。
根据表2,我们可以分析一下苏童作品的高频词。关于代词,出现了我、她、他、你、自己、这、他们、什么、怎么、谁等。名词包括人、女人、手、母亲、父亲、祖父、男人、孩子、眼睛、老板、家、天、事等,这些词中女人、母亲出现的频率最高,在代词中,表示女性的“她”也要高于其他代词。人名包括五龙、保润、颂莲、柳生、织云、绮云、慧仙等,其中七个人名中有四个是女性。可见苏童的作品中女性比较多。动词包括说、去、到、要、来、看、吃、住、知道、去、走、坐、想、用、会、做、出、起、跑、问、叫、拿、生、听、打、站等,这些词都是描述日常生活中的动作,是对日常生活的描写。其他的名词如米、船、河、水等,在苏童的小说中出现了很多与南方生活相关的词汇,这些词汇使苏童的作品更加具有江苏本地特色。
2.2基于语料库的标点符号分析
标点符号是文字序列的组成部分,相同的语言使用不同会有不同的表达效果。朱德熙先生在《语法修辞讲话》中单独对标点符号进行了解释,他指出了标点符号在现代汉语中的重要性:“标点符号是文字里面的有机的部分,不是外面加上去的。”以及标点符号在文本中的作用:“自从有了标点符号,文章的风格也收到了影响。最显著的,有问号……有了引号……有了破折号和省略号……”可见,标点符号在书面语的表达上的重要性。因此,我们对四部作品中的标点符号进行统计。这些标点符号分别是逗号、句号、问号、感叹号、省略号、破折号、引号冒号和顿号。
根据表3,我们可以看出来,逗号、句号、问号、叹号、顿号等频率随着文本容量的增大而增加,只有省略号、破折号、双引号、冒号的频次没有出现增加的趋势,并且也没有规律可循。破折号、省略号根据其表达需要可以是根据作家的写作内容而定,但是小说中的大量对话使得双引号和冒号不可或缺。但是,在苏童的作品中冒号和双引号频次这么低,原因如下:
引号分为双引号和单引号,一般情况下用的都是双引号,单引号是在双引号的内部使用的。
以《妻妾成群》为例,在1991年初次出版,在第一章中有双引号,表示直接引用的直接引语,如例1。在第二章以及以后的双引号都是表示需要强调的成分或者表示别称、反语等的意思,如例4和例5。有些表示人物对话的部分,并没有出现双引号,有的引导句都没有出现,如例2和例3。《妻妾成群》在2002年出版的时候,第一章中表示直接引语的双引号经过作者的同意也去掉了。
例1.雁儿说,“你要肥皂吗?”颂莲没说话,雁儿又说,“水太凉是吗?”(《妻妾成群》第一章)
例2.颂莲说,你们挖蚯蚓做什么?忆容说,钓鱼呀,忆云却不客气地白了颂莲一眼,不要你管。(《妻妾成群》第三章)
例3.阿保上前堵住了五龙,他一把抓住五龙的衣领说,你是小偷吗?(《米》第一章)
例4.也不知道是妒忌还是偏见,马桥镇人对母亲的评价显得不三不四,他们暗地里叫她“肉铺家的王丹凤”,这绰号暴露了我母亲的出身门第,也暴露了我母系的血缘。(《河岸》第四章)
例5.这么把她带回船上,孩子算“黑”人,对不起她,别人冤枉我们拐孩子,我们对不起自己,你赵书记要给我们个说法,要立个字据什么的吧? (《河岸》第四章)
利奇和肖特(2010)认为那些省略了引号或引导句的表示人物话语的句子称之为“自由直接引语”。自由直接引语是叙述干预最轻、叙述距离最近的一种形式,能使读者直接接触人物的“原话”。它具有直接性与生动性,对通过人物的特定话语塑造人物性格起很重要的作用。自由直接引语往往和意识流、内心独白等联系到一起,读完苏童的小说,确实可以直接感受到人物性格。这种现象在西方作家的作品中也出现过,比如意识流小说代表人物詹姆斯.乔伊斯的《尤利西斯》中对于意识的描写就是这样的,没有直接引语的引导句和引导符号。苏童作品中的标点符号省略不同于普通小说文本中的人物之间的对话或者其他作家有节制的使用省略,他的作品中所有的直接引语都是自由直接引语。这就是其标点符号的“陌生化”。
2.3文本阅读难度分析
文本阅读难度是无法由主观来确定的,每个人的感受不一样,标准也就不一样。在计算风格学理论中,文本阅读难度可以有类符形符比来确定。形符(Token)是指一个文本中所有的词,类符(Type)是文本中不同的词也就是词频为1的词。类符形符比(Type Token Ratio,TTR)是类符和形符之比,是衡量一个文本的词汇丰富程度的重要指标。词汇程度越丰富,文本阅读难度越大。刘颖(2014)指出形符类符比受到文本长度的影响,文本长度越长,形符类符比越小。陆芸(2012)中指出了有关于形符类符比的修正,其中Herdan的修正是:
我们对历届获得茅盾文学奖的作家的代表作的修正类符形符比进行统计,得到下面的表格:
通过表4和表5的对比,我们可以看到,苏童作品类符形符比最低是0.8,而历届获得茅盾文学奖的作家的代表作大都在0.8以下。因此,苏童的作品词汇比较丰富,文本阅读难度较大。
3.结论
通过对我们自建语料库的检索分析,可以得到以下结论:第一,苏童的作品中以描写女性形象为主,题材多是有关于江苏本地的日常生活,表现出了南方作家的写作特点。第二,在文本叙述上使用了大量的自由直接引语,可以更好地让读者直接感受到作者的情感波动。这些都是可以通过内省式的分析得到的,我们的定量分析为内省式分析提供了支撑。第三,在文本阅读难度上,苏童的小说作品阅读难度较大。这一结论是根据类符形符比而得到的,由于人的感知能力有差别,所以在文本阅读难度上无法统一。我们的分析通过对比苏童作品和作家群作品的类符形符比而得到了苏童的作品阅读难度较高的结论。这与苏童小说语言“陌生化”的特点有关。
参考文献:
[1]曾毅平,朱曉进.计算方法在汉语风格学研究中的应用[J].福建师范大学学报,2006(1).
[2]谢光胜.苏童小说语言中的陌生化[D].湖北师范大学,2015.
[3]贺湘情,刘颖.基于文本聚类的语言韵律和节奏风格特征挖掘[J].中文信息学报,2014.
[4]胡春雨.〈语料库文体学与狄更斯小说〉述评[J].现代外语,2015.
[5]卢卫忠,夏云.语料库文体学:文学文体学研究的新途径[J].外国语,2010.
[6]吕叔湘,朱德熙.语法修辞讲话[M].北京:中国青年出版社,1979.
[7]申丹,王丽亚.西方叙事学:经典与后经典[M].北京:北京大学出版社,2010.
[8]刘颖.统计语言学[M].北京:清华大学出版社,2014.
[9]陆芸.词汇丰富性测量方法及计算机程序开发:回顾与展望[J].南京工业大学学报,2012.