刘磊
(南京师范大学 文学院,江苏 南京 210097)
言 语 风 格 定 量 分 析 研 究
——以《白鹿原》、《平凡的世界》、《秦腔》为例
刘磊
(南京师范大学 文学院,江苏 南京 210097)
本文通过对《白鹿原》、《平凡的世界》、《秦腔》进行抽样、切分、标注,建立一个语料库。然后尽量多得从词层面、句层面、标点层面选取计量特征,对三部作品的言语风格进行分析,并得出了上述三个层面中的区别性计量特征。
言语风格 定量分析 计量特征
言语风格的定量分析,肇始于20世纪30年代的西方文体学界,这种研究最初是通过手工计算来实现的。直到二战后,计算机的发明使人们可以通过机器更高效和更大规模地对文本进行定量分析。汉语作品的言语风格定量分析,最早始于20世纪七八十年代,和西方采用定量分析研究 《圣经》著作权和柏拉图等古典作家著作年代类似,汉语界用词频统计等方法来考证《红楼梦》的作者归属问题。此后这种基于统计的定量分析方法不断发展,并获得了汉语风格学界、汉语语体学界、计算语言学界的认同,不同学界分别从不同角度对这种方法进行了理论上和实践上的发展,乃至有学者认为其已经发展成为一门学科——计算风格学(Computational Stylistics)。可以说,以语言结果的计量特征表示文本的方法加强了语言风格对比及作家判定研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语言结构特征计量研究是汉语语言风格描写研究及作家判定研究的重要方法。
对于中国现当代作家作品的言语风格定量分析,有不少学者展开过研究。钱峰、陈光磊(1981、1983、1987)较早地提出了建立“计算风格学”建议,并尝试性地对巴金和倪海曙的语言风格特征进行了对比研究,在随后又提出并完善了一套完整的算法。王景丹(2003)从句频入手,对曹禺、郭沫若等8位剧作家的风格进行了分析,得出了这些作家在句类、句子长短、句子整散和关联词等方面的不同。吴礼权(2003、2004)先后对“简约”与“繁丰”和“刚健”与“柔婉”的修辞特征进行了定量统计对比分析,得出了一些有益的结论。陈芯莹、李雯雯、王燕(2012)对《三重门》和《梦里花落知多少》进行了定量对比研究,总结出了句长、型例比、名词比例等7个语言结构特征,并以此作为文本特征,准确判定了两位未知作家文本的作者。
通过以上分析不难看出,从研究内容上看,对于现当代作家作品分析主要集中在巴金、曹禺等现代文学大家和郭敬明、韩寒等当代当红作家上,对当代名家涉及较少。从研究方法上,计量特征选取还以先验为主,数量较少。因此,本文选取三位年龄相仿的陕西籍作家的代表作,陈忠实(1942年生、陕西西安人)的《白鹿原》,路遥(1949年生、陕西榆林人)的《平凡的世界》,贾平凹(1952年生、陕西商洛人)《秦腔》,尽量多地选取计量特征,对三者作品言语风格进行分析,以期丰富言语风格定量分析的研究成果。
2.1 计量特征选取
通过对前人研究的综合分析,结合作品实际情况,根据可操作性原则、全面原则、可靠性原则。本文选取以下计量特征:
一、词层面
词类比例=各种词类所占总词数比例。
特殊词,比如方位词、时间词、“把”、“被”等。
词长=字数(不含标点)/词数;尽管效果不明显,但本着全面原则还是选此标准。
词型,文本中出现词的种数,反映作品词汇丰富程度。
型例比=词数/词型数;反映作家作品词汇使用情况。
单现词比例=文本中仅出现一次的词/总次数。
二、句层面
句长=字数(不含标点)/句数;句长统计以句号、叹号、问好、省略号为标志。
小句长=字数(不含标点)/句数;小句本位具有较强解释性,因此本文选取此标准。以逗号、分号为标志。
陈述句比例=陈述句数量/总句数。
疑问句比例=疑问句数量/总句数。
感叹句比例=感叹句数量/总句数。
三、标点层面
标点符号比例=标点符号数量/字数。
2.2 实验过程
(1)对《白鹿原》、《平凡的世界》、《秦腔》抽样,得到三个100k左右(约4-5万字)的文本,下文用B代表《白鹿原》样本、P代表《平凡的世界》样本,Q代表《秦腔》样本。
(2)利用ICTCLAS2013分词系统进行分词,分词粒度为小,词性标注集为ICTPOS二级,分词方式为自适应分词。然后进行手工修改,建立一个语料库。然后利用PHP脚本、Excel进行词类、特定词、标点的统计,利用超大字符集词频统计和Excel进行词频统计。
(3)数据分析,根据统计的数据,详细分析不同作品的各个计量特征的异同,推断作家的作品风格,归纳区别性计量特征。
3.1 词层面
3.1.1 词类
表3.1 词类统计比较
名词、动词使用,三作家基本相同,都是25%左右,差别不大。具体为名词:B>Q>P,动词:Q>B>P。由这里可以推测,贾平凹用动词最多,而路遥最少。
形容词、区别词、状态词的使用,总体上看形容词所占比例最大,约为3.5%-5%,B≈P≈5%,比Q多40%左右。区别词次之,约为0.3%-0.6%,B>P>Q,B比Q多117.57%,差异显著。最小的是状态词,约为0.2%-0.3%,B>P>Q,B比Q多105.25%。这三种具有修饰性特点的词类,都是B>P>Q,而且B与P差异很显著。由此可见,就所选样本而言,陈忠实可能比贾平凹更喜欢用修饰词,文风较为华丽。
代词上看,P≈Q>B,陈忠实用代词的比例比较低,路、贾则大体相同。
数词、量词上看,Q>B>P,路遥用数词最多,说明其在数量化表达上可能更偏向于精确化。
副词总体上相差不大,Q>P>B,由于副词多修饰动词或者形容词,因此和动词形容词比例可能有相关关系。
介词上,总体差异不大,P>B>Q;助词上,差别也不大,B> P>Q。连词上,也是P>B>Q,P与B差别较小,P与Q差别较大,P比Q多近一倍,这说明,路遥用连词最多,而贾平凹最少,从一方面说明了路遥的文风更书面化,有可能在句长上比较长,而贾平凹则多用单句、短句,少用长句、复句。
叹词上,P≈Q>B,且差异较大,P比B多300%左右,由此可见陈忠实很少用叹词,而路、贾则使用较多。语气词上,Q> P>B,贾平凹使用语气词最多,陈忠实最少。
拟声词上,Q>B>P,陈、贾使用比例上类似,而路则很少用拟声词。通过这些可以看出,贾平凹的作品可能口语化比较明显,路遥使用拟声词很少,陈忠实使用叹词很少。
3.1.2 特殊词
表3.2 特殊词统计比较
时间词、处所词、方位词上,三者总体上相差不大,值得注意的是这三个标准都是P所占比重最大,由此可见,路遥在其作品中使用了较多的时间词、处所词、方位词,由此可以看出其作品可能叙事更加完整,时间、地点等因素交代的较多。
“把”和“被”的使用上,P比例都是最少的,可见路遥可能用处置式的句子比较少。另一个需要注意的地方是,B“被”使用频率较高,可见陈忠实被字句使用较多。
“的”“地”“得”的使用上,有两个值得注意的地方。一是总体来看,P使用最少,特别是“得”,可见路遥较少使用补语。二是陈忠实使用“的”最多,而贾平凹使用“得”最多,可见陈多修饰,文风较为华丽,而贾使用补语较多。
3.1.3 其他统计标准
表3.3 词长、词型、型例比、单现词统计比较
词长上,差距不大,B>P>Q,陈忠实作品词长最长,贾平凹作品则词长最短。
词型和型例比上看,B词型最多,P次之,Q最少,与之相对,B型例比最小,P次之,Q最大。由此可见,陈忠实作品词汇更为丰富,路遥次之,贾平凹作品词汇最不丰富。
单现词出现比例,B>P>Q,单现词是另—个可以表示语言中词汇丰富程度的指标,单现词越多语言中的词汇丰富程度越高。而此处的数据与型例比显示的结果相符。
3.2 句层面
表3.4 句层面计量特征统计比较
句长上看,P(37.0511)>B(31.5693)>Q(22.2046),小句句长也是P(30.2646)>B(19.8358)>Q(12.7605),且差异较大,路遥的平均句长是最长的,达到37字每句,小句也有30字每句。贾平凹则最短,平均句长只有22字左右,小句长则只有不到13个字。陈忠实则处于二者之间。根据风格学理论,长句一般是较为书面化的表达,可能给人以严谨、深沉感觉;而短句则是较为口语化,给人活泼、轻快感觉。由此可以推断,路遥的作品更偏书面化,给人以凝重感;贾平凹的作品可能更加口语化,给人以轻快感。
句子类型来看,B、P差别较小,Q和另两者差别较大。陈述句比例上,B、P都在80%以上,而Q只有不到50%;疑问句和感叹句上,B、P都较少,在5%到11%之间,而Q在20%以上。由此可见,陈忠实、路遥的作品有较强第三人称叙述性,而贾平凹的作品可能有更多的对话,主观表达比较多。
3.3 标点层面
表3.5 标点统计比较
从标点总量上来看,Q>P>B,B同P之间差异较小,与Q差异较大。对比来看,B使用分号相对最多,分号在组织语言方面也是较为书面化体现,因此陈忠实的作品应该组织也较为严密,排比较多。P使用省略号和破折号最多,这也说明路遥在表达上喜欢用这种“歇后语式”表达,给读者思考空间较大。其他标点都是Q使用最多,其中与其他两人差异较大的是:问号,疑问句标志,上文已经分析过。叹号,感叹句标志,已分析。逗号,小句标志,已分析。冒号、引号,引号比例正好是冒号二倍,这正是话语标志,说明贾平凹的确对话较多。值得注意的是,在本文所选样本中,贾平凹没用破折号。
3.4 讨论
综上可见,陈忠实作品言语最大特点是词长较长,词型较多,形容词比例最大,陈述句比例最大,标点比例最小,由此反映出其风格特点是更加书面化,词汇丰富,风格也较为“华丽”;路遥作品最大的特点是时间词、处所词、方位词比例较大,“得”比例最小,句长、小句长较长,由此反映出其风格特点是更加注重场景描写,喜用长句,补语较少,总体作品风格凝重;贾平凹作品最大特点是形容词等修饰词比例较小,连词比例较小,数量词比例较小,连词、助词比例较小,语气词、拟声词比例较大,词长最短、句长最短、词型最少,标点比重大,不用破折号,由此反映出其作品特点是口语化特征明显,文风活泼。
由此可以选择出具有区别性的计量特征:叹词(B明显偏少),引号(B明显偏少,Q明显偏多),被(B明显偏多),分号(B明显偏多,Q明显偏少),括号、拟声词(P明显偏少),冒号(P明显偏少,Q比例明显偏大),感叹句、疑问句(Q明显偏多),得(Q明显偏多),顿号、叹号、问号、(Q明显偏多),破折号Q无。
由此我们可以得到下表:
表3.6 综合分析比较
基于统计的言语风格比较及作者判定研究是一项复杂的工作,发展至今虽然还有许多问题,但我们也欣喜地看到这项研究正在快速发展着,本文的实践也是如此。虽然存在着一些这样或那样的问题,但我们想强调是这种研究方法,即尽量多的统计出可以统计的计量特征,然后进行数据分析、挖掘,用数据说话,找到了一些在较多依靠先验定性分析情况下难以发现的、具有区别性作用的计量特征。
通过对言语风格的定量分析,我们发现,作品风格上:陈忠实的《白鹿原》特点是词长较长,词型较多,形容词比例最大,标点比例最小,由此反映出其风格特点是更加书面化,词汇丰富,风格也较为“华丽”;路遥的《平凡的世界》最大的特点是时间词、处所词、方位词比例较大,“得”比例最小,句长、小句长较长,由此反映出其风格特点是更加注重场景描写,喜用长句,总体作品风格凝重;贾平凹《秦腔》最大特点是形容词等修饰词比例较小,语气词、疑问句、感叹句、冒号、引号、“得”字比例明显偏大,词长最短,词型最不丰富,陈述句、分号比例明显偏小,不用破折号,由此反映出其作品特点是口语化特征明显,文风活泼。我们总结出的区别性计量特征为:词层面为叹词、拟声词、语气、“被”字、“得”字、单现词、词长、词型;句层面:句类、句长;标点层面:冒号、省略号、分号、破折号等。
[1]曹聪孙.言语风格统计学试说[J].天津师范大学学报,1988(4).
[2]曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报.2006(1).
[3]陈芯莹,李雯雯,王燕.计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[J].计算机工程与应用,2012(3).
[4]丁金国.基于语料库的语体风格研究——兼论量化与质化的关系[J].烟台大学学报,2009(2).
[5]钱锋,陈光磊.关于发展汉语计算风格学的献议[A].上海:复旦大学出版社,1983.
[6]钱锋,陈光磊.关于建立语体分类数学模型的构想.语体论.合肥:安徽教育出版社,1987:63-74.
[7]钱锋,陈光磊.关于建立语体分类数学模型的构想[A].合肥:安徽教育出版社,1987.
[8]钱锋,陈光磊.文学·数学·计算机[J].自然杂志,1981(06).
[9]王景丹.从句频分析看八位剧作家的风格异同[J].修辞学习,2003(04).
[10]吴礼权.从统计分析看“简约”与“繁丰”的修辞特征[J].修辞学习,2003(2).
[11]武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006(6).
[12]萧申生.G_Herdan的言语风格统计学[J].语言研究,1982(2).