基于聚类分析的《红楼梦》前后作者差异检验

2017-02-23 06:31陈恩宏刘陈帅贾学勇
西部论丛 2017年10期
关键词:红楼梦

陈恩宏 刘陈帅 贾学勇

摘 要:《红楼梦》成为文学中“红学”的代表,被越来越多的人进行研究,其中前后作者写作风格的差异成为人们首要研究的问题。本文从数学建模的角度出发,利用前后章节字、词、句定性定量的差异来证明前后作者不同。首先将前后章节分为两个样本,选取实词“红”、“玉”以及8个虚词,统计得出各个词在前80回和后40回的使用频率,作为样本元素,接着选取显著性水平a=0.05,提出原假设,即两个样本之间不存在差异;最后将样本集元素进行排序,分别平均计算得到秩和统计量,代入数据结合曼—惠特尼检验统计量使用SPSS软件,得出检验值Z=11.7075,因为,拒绝原假设,可得出前后作者不同的结论。再从计算前后章回中独有词的出现比例,直观体现出前后章回中词量的差异,接着统计每十章出现二元文法前200序列的次数,进行数据的归一化处理,形成单独样本,并利用欧式距离公式计算数据间的距离,利用MATLAB软件进行依次聚类,从聚类图可得出前80回中作者对相邻两词的使用习惯相似,但与后40回表达习惯差异较大。接着将高频的实词和虚词同样进行频数统计与归一化,选取前后两部分样本均值作为聚类中心,得出前80回和后40回的样本点分别聚集在不同的区域内。综上,从词量和词频的角度都可证明前80回与后40回作者不同。

关键词:曼—惠特尼U检验 N元文法聚类 k-means聚类

1. 引言

《红楼梦》流传至今,是一部以四大家族的发展兴衰为时代背景,以故事主人公的感情为主线,随着剧情发展不断揭示当代社会危机以及人性的善恶,已经成为我国小说的经典。本书作者曹雪芹的写作风格新颖别致、摆脱俗套、备受后世读者赞叹。但是在后续的保留和传播过程中,红楼梦遭到损坏,只保留下完整的80章,后续作者高鹗续写后40章,以此完善《红楼梦》。

《红楼梦》已经形成了独有的文学——“红学”,虽然《红楼梦》故事情节大致完整,但是作者不同,写作风格自然不同。通过建立模型,比较“红”“玉”两字在前80章与后40章的使用频率,证明两者作者的不同。

《红楼梦》前后的作者除了对指定词的使用频数同外,在一些词汇和词义上的理解和使用同样大相径庭,通过建立模型,说明前后作者的不同。

若再进行深入的研究,《红楼梦》中前80章和后40章的使用语句和语句的含义也存在差异,通过建立模型,定量的证明差异的存在性。

2.基于曼-惠特尼U检验的作者差异分析

在一部小说中, 作者使用词语风格应该是一贯的、连续的, 因此,对《红楼梦》这部小说而言,前八十章回和后四十章回的绝大部分词语也应该保持一致。为了佐证《红楼梦》前八十章回与后四十章回的作者不同,本文选取“红”、“玉”和几个虚词统计其在前后两部分的使用频率,然后通过曼-惠特尼U检验对两组数据进行差异性检验。

本文共计选择20个字词,分别为:

实词:红、玉;

虚词:被、从、于、因、在、向、以、之、者、或、的、罢、呢、便、就、亦、未、既。

为了提高检验的准确性,对每一章回中各个字词使用的次数分别统计,并在次基础上进行标准化处理。

设前八十章回中某一个字词的使用频率来自正态总体N1的样本,而后四十章回中该字词的使用频率来自正态总体N2的样本,两个样本总体相互独立。使用假设检验中的曼-惠特尼U检验对两个样本的差异性做检验。

3基于高频虚词的k-means聚类

这里对全部虚词——副词(d)、介词(p)、连词 (c)、助词(u)、语气词(y)在每十章回中的使用次数进行归一化处理,对得到的结果进行k-means聚类。

k-means聚类是一种划分聚类。其基本思想是:从文本中随机选择k个文本作为聚类中心,并根据每类与中心的远近将其余文本划分为k类,再重新计算每类的中心并作为新的聚类中心;根据与中心的距离对所有文本重新分类;一直迭代下去,直到聚类中心不再改变为止。其最终目的是实现类内文本之间相似性最大,而类与类之间的相似性最小。

综上所述,从高频实词和高频虚词两方面的聚类结果分析可知,《红楼梦》前八十章回和后四十章回的作者确实不是同一个人。

4.总结

文学风格是创作的命脉。本文从数学建模的角度出发,利用前后章节字、词、句定性定量的差异来证明前后作者不同。本文的主要创新点有下面两点:

1)采用曼—惠特尼检验模型,找出所有章回关键词的频数,进行排序与平均值求取,用SPSS软件进行数理统计检验,准确性较高。

2)从词量角度进行分析时采用独有词聚类和层次聚类法,都能准确具体体现出前80章回和后40章回之间的差异,其中包括前后章回出现独有词的比例和种类,但是前后章回有关独有词聚类难度大,算法运算时间长,每发现一个新的短语,算法就要从头开始,而层次聚类,则是忽略那种介于两个层次之间的样本,结果可能存在较大的差异和一定的偶然性。本文将均值聚类方法用于词汇角度分析,将高频词频率进行归一化,可较快得到聚类结果,并且结果非常直观。

参考文献

[1] 孟广仕.大数据时代的计算机信息处理技术[J].电子技术与软件工程,2018(15):164. 1]韋博成.《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用)[J]. 应用概率统计,2009,25(04):441-448.

[2] 杨梅.《红楼梦》前80回程度副词计量研究[D].苏州大学,2011.

[3] 汪维辉.《红楼梦》前80回和后40回的词汇差异[J].古汉语研究,2010(03):35-40+95-96.

[4] 杨粟森,彭旭,赵映诚.基于数理统计的《红楼梦》前80回与后40回相关性的多指标综合分析[J].电子世界,2017(02):197-199.

猜你喜欢
红楼梦
《红楼梦》中的女性形象分析
细品《红楼梦》中的养生茶
《红楼梦》读后感
假如《红楼梦》也有朋友圈……
冯其庸的论文
冯其庸的序跋
续红楼梦
作家阅读的方式
十年一觉迷考据 赢得红楼梦魇名
于水作品