陈城钰 于欣雨 苏世杰
【摘要】本文借助数学知识建立一元线性回归模型,利用最小二乘法来拟合出虚词频率直线,通过分析虚词频率的差异,来推断《红楼梦》作者的问题.根据建模分析,得出前80回与后40回不是同一个作者的结论.
【关键词】红楼梦;线性回归;词向量
《红楼梦》是具有高度思想性和艺术性的伟大作品,因某些历史原因,在传播过程中出现了增补、修订的现象.本文借助数学模型,对《红楼梦》前80回与后40回作者是否为同一人进行了研究.
一、问题的分析
本文作者在前期研究中发现,《红楼梦》主要人物出现的频率受小说情节的影响较大,虽能在一定程度上体现出作者的差异,但并不明显.
现代汉语言文学研究认为,虚词的使用更能够体现出作者的写作习惯与语言风格.因此,通过大规模的统计与合理地建模,对不同章回中相同的虚词进行频率分析,得出每章回作者的语言习惯,在误差范围内进行比较和判断,可判断不同章回之间作者的异同.
二、模型假设
1.同一个作者,认为他对词、句法的使用习惯基本保持不变,作品中的虚词出现频率几乎没有差别;
2.不同的作者之间,词汇的使用习惯、词与词的相关性处理、长短句的偏好有较大的差别;
3.本次所用《红楼梦》版本为作者成书时原貌,成书后,除去遗失的原稿外,在传播过程中无其他人的修订.
三、数据概览
在使用模型对虚词词频进行分析之前,使用MATLAB语言对虚词在前后章节中出現的次数差异进行了统计,为模型的建立及其结果提供有力论据.
采用Python语言及Jieba分词插件进行词频统计,挑选了“再、可、别、为、之、啊、咧、吗、呀、仍、要、也、尚、偏、很、比、越、往、向、让、故、皆”22个在一般古汉语中高频出现的虚词进行统计比对,发现对虚词的使用偏好在前后两部分出现了巨大差异,如“吗”在前半部分出现频率0.0375次/回,而在后半部分出现频率1.875次/回,验证了前后部分是由语言习惯相差明显的两位作者分别完成的推论.之后的模型求解均基于该理念完成.
四、模型的建立
本文通过建立一元回归方程,对虚词频率位次的分析来估计不同文本之间虚词的频率异同.作者取样同一部小说中的大量虚词,根据虚词的频率从小到大排列,视其位次为自变量x1,x2,…,xn.以虚词对应的频率为因变量,记y1,y2,…,yn,并在直角坐标系上制得散点图,并用最小二乘法拟合出词频——虚词序次直线.其中,b为该直线在y轴上的斜率,a为该直线在x轴上的截距,且满足方程如下:
b=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=∑ni=1xiyi-nx y∑ni=1x2i-nx2,
a=y-bx.
线性相关系数(R2):由于之后的线性回归模型需要以一个同类随机样本虚词的顺序为基准,因此,两个变量之间的关系强度无法得到保证.此时需要计算每条拟合直线的线性相关系数,即R2来判断两个变量之间的线性关系密切程度,在该问题中表现为虚词的位次与频率是否大致与随机样本一致.
观测数据(xi,yi),i=1,2,…,n的样本相关系数
R=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2
=∑ni=1xiyi-nx y∑ni=1x2i-nx2∑ni=1y2i-ny2 .
根据统计学知识,在本数学模型中规定:当0.75 由假设可知,同一作者作品中虚词词频是一致的.因此,如果各章节作者相同,那么相同的一组虚词按照不变的排序后,所拟合出的直线近似一致.并且,由于相同虚词在不同作者作品中词频不同,所以一组虚词按照不变的顺序排序后,拟合出的词频-虚词直线一般不同,且拟合效果一般较差.同时,相关系数也与拟合直线的斜率一同作为判断依据:当斜率相差小且拟合效果好时,认为匹配成功;否则,认为匹配失败. 五、标准数据设立 为了论证虚词词频的异同能够体现作者的异同,首要任务是建立各线性回归方程斜率之间的可承受误差区间,即标准数据.本文选用已确认由唯一作者书写的《西游记》为参数来源. 数据获得步骤:将100回的《西游记》平均分为前后各50回两个部分;通过Python语言及Jieba分词插件得出总出现频率较高的虚词:吗、仍、越、让、其、比、但、可;使用MATLAB语言对这8个虚词的出现次数及频率进行统计;以前50回中8个虚词的频率升序为基准,将前后两部分的数据制作成散点图,并绘制出各自的线性回归方程.两方程斜率的差即为该问题中可接受的误差,即在该范围内可认为两篇文本出自同一作者. 进行多组数据比对,作者认为以1±0.1为标准数据具有适用性. 六、模型的求解 为使数据尽量可控、精细,将《红楼梦》以每10回划分为1节,分别从前8节和后4节中各抽出1节作为顺序基准.求解过程中21~30回和101~110回被随机选中.剩余10节分别以这两节的顺序为基准,构建一元线性回归方程,通过对线性相关系数及斜率的比较,将剩余10节归入到误差较小即在标准数据内的那组,由此确认120回中哪几回属于同一个作者. 使用盲眼测试法,即将章回数当作未知数据,通过将该小节以两个数据基准数据得出的散点图及线性回归方程与其基准进行比较,得出更接近基准的该组即为该小节所属部分. 以31~40回小节为例进行归类,将两组数据的相对差距进行比较: 以21~30回为基准时,线性相关系数为0.765 223 92,拟合效果出色,适合进行方程截距比较;截距与基准之比为0.765 223 920.810 458 30=0.944 186 666,将该比值与标准数据1±01进行绝对差距比较,发现在可承受范围内. 以101~110回为基准时,该小节线性相关系数为0392 719 34,拟合效果偏差,不宜进行方程截距比较;为使得结果更合理、有力,进一步进行截距比较:截距与基准之比为0.392 719 340.855 150 40=0.459 240 082.再将比值与标准数据1±01进行绝对差距比较,发现远超出可承受范围. 由于第31~40回与21~30回拟合效果出色,比值在合理范围内;与101~110回拟合效果较差,比值超出范围.因而,可以得出31~40回小节属于前80回. 将剩余9小节按照如上方法进行比对,结果显示前80回在以21~30回为基准的可接受范围内;后40回在以101~110回为基准的可接受范围内. 七、结 论 综上所述,通过虚词词频的一元线性回归模型,可以得出《红楼梦》前80回与后40回分别由两位作者撰写的结论. 【参考文献】 [1]李贤平.《红楼梦》成书新说[J].复旦大学学报社科版,1987(5):3-16. [2]韦博成.红楼梦前80回与后40回某些文风差异的统计分析[J].应用概率统计,2009(4):441-448. [3]吴军.数学之美:第2版[M].北京:人民邮电出版社,2014. [4]韦博成.漫谈统计学的应用与发展[J].数理统计与管理,2011(1):85-97.