《水浒传》人物关系网络的文本挖掘

2018-04-03 10:27唐毅王硕胡桓
社科纵横 2018年4期
关键词:幂律宋江水浒传

唐毅王硕胡桓

(辽宁大学生命科学院 辽宁 沈阳 110036)

《水浒传》是我国古典小说的杰出代表。关于《水浒传》的研究主要集中在作者、版本、成书时代的考据学研究[1][2],典型人物分析[3][4][5],《水浒传》翻译尤其是英译问题研究[6],《水浒传》思想内涵和艺术成就赏析[7],《水浒传》词汇语义、结构与功能研究等方面[8]。

人物分析是理解《水浒传》主题思想、剖析作品内涵的重要方面。目前水浒传人物分析研究中存在以下问题:人物分析集中在少数特定人物,尚有大量未得到分析的人物;侧重对单个人物进行分析,人物间联系较少涉及;人物分析主要以定性分析为主,定量分析较少。以上问题的解决有赖于将人物分析发展到人物关系分析的尺度。人物关系分析是通过人物间是否存在联系,联系强弱程度如何来构建人物关系网络,进而揭示人物相互关系。

人物信息是理解人物关系的关键信息。人工通读全文的方式固然可以获得该信息,但存在速度慢、错误率高等问题,因此人工获取信息方式并不是解决该问题的最佳策略。数据挖掘技术对文本型数据的处理发展迅速。文本数据挖掘技术可从文本中高效率地提取所需信息。对水浒传文本而言,人物信息可利用文本数据挖掘技术实现迅速提取。

将人物看作点,将人物关系看作线,人物关系网络则是由点与线构成的网络。这一网络的定量分析可借助社会网络分析方法实现。社会网络分析已建立起一套诸如节点、边、中心度等描述网络结构的工具。该方法在区域经济、文献计量学等领域已有应用[9][10]。人物关系的网络与其他网络在结构上并无本质差别,社会网络分析方法亦可用于文学作品的分析。

数据挖掘技术与社会网络分析方法的结合为《水浒传》人物关系分析研究带来契机。本研究以《水浒传》中梁山108将为研究对象,建立人物关系网络,分析108个人物之间的相互关系,以期对《水浒传》有新的理解和认识。作者希望本研究能为《水浒传》的研究开辟新视角,也将促进数据挖掘技术与文学研究的融合,增进对大数据时代开展文学研究的理解。

一、《水浒传》人物关系网络构建与计算

(一)《水浒传》文本信息提取

(二)人物关系矩阵建立

通过以上处理得到人物关系矩阵。该矩阵为108行、108列。以108个人物名称作为矩阵的行名和列名,108个人物中任意2人共同出现的频次作为矩阵的元素(共5778个数据),形成人物关系矩阵。

(三)《水浒传》人物关系网络结构分析

本研究中仅分析人物的相对重要程度和人物间的关系。人物相对重要程度用点度中心度来表示。点度中心度是衡量节点与其他节点联系强度的指标,此处为人物共现的频数。人物间的关系通过凝聚子群来表示,用以分析人物关系网络中的子群[12][13]。以上分析在Gephi软件完成。Gephi软件是基于JVM的复杂网络分析软件,用于网络和复杂系统的数据分析与交互可视化。

(四)幂律分布特征分析

为验证人物关系网络是否具有幂律分布特征,我们以108个人物的中心度数值与中心度数值大小位次的自然对数分别作为因变量和自变量,采用最小二乘法进行线性回归。该部分内容利用R语言完成。

二、《水浒传》人物关系的网络结构分析

(一)网络结构特征

108个人物的平均中心度为648,其中宋江的中心度最高,为2774,侯健的中心度最低,为305。108将的中心度前10位分别是:宋江、李逵、花荣、吴用、秦明、戴宗、武松、林冲、卢俊义、朱仝。中心度高意味着在人物网络中占据重要地位。从以上结果可以看出,宋江是108将中最重要的人物,这与阅读《水浒传》的普遍印象一致。但在水浒传的座次排名中,卢俊义列第二位,但重要程度仅为第九位。另外,公孙胜担任掌管机密军师,与吴用地位相当,但重要程度未进入前十位。朱武居七十二地煞星之首,担任军务统领,但其重要程度也未进前十位。

(二)存在5个次级网络

根据凝聚子群分析结果,108个人物构成的人物关系网络,由5个次级网络组成。次级网络A共有33人,约占总人数的30.56%。这个次级网络中包括人物关系网络中重要程度前十位人物中的九位。次级网络A,囊括了108将中的名义领导宋江、卢俊义,机密军师吴用、公孙胜,掌管钱粮统领柴进,马军五虎将关胜、林冲、秦明、呼延灼、董平,马军骠骑兼先锋使花荣、徐宁、索超、杨志、张清,步兵统领李逵、雷横、燕青。值得注意的是与宋江联系较紧密的人物排名前五位的依次是吴用、李逵、卢俊义、戴宗、花荣。他们与宋江共现次数最低为106,而排在第六位的公孙胜与宋江的共现次数为60。宋江与吴用、李逵、卢俊义、戴宗、花荣等人构成的小团体,是次级网络A的核心。

次级网络B共33人,约占总人数的30.56%。该网络的核心人物是武松和鲁智深,他们的中心度在108人排第七位和第十一位。该网络具有几个特点。其一,夫妻档。108将中的三对夫妻,即顾大嫂—孙新,孙二娘—张青,扈三娘—王英在此网络中。其二,具有特殊才能的人物多。如金大坚善刻金石印记,萧让擅长书法,安道全擅长医术,乐和擅长奏乐演唱。其三,非战斗人员多。如掌管帅旗的郁保四,掌管钱粮的李应,掌管定功赏罚的裴宣,负责安排宴席的宋清。

次级网络C共28人,约占总人数的25.93%。该网络中刘唐、郭盛、吕方、史进于较核心的地位。刘唐为步军头领,史进为骠骑兼先锋,郭盛、吕方为守护中军马军骁将。另有朱武为军务头领。

次级网络D共9人,约占总人数的8.33%。该网络中除穆弘外,均为水军头领。由于作战方式和发挥作用的场地与陆军不同,水军头领组成较独立的次级网络。另外,阮小二、阮小五、阮小七为兄弟关系,张横和张顺为兄弟关系,童威和童猛为兄弟关系。

水解大麻籽蛋白富含精氨酸、天冬氨酸等,这在其他水解蛋白质原料中是少见的,可用作护肤品的保湿剂、营养剂和调理剂,也可用作头发调理剂。

次级网络E共5人,约占总人数的4.63%。该网络由杨雄、石秀、时迁、解珍、解宝构成。这个次级网络中杨雄和石秀、解珍和解宝关系更为密切。次级网络E与次级网络A、次级网络C均保持一定联系。次级网络A中,杨雄与宋江联系最紧密,中心度为17,石秀与戴宗联系最紧密,中心度为24;次级网络C中,杨雄与刘唐联系最紧密,中心度为18,石秀与杨林联系最紧密,中心度为18。

表1 人物所属次级网络表

(三)网络结构呈现幂律分布

108个人物的中心度与其位次经对数变换后,可用线性方程拟合,方程为y=-0.3431X+7.6837,R2=0.892。我们认为108个人物组成的人物关系网络符合幂律分布的特点。

图1 中心度-位次双对数图

四、讨论与结论

我们的研究表明,宋江在水浒传人物关系网络中以高达2774的中心度居于人物关系网络的核心,这一结果与人们的普遍印象一致,即宋江是水浒108将的领导核心。另外,李逵、花荣、吴用、秦明、戴宗、武松、林冲、卢俊义、朱仝的中心度居第二到第十位。其中,吴用、李逵、卢俊义、戴宗、花荣与宋江联系最为紧密。这意味着宋江与吴用、李逵、卢俊义、戴宗、花荣构成的小团体是108将的领导层。这一结果以前未见报道。

根据研究结果,水浒人物关系网络可分成5个次级网络,即上文所述次级网络A到E。这5个次级网络在整体网络中的作用和地位不同。次级网络A,囊括了宋江、卢俊义、吴用、公孙胜、柴进等人,以及马军武功最高的五人,以及相当比例的马军统领如花荣、徐宁、索超、杨志和步兵统领,如李逵、雷横、燕青。无论从人数比例还是相对重要性,次级网络A是名符其实的第一集团。

次级网络B中虽有步军统领武松和鲁智深两人,但更多的人物是非战斗人员,如李应、裴宣、宋清。该次级网络应是水浒人物网络中的后勤集团。次级网络C的核心人物刘唐、史进等人的影响力和职位远不能与次级网络A中核心人物相比,其他成员的职位总体稍逊于次级网络A,因此次级网络C属于人物关系网络中的第二集团。值得一提的是,该次级网络中相当一部分人曾跟随晁盖攻打曾头市,如刘唐、白胜、杜迁、宋万。我们猜测这一次级网络的形成可能与派系斗争有关。

次级网络D主要由水军头领组成。在《水浒传》中需要水军参与战斗的场景远少于马军和步军,而且八位头领分属三对亲兄弟。因此该次级网络较为独立,未与其次级网络融合在一起,可称为水军集团。次级网络E由杨雄、石秀、时迁、解珍、解宝组成。其中杨雄、石秀、时迁三人一同加入梁山,彼此联系紧密。解珍与解宝是亲兄弟,关系密切。五人作为整体与第一集团和第二集团的联系基本持平。因此杨雄、石秀、时迁、解珍、解宝组成的次级网络属于第一集团和第二集团的中间派。

108将人物关系网络是由以上5个次级网络构成的。次级网络A是第一集团,次级网络B是后勤集团,次级网络C是第二集团,次级网络D是水军集团,次级网络E是第一集团与第二集团的中间派。

水浒传人物关系网络符合幂律分布的特点。幂律分布表现形式多样,广泛存在于自然界和人类社会[14]。如人类语言单词频率分布,论文被引频次分布,网页被点击次数,森林火灾发生频次,人类通信模式等。社交网络中幂律分布规律已有报道[15],文学作品中的人物关系网络存在幂律分布之前未见报道。水浒传人物关系网络符合幂律分布表明,《水浒传》作者在进行文学创作时,将人类社会中的人际关系,通过艺术加工在作品中体现出来,从一个侧面反映出这部作品具有深厚的现实基础。

综上,宋江、吴用、李逵、卢俊义、戴宗、花荣构成的小团体是108将的领导层;108个人物可以分成第一集团、第二集团、后勤集团、水军集团、介于第一和第二集团的中间派;《水浒传》人物关系网络结构符合幂律分布的特点。

参考文献:

[1]李金松.郭勋“移置阎婆事”考辨——论《水浒传》版本嬗递过程中一处情节的移动[J].中国典籍与文化,2001(2).

[2]李金松.《水浒传》大涤余人序本之刊刻年代辨[J].文献,2001(2).

[3]熊明.鲁智深:理想人格范式的承载——兼从鲁智深形象塑造中的佛教内容考察其在《水浒传》中的特殊地位[J].菏泽学院学报,2007(1).

[4]崔莹.论《水浒传》中的弱女形象[J].水浒争鸣,2006(9).

[5]梁归智.宋江:“忠义变奏”——《水浒传》的双主角和双主题(上)[J].名作欣赏,2014(22).

[6]石子丽.框架理论视角下《水浒传》英译研究[D].辽宁师范大学,2013.

[7]王平.对金批《水浒传》悖反式叙事理论的解读[J].明清小说研究,2010(4).

[8]段文生.《水浒传》律诗研究[D].辽宁大学,2013.

[9]吴金华,张艳秋,唐毅.数据挖掘在生物信息学中的应用——文献计量学视角[J].生物信息学,2016(4).

[10]唐毅.一路一带背景下东北地区交通节点设置研究[J].经济论坛,2017(7).

[11]顾关元.《水浒传》的三种版本[J].中国出版,2003(3).

[12]Ken Cherven.Network Graph Analysis and visualization with Gephi[M].Birmingham:Packt Publishing,2013.

[13]Vincent D.Blondel,Jean-Loup Guillaume,Renaud Lambiotte and Etienne Lefebvre.Fast unfolding of communities in large networks.Journal Statistical mechanics,2008.arXiv:0803.0476v2.

[14]胡海波,王林.幂律分布研究简史[J].物理,2005(34).

[15]雷宏振,贾悦婷.基于复杂网络的在线社交网络特征与传播动力学分析[J].统计与决策,2015(2).

猜你喜欢
幂律宋江水浒传
读《水浒传》,看北宋社会风俗
真正的好汉——读《水浒传》有感
试论《水浒传》的道教思想
四川地区降水幂律指数研究
幂律流底泥的质量输移和流场
《水浒传》(节选)教学案例
幂律谱模型原子钟钟差仿真与噪声类型辨识
宋江为什么不杀情敌张文远
”官迷“宋江
基于Fibonacci法求幂律模式流变参数最优值