肖潇 郭进利
摘要:作为汉语文化不可或缺的一部分,成语具有很高的研究价值。运用复杂网络思想,选取第6版《新华成语词典》总共8 013个成语,通过发现成语间的关键联系,利用编辑算法构建互联网空间下复杂网络,并运用Matlab、Origin等软件研究成语网络的连接情况,实证分析研究该成语网络的度分布、聚类系数、平均路径长度、网络小世界特性、香农熵等相关拓扑性质。研究发现,成语节点度越高,聚集系数越大,成语联系关系越紧密,小世界特性越明显。从细节出发研究成语网络相互连接更深层的关系,对未来成语的发展及归纳整理有更加深远的意义。
关键词:复杂网络;互联网;拓扑性质;成语网络
Study on the Topology of the Idiomatic Relationship Network Based on Complex Networks
XIAO Xiao,GUO Jin li
(School of Management, University of Shanghai for Science and Technology, Shanghai 200093,China)
Abstract:As an indispensable part of Chinese culture, idioms have high research value. Using complex network ideas, we select a total of 8 013 idioms in the sixth edition of Xinhua Idioms Dictionary. By discovering the key links among idioms, constructing the complex networks in the Internet space by editing algorithms, and employing Matlab, Origin and other softwares to study the connection situation of idioms, we conduct the empirical analysis of the degree distribution of the idiom network, clustering coefficient, average path length, network small world characteristics, Shannon entropy and other related topological properties. The study found that the higher the degree of idiom node, the larger the aggregation coefficient, the closer the idiom relationship is, which indicates the property of the small world. Focusing on the details, we study the deeper relationship between idiom networks, which has more profound guiding significance for the development and synthesis of idioms in the future.
Key Words:complex networks;Internet;topological properties;idiomatic networks
0 引言
中華汉语言文学博大精深,成语是其重要组成部分。成语一词最早出现在《文心雕龙》,被称为“成辞”;到唐代才开始被称为 “成语”,又称“成言”;两宋人士改称为“全语”,民间文学偶用“成语”一词;元、明、清时“成语”、“全语”并用。“成语”一词的意义也有一个变化发展的过程。成语是经过长期使用、锤炼而形成的固定短语,是比词的含义更丰富而语法功能又相当于词的语言单位,且富有深刻的思想内涵,简短精辟、易记易用,并常常附带感情色彩。成语大都有一定的出处,多由4个字组成,但也有3个字或4个字以上的。成语的来源有5个方面:一是神话传说,如夸父逐日和精卫填海;二是寓言故事,如刻舟求剑和狐假虎威;三是历史故事,如负荆请罪和破釜沉舟;四是文人作品,如老骥伏枥和青出于蓝而胜于蓝;五是外来文化,如功德无量和火中取栗。
近年来复杂网络引起了学者浓厚兴趣,被应用于系统科学、物理学及网络舆情传播研究等多个领域[1 2],从具体的高铁网络[3]、轨道交通网络到抽象的生物链网络、BP神经网络,从现实生活中的人际关系和科学界的科学合作网络到虚拟的万维网络等都被涵盖其中。复杂网络还呈现出不同的特性,比如无标度网络具有网络幂律分布特点,当网络聚集系数比随机网络聚类系数高,并且最短路径比同规模规网络小,则该网络被称为小世界网络[4 5],随着复杂网络理论的不断完善,其与语言学的结合也产生了相当显著的成果。意大利人Cancho[6]是世界首位用复杂网络理论研究英语网络的学者,他在2001年将单词定义为网络节点,将连接定义为单词(节点)同现于一个短句而构成的有意义组合。其研究结果表明,英语单词之间具有很高的搜索效率。2005年,李勇博士课题组[7]建立了第一个汉语词汇网络用于复杂网络理论与应用研究,在该网络中节点是中文词语,节点之间的连接定义为汉字同现,即两个词语之间出现相同汉字则进行连接;2007年刘知远和孙茂松[8]采用复杂网络的方法构建了一个汉语词同现网络,研究了该网络小世界效应和无标度特性;2008年又构建了一个汉语依存句法网络,研究其复杂网络性质。2011年王众托院士等[9 10]探索了超网络相关认知,胡泉等[11]提出基于复杂网络理论的汉语复句关系词搭配网络,启发了运用复杂网络思想搭配成句的思想。李思骞[12]在2016年进行了基于复杂网络抗毁性的信息提取研究,对汉语在复杂网络中的应用进行了更加清晰的刻画;徐德宽[13]于2016年第一次基于复杂网络的视角分析《现代汉语词典》与《国语辞典》,将以往基于感性认识和定性描述研究提升到精确、定量的层次,使元语言研究朝着科学化的方向迈进;吴六三等[14]从熵理论角度出发,提出了网络最短路径熵值和网络最大流熵的网络可靠性判据,众多语言学家和计算机工共同研究了一系列语言网络。综上研究表明:语言也是人类复杂系统中的一种复杂网络,尽管各种语言网络的构造原理和构造方法有差别,但各种语言网络都具有类似的统计特性。通过网络理论与试验分析,发现虽然汉语普遍被认为是较复杂的语言体系,但其形成的复杂网络也和一样,具有小世界特性及无标度特征。近年来,结合复杂网络围绕汉语语言结构、汉字构成等方面展开了一系列重要工作,从多方面对汉语语言进行详细的分析研究,并取得了令人瞩目的成果。
1 网络研究基础
1.1 网络数据来源
本文数据来源于新华成语词典,其中共收录近8 000条数据,词典中成语种类繁多,来源广泛,包含四字成语、多字成语等,但四字成语占多数。
1.2 网络构建方法
本文数据统计规则如下:找出成语网络中连接度较高频率的汉字,作为整个网络的连接枢纽,起到至关重要的作用。通过简单编程对8 013个成语进行分类统计,其中“一”、“不”、“无”等频率较高,分别出现815、685、424次,是整个网络最重要的节点。为便于分析,截取了前50个成语网络图, 如图1所示,用G表示成语网络的连通图,V 1,V 2……V n表示一个成语节点,M 1,M 2……M n表示由成语连接而成的社团, E 1,E 2……E n表示成语节点之间的连边关系,即成语之间的连边关系,指首字相同便可连边,F 1,F 2……F n为社团的连边方式,即社团间有共同字的成语便可连接。具体步骤如下:
步骤1:本文规定当成语首字相同时,将该类成语进行连接并形成社团。例如首字为“一”的成语 V 1,V 2……V m通过相同的“一”字连接并形成聚集团M 1, 同样的首字相同成语连接形成聚集团M 2,M 3……M n。
步骤2:将形成的聚集团进行连接。例如本文成语连接主要分为首字以“一”、“自”、“罪”、“九”字等几个大的成语聚集团,再由于 “自成一家”、“自成一格”、“九死一生”、“九牛一毛”、“罪加一等”、“一心一意”均出现“一”字,因此图1中“自”、“九”、“罪”字为首字的成语社团通过共同的“一”字为桥梁,进一步连接成网络。图1描述的是由首字为“自”、“罪”、“九”三类成语共50个成语形成的连接机制。取50个成语出现的3个孤立点仅是相对于图1而言,它们虽是孤立的,但随着成语节点的增加又会重新连接。运用上述连接方式连接整个网络,网络连通情况如图2所示。除少数孤立节点外,紧密的成语网络连接对研究语句中成语搭配使用有深远意义。
2 数据收集与分析
2.1 首字频率分布
首字频率分布即成语按相同首字进行分类,观察相同首字成语出现频率及各类成语频率分布情况。本文通过互联网收集下载共8 013个成语,运用Matlab编辑算法从成语中挑选出所有高频出现的字,并将成语按照首字进行由低到高的排列,成语中若出现高频字则意味该成语有很高的聚集程度,即频率越高,成语连接度越高,比如含有“一”字的成语出现815次,频率为0.024 664,成语首个字含有“一”字的成语首先聚集,等待其它聚集团的加入,逐渐汇聚为大的网络结构,该连接方式类似于无标度网络特征持续增长并优先连接,可以很好地解释成语之间的关联程度,在语句中更多成语的搭配连用使语句更加精粹。很多成语来源于古代文学,成语网络亦可用于探索了解成语古今变化,以便对未来发展规律进行深层次挖掘。
图3为线性坐标下首字频分布情况,线性坐标下表现为长尾分布,也被称为无标度分布,大量的点聚集在长尾处,进一步证明该部分成语的汇聚程度高,常用性相对较大。图4是双对数坐标下首字频分布情况,该图表现出明显的幂律特征,斜率 r =-0.56,有大量的成语占据了低度位置。通过观察发现,往往成语量较大的成语团也是日常生活中运用频繁的成语。
字频分布图拟合后的幂律函数如式(1)。
2.2 节点重要性
无向社会网络在刻画网络关键点时,常用“中心性”进行刻画[15],最直接的度量是度中心性,即一个节点的度值越大意味着该节点越重要。一个节点度值最大为 N-1,对节点作归一化处理,度值为k i 的节点归一化度中心性定义为:
归一化处理:
比如网络中成语“九牛一毛”的邻居节点共1 124个,所有节点度的总和为2 212 506,所以该成语的 P(ki)=0.000 5,其度值反映了與网络中某一个成语直接相接的成语节点数量,关键节点k值越大说明该成语节点连通度越高,在实际语言环境中空间上具有较好的联系。图5表示8 013个成语节点的度分布情况,横坐标k表示两个网络总度,纵坐标C表示两个网络聚合系数。分析结果显示,成语网络总度分布拟合后系数r≈-0.82,大致遵循幂律分布,成语网络度分布拟合曲线呈明显下降趋势,表明该网络中不仅存在很多度虽小但聚合系数较高的节点,也存在很多度很高而聚合系数较低的节点,说明整个成语词典连接紧密,网络结构不容易破坏。
2.3 度分布
度分布指设节点度为k的节点(1,2,3……n)有m k个,度总数为N个,度为k的概率分布为Q(k),则:
复杂网络中度的分布刻画了该复杂网络成语节点的 “无标度”现象,利用式(4)可计算“成语网络”中8 013个节点度分布概率,该概率值进一步刻画了图2是一种典型的“无标度成语网络”。表2给出了图2部分复句关系词节点的度分布数据及其度分布概率值,图6为部分节点的概率分布情况。图中显示少量的点高度汇聚,大量的点分布均匀,可理解为该网络中节点度高的节点相互连接。
3 成语网络基本拓扑性质
3.1 聚集系数
定义1 聚集系数设复杂网络中任意一个节点i的度为k i,即该节点有k i个邻居节点相连。如果节点i的k i个邻居节点之间两两互为邻居,在k i个节点之间最多可能有(K i(k i-1))/2条边。则该节点i的聚集系数c i被定义为k i个节点之间实际存在的边数E i与总体可能存在的边数(K i(k i-1))/2 之比,即:
显然,c i=[0,1],设整个网络节点数为n,则整个网络聚集系数C为所有节点聚集系数c i(其中i=1,2,3……n)的平均值[9],即:
式(6)中0≤c≤1,当且仅当网络中所有节点均为孤立节点时,c=0,此时整个网络没有任何连接边;当且仅当整个网络任何两个节点都直接相连,则c=1,此时网络称为“全局耦合网络”[16]。在成语关系网络中,可利用聚集系数度量一个成语节点与之相连接的任意一个成语之间可能产生的连接关系和搭配关系。该成语网络的平均聚类系数为0.793,说明成语连接网络聚集程度很高,有利于使文章主旨表达更加清晰、明了。
3.2 平均度
平均度网络中所有节点的度平均值被称为网络平均度,记为<k>[17]。
在现代汉语复句关系词搭配网络中,平均度<k>值反映复句关系词之间的平均搭配能力。由式(8)得到8 013个成语节点的平均度<k> =276.11,说明8 013个成语词的总体链接能力非常强。从图2中可观察到1 000个连接成语的聚集程度非常高。平均度不仅与搭配能力有关,近年来有学者提出了一个平均度随网络大小线性增长,而其它网络特征量保持不变或变化很小的网络,并研究了平均度对其同步能力的影响。研究发现,当网络增大时,该网络平均距离基本保持不变,平均度线性增大,且对于同步稳定区域无界的动力学系统,网络同步能力线性提高;而对于同步稳定区域有界的动力学系统,网络同步能力基本保持不变[18 19]。
3.3 平均路径长度
平均路径长度:复杂网络中,两个节点i和j之间的距离d ij,定义为该两个节点之间最短路径的边数;网络中任意两个节点之间的距离最大值叫作网络直径,记作D,即:
实际上, D 为网络中任意两个节点的最短路径长度。网络平均路径长度[20]定义为任意两个节点之间的平均值,即:
其中, n 为整个网络节点数目,即整个网络所含顶点数。平均最短路径可以反映整个网络信息传递效率。最短路径越小,说明任意两点之间距离越短,信息传递越快,反之,则说明路程较长,信息传递较慢。因此,最短路径较小的网络往往具有较高的搜索效率。网络中的平均路径长度与平均聚类系数关系密切,通过将孤立节点剔除,计算网络平均路径长度为3.48,即大概3个成语间就会有一次连接,说明成语间关系传递相当迅速。
3.4 小世界效应
小世界效应[21]又被称为六度空间理论或六度分割理论。小世界效应指出,社交网络中的任何一个成员和任何一个陌生人之间间隔的人不会超过6个。
通常使用两个特征衡量网络: 特征路径长度和聚合系数。对于规则网络,任意两个点(个体)之间的特征路径长度大(通过多少个体联系在一起),但聚合系数高(成语网络中成语和邻居的邻居是邻居的几率较大)。对于随机网络,任意两个点之间的特征路径长度小,但聚合系数低。而在小世界网络,点之间特征路径长度小,接近随机网络,而聚合系数依旧相当高,接近规则网络。根据定量分析可知,如果网络平均聚类系数远大于随机网络聚类系数,且平均路径长度约等于随机网络平均路径长度,则称该成语网络具有小世界特性。即:
其中成语网络平均聚类系数为0.79, C r =0.034,c远大于C r ,d r =3.06约等于d ,数据表明成语关系网络具备小世界的特性,说明该成语网络呈高度聚集,一旦移动社区中少量的成语便会造成整个成语网络拓扑性质改变。
复杂网络的小世界特性与网络信息传播有密切联系。实际的社会、生态等网络都是小世界网络,信息传递速度快,并且少量改变几个连接可引起网络性能剧变,如对已存在的网络进行调整,如蜂窝电话网,改动几条线路即可显著提高性能。
3.5 香农熵
一条信息的信息量大小與其不确定性有直接关系[22]。信息量的度量等于不确定性的多少,即不确定性越多则需要查阅的资料越多。“熵”的表达形式为:
复杂网络对于汉语类问题的研究有很大帮助,同样字节数量的书,包含的信息量可以相差巨大,就本文研究对象新华成语词典而言,共约12 000个汉字,信息量较大,即理解该词典难易程度相差很大。由式(11)计算出香农熵为7.707 9,有较高的香农熵说明成语网络每一个成语都具有信息价值,没有冗余。这与“汉语是最简洁的语言,成语又是汉字的进一步提炼”的普遍认识一致。
4 结语
本文从复杂网络的视角通过对8 013个节点成语进行研究,分析了字频概率分布、累积度分布、度分布、度概率分布,以及基本拓扑性质如聚集系数、平均度、平均路径长度、小世界效应、香农熵等。通过对成语网络的分析发现无标度网络特性,即成语网络的度分布及累计度分布均服从幂律分布。具备小世界特性的网络具有很高的聚集程度,成语间连接紧密,每个成语都有很强的搭配能力,信息无冗余。
成语网络的小世界特性说明汉语和英语一样,具有较高的信息查找率,成语网络的无标度性为成语提供了更便捷的应用平台,在大数据时代能促进成语信息的使用。
参考文献:
[1] NEWMAN M E J. The structure and function of complex networks. [J]. Siam Review, 2003,45(2):167 256.
[2] 平亮,宗利永.基于社会网络中心性分析的微博信息传播研究—以Sina微博为例[J].图书情报知识,2010(6):92 97.
[3] 刘果.叶堃晖.基于复杂网络的我国高铁演化特征研究[J].交通运输研究,2017,7(21)6 13.
[4] 张永,和凯.一种基于节点影响力的信息传播概率算法[J/OL].計算机工程与应用,2018(10):126 134张永,和凯. 一种基于节点影响力的信息传播概率算法[J/OL]. 计算机工程与应用:126 134.2017 09-14.http:∥cea.ceaj.org/CN/article/searchArticle.do#..
[5] 刘知远,孙茂松.汉语词同现网络的小世界效应和无标度特性[J].中文信息学报,2007,21(6):52 58.
[6] CANCHO R F I ,SOLR V . The small world of human language [J]. Proc Biol Sci, 2001,268(1482):2261 2265.
[7] LI Y, WEI L ,NIU Y,et al. Structural organization and scale free properties in Chinese phrase networks [J]. Chinese Science Bulletin,2005,50(13):1304 1308.
[8] 刘知远,郑亚斌,孙茂松.汉语依存句法网络的复杂网络性质[J].复杂系统与复杂性科学,2008,5(2):37 45.
[9] 王众托.关于超网络的一点思考[J].上海理工大学学报,2011,33(3):229 237.
[10] 索琪,郭进利,王福红.电视节目竞争关系的超网络分析[J].复杂系统与复杂性科学,2016,13(3):33 39.
[11] 胡泉,谢芳,李源,等.基于复杂网络理论的汉语复句关系词搭配网的统计特征研究[J].中文信息学报,2016,30(4):56 64.
[12] 李思骞.基于复杂网络抗毁性的信息提取研究[D].邯郸:河北工程大学,2016.
[13] 徐德宽,何保荣,邱立坤.基于复杂网络视角的《现代汉语词典》与《国语辞典》常用动词释义元语言研究[J].外国语文研究,2016,2(2):2 13.
[14] 吴六三,谭清美.基于网络熵的应急物流网络稳定性研究[J].当代财经,2012(7):60 68.
[15] 王小帆,李翔,陈关荣.网络科学导论[M].北京:高等教育出版社,2012.
[16] ZHANG R X,LI D Y,ZHEN J. Dynamic analysis of a delayed model for vector borne diseases on bipartite networks[J] . Applied Mathematics and Computation, 2015,263(C):342 352.
[17] ERDOS P,RENYI A.On the evolution of random graphs[J]. Transactions of the American Mathematical Soc, 2011,286(1):257 274.
[18] ZHAO M, ZHOU T, WANG B H,et al. Better synchronizability predicted by a new coupling method[J] . The European Physical Journal,2006,53(3):375 379.
[19] 王丹,郝彬彬.一类高聚类系数的加权无标度网络及其同步能力分析[J].物理学报,2013,62(22):73 80.
[20] 刘业政,周云龙.无尺度网络平均路径长度的估计[J].系统工程理论与实践,2014,34(6):1566 1571
[21] DAI H,GAO S,YANG Y,et al. Letters: effects of“rich gets richer”rule on small world networks[J]. Neurocomputing, 2010,73 (10 12) :2286 2289.
[22] 李爱国,汪保男.一种非线性新相关信息熵定义及其性质、应用[J].信息与控制,2011,40(3):401 407,412.