基于社会网络的合著网影响力研究

2018-07-03 03:21刘云霞
关键词:网络分析网络图影响力

刘云霞

(安徽理工学校电子信息工程教学部,安徽安庆246001)

随着网络的普及,人们通过朋友、兴趣爱好、行为等建立起的社会行为者与其关系的集合,称之为社会网络。其中,合著网络(Co-author network)是科研工作者通过合作交流、共享知识、共同发表学术论文而形成的关系网络,反映了论文作者之间的联系。对合著网的研究能更好地对合著关系进行分析,加强科研工作者之间的交流合作,成为目前相关研究的热点。本文利用聚类分析[1]的思想,将埃尔德什的合著者们分成3类,选择出合作次数较大的分类,根据统计的合著者网络节点信息构建出合著者网络影响力模型。

1 社会网络分析方法和分析工具

社会网络分析(SNA)是对社会关系结构及其属性加以分析的一套规范和方法,主要研究社会实体不同社会单位所构成关系的结构及其属性[2]。作为一种社会学研究方法,社会网络分析探索网络结构和特性,应用性很强。矩阵法、代数法和图论法等是社会网络分析常用的方法。矩阵法是把具体某个社会网络中的所有节点分别排成行和列,如果某两个节点间存在关系,就在其对应的行和列的交叉位置加上权重。图论法是将整个社会网络的角色以及这些角色之间的关系用图的形式表示,节点和连线是图论法中最基本的元素,其中节点表示角色,连线表示角色之间的关系。虽然矩阵法没有图论法直观,但是它更适合于大型以及超大型的网络。本文在建立511人的合著网络时采用的是矩阵法,而聚类后的小型合著网络则用的是图论法。分析软件则选用Gephi和Netdraw。

2 合著网影响力研究

2.1 问题分析及数据预处理

根据埃尔德什的合著者们合作的次数、年份以及与这些合著者合作的作者情况,先构建一个不包括埃尔德什本人的合著者网络,即筛选出埃数为1的合著者构成合著者网络的所有节点。为了简化模型,首先利用聚类思想选择出合作次数较多的一类合著者,并建立起他们的合著者网络,然后采用Floyd算法[3]分析网络的影响力,最后用社会网络分析软件Gephi分析合著者网络性质。

为了建立一个有511个节点的合著者网络,首先要收集数据,建立511个合著者的合作矩阵,将埃尔德什所有的合著者设为511个互相独立且互不相同的节点,使用Matble软件输出511×511的关系矩阵。将文件信息提取成如(1)式所示的矩阵形式:

其中,G代表合著者的邻接矩阵,邻接矩阵是用一个一维数组存放图中所有顶点数据,用一个二维数组存放顶点间关系的数据,此二维数组即为邻接矩阵,可分为有向图邻接矩阵和无向图邻接矩阵,在这里称之为合作矩阵。vn代表节点,表示按字母A~Z排序后第n个合著者,(vm,vn)表示vm和vn之间有无联系,1代表有联系,0代表无联系。接着利用所提取出的矩阵,结合NetDraw软件[4]画出511个人的网络图。

合著网络密度反映了所有合著者之间的合作关系,通过计算上述网络的整体网络密度为0.014 0,表明该网络是一个稀疏网络,合作关系不是很密切。由于做出的图规模过大,结点过于密集,不易于查看,所以为了控制网络图的规模,采取如下方法筛选部分数据。考虑到可能存在某些合著者的合作次数为0,或是很少,所以这里采取基于划分的聚类方法精简网络。

通过聚类分析方法将埃尔德什的511名合著者中合作次数分成3类,如表1所示。

表1 合著者合作类别与合作次数

由表1可知,类别3的合著者之间平均合作次数较少,因此,把类别3中的节点从网络图中删去,重新得到类别1和类别2,共计129个合著者的合作矩阵。接下来利用重新得到的合作矩阵构造合著者网络图。

2.2 构造合著者网络

合著者网络图中节点代表合著者,连边代表合著者之间有联系,合著者网络图是一个无权无向图,NetDraw正是一种可以利用节点的邻接矩阵作为输入、画出节点的无权无向图的绘图工具。以(1)式中的合作矩阵作为输入矩阵,画出129个合著者的合著者网络图如图1所示。

图1 129个合著者的合著者网络图

从图1可看出,尽管人数缩减到129人,但是该合著者网络图还是难以分析。因此要控制网络图的规模,将合作次数最多的类别1中的36个合著者抽取出来,先构造出36个合著者的合作矩阵,再利用新的合作矩阵画出36个合著者的合著网络图如图2所示。

图2 36个合著者的合著网络图

2.3 合著网络影响力测量

虽然之前通过聚类缩小了网络的规模,简单可行,但是不能定量地分析网络的影响力。接下来利用Floyd最短路径算法[3]测量合著者网络的影响力。具体做法:用Floyd算法算出最小路径矩阵,将每个人对与其本人除外的所有路径求和为S,若S越小,则表示该人与此网络关系越亲密,其在网络中影响力也越大;若S越大,则表示此人与网络的关系越疏远,甚至与本网络无关。通过Matlab编程计算出合著者网络中节点的路径矩阵,计算出前10个合著者和相应的最短路径距离如表2所示。

表2 前10位合著者之间的最短路径距离

通过聚类缩小的网络为整个合著者网络的核心,在合著者网络中具有绝对的影响力。本文所提取的核心矩阵为强连通图,利用Gephi计算出合著者网络密度、网络聚类系数和网络的平均路径长度。通过计算得出合著者网络密度为0.346,说明其网络间的各点间联系较紧密。按照图形理论,聚类系数(CC)是一个图形中节点聚集程度的系数,在无向网络中,聚类系数定义:

其中,n表示在节点v的所有k个邻居间的边数,计算得出其值为0.759,具有较高的节点聚集程度,说明合著者网络之间相关性比较强。接下来计算网络的平均路径长度:

其中N为网络节点的数目,得出网络的平均路径长度为1.417,说明网络中所有节点之间的平均最短距离比较短。综上所述,说明提取的网络在合著者网络中具有重要影响地位。这10位合著者与网络其他合著者的距离之和最小,表明与网络的其他成员的亲密程度高,其在网络中占据核心地位,影响力也大。

3 合著网最大影响力研究

3.1 问题分析

通过Floyd最短路径算法测量出聚类后网络的影响度,但由于Floyd算法实现的是无向无权图,故此模型忽略了合作次数这一重要指标,并且没有考虑时间的跨度和合著者合著之后去世的情况。因此,在Floyd算法求解结果的基础上对传统的PageRank算法进行改进,考虑到某位合著者在合著之后去世,在PR值中引入一个概率因子d,以表示合著者继续合著的可能性,以提高算法的收敛性,计算每个节点的PR值,并利用复杂网络分析软件Gephi分析筛选后的合作者网络性能和节点的影响度。

3.2 构造删选后的网络

将前面计算出的合作次数较多和最短路径最短的10位合作者提取出来,通过Gephi绘制其无向网络图,如图3所示。

图3 合著网络图

由图3可以看出,Gephi将上述人物分成两大类网络,其中由CHEN GUANTAO,CHEN HANG,CHEN ROBERT W,FUREDI ZOLTAN 构建的小网络与主体网络不存在直接联系,因此,将小网络去除,直接分析主体网络的节点影响力,这在一定程度上减少了大规模网络计算。

利用PageRank算法[5],通过计算网络节点的PR值来测量网络节点的影响度。当一个节点与其他许多节点都相连时,其重要性越高,PR值也就越高;同时当该节点影响力度很大时,它与其他节点相联系时,其联系的权重也就越大,这正好验证了社会网络中的马太效应。设pi为某一节点为pi的链接数目为pj链接到该节点的链接数,d为阻尼系数,表示该节点(人)连接即合作完之后依然能与其他人继续合作的概率为1-d,而该节点(人)不幸去世的概率为d,则该节点不再参与合作。PR值计算如下:

每个节点的PR值分布如图4所示。

图4 PageRank分布图

对比上述数据,得出这些合作者网络中最具影响力的前5个人,从大到小依次为ALON NOGA M、FUREDI ZOLTAN、BOLLOBAS BELA、CHEN CHUAN CHONG、RODL VOJTECH。通过考察网络中节点之间联系的强度,分析合著者网络,使用Floyd最短路径算法选出合著者,通过时间跨度因子修正后的PageRank算法,最终计算出合著者网络中影响力最大的为ALON NOGA M,其次为FUREDI ZOLTAN等。

4 总结

本文建立了合著网络模型和基于节点以及关系矩阵求解节点影响力的合著网络影响力模型;运用PageRank算法求解出合著网络中最具影响力的前5个人。这些模型的基本思想都是基于模型中个体对整个网络的影响度的分析。本文的不足之处在于,首先,在利用PageRank算法计算节点影响力时,忽略了精简网络时对节点影响力计算的影响;其次,没有将文中计算节点影响力的方法和其他方法进行对比,可能不同的方法计算出来的节点影响力会有区别。所以在以后的研究和学习过程中,将进行深度学习,完善模型,使其实用性更强。

[1]杨浩.基于SPSS的聚类分析在行业统计数据中的应用[D].长春:吉林大学,2013.

[2]丁善敏.社会网络分析法在合著网络中的应用-以天津师范大学化学学院为例[D].天津:天津师范大学,2012.

[3]严晓凤,陆济湘,唐双平.基于Floyd算法的校园最短路径问题分析与实现[J].武汉理工大学学报(信息与管理工程版),2012,34(6):695-698,703.

[4]王运锋,夏德宏,颜尧妹.社会网络分析与可视化工具Net-Draw的应用案例分析[J].现代教育技术,2008,18(4):85-89.

[5]黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146,162.

猜你喜欢
网络分析网络图影响力
基于交通运输业的股票因果网络分析
基于ISM模型的EPC项目风险网络分析
低轨卫星互联网融合5G信息网络分析与应用
网络图计算机算法显示与控制算法理论研究
认知重评和表达抑制情绪调节策略的脑网络分析:来自EEG和ERP的证据*
网络图在汽修业中应用
天才影响力
黄艳:最深远的影响力
3.15消协三十年十大影响力事件
叙事文的写作方法