赵凤花,杨 波
(1.武汉理工大学 图书馆,湖北 武汉430070;2.武汉理工大学 自动化学院,湖北 武汉430070)
从20 世纪末开始,复杂网络研究渗透到了数理学科、生命学科、工程学科、情报学科、军事和工业应用等众多不同领域。对复杂网络特性的科学理解,已经成为网络时代科学研究中的一个极为重要的课题。
对文献相关信息构成的复杂网络的研究很早就有报道。早在1965 年,PRICE 指出引文复杂网络的入度和出度都服从幂律分布[1]。1998 年,RENDNER 指出学者发表论文的被引用次数服从幂律分布[2]。NEWMAN 等在研究复杂网络社团结构划分算法时,提出用GN 算法研究科研合作网络[3]。文献[4 -5]采用社会网络分析方法对论文作者合作关系进行了研究。2004 年,NEWMAN 又分别对生物、物理、数学3 个领域的科研合作网络进行了研究[6],希望用这种方法研究有关科研合作模式的一系列问题。KAJIKAWA 等用FN 算法对引文网络进行聚类分析[7],研究能源领域的整体框架,追踪可再生能源领域的新兴技术。ZHU 等应用介数指标来探讨关键词同现网络所揭示的学科领域的研究热点问题[8]。
上述研究主要集中在科研合作者网络或者关键词共现网络的基本特性及特征指标上,未对这些网络节点的重要性进行深入研究。为此,通过复杂网络的特性指标,探讨关键词共现网络中重要节点的判断方法,并与词频统计方法进行比较,探讨其中异同。
常用的描述复杂网络节点特性指标有度、介数和接近中心性等,但是根据单一的指标评估节点在网络中的重要程度有很大的片面性。如度强调节点与邻居节点连边的数量,但是具有相同度的节点,在网络中的重要程度并不一定相同;介数基于最短路径定义,但在很多网络中,信息并非总是沿着最短路径流动;节点接近中心性依赖于网络的拓扑结构等。上述特性指标分别从不同的方面评估节点在复杂网络中的重要程度,均存在片面性。笔者提出了一种多属性决策综合评价方法,利用度中心性、介数中心性和接近中心性指标进行综合计算,并与词频统计及单指标方法进行了对比分析。
复杂网络以图论理论为基础,一个具体网络可以抽象为一个由点集合V和边集E组成的图G=(V,E)。节点数记为N= |V|,边数记为M= |E|。E中每条边都有V中一对点与之相对应。如果任意点对(i,j)与(j,i)对应同一条边,则该网络称为无向网络,否则称为有向网络。
定义1 度中心性。复杂网络的度是单独节点属性中简单而又重要的概念。节点i的度ki定义为与该节点连接的其他节点的数目。度的中心性定义为节点i的度与该节点可能存在的最大边数的比率。度中心性可由式(1)计算:
式中,N为复杂网络中节点的数量。度的中心性表示复杂网络中节点的局域连通性,数值越大,表示该节点在网络中越重要。
定义2 介数中心性。节点i的介数定义为网络中节点对j与k之间最短路径经过节点i的条数占所有最短路径数的比例。若gjk(i)表示节点对j与k之间经过节点i的条数,njk表示节点对j与k之间存在的所有最短路径的条数,则介数中心性可表示为:
式中,N为节点数量,将介数归一化,确保介数中心性的值bc(i)∈[0,1 ],介数中心性的值越大,表示该节点在网络中的影响力越大。
定义3 接近中心性。节点i的接近中心性定义为其到网络中其他所有节点距离之和的倒数。实际情况中,关键词同现网络并不都是完全连通的网络,很多文献选取完全连通的子网络进行研究,间接地舍去了很多节点,造成数据的不完整。因此将接近中心性用式(3)表示,同样适合不连通复杂网络的情形,其表达式为:
式中:N为节点数量;dij表示以节点i为起点,以j为终点的最短路径中所含边的数量。节点的中心性越大,表示节点越居于复杂网络的中心位置。
上述所定义的几个指标是评价网络节点重要性的常用指标,采用不同指标对同一网络进行分析时,尽管结果有所不同,但也不是完全独立的,它们之间会有关联性。为此,综合这几个评价指标,建立一个关键词同现网络的多属性评价指标体系,用于探讨某一学科领域的研究热点问题。
假设复杂网络中有N个节点,用集合P={P1,P2,…,PN}表示,每个节点特性指标有M个,用集合Q={Q1,Q2,…,QM}来表示,则第i个节点的第j个指标可用Pi(Qj)(i=1,2,…,N,j=1,2,…,M)来表示,则节点的多属性(指标)矩阵可表示为:
节点重要性指标较多,且指标量纲有所不同,为了便于比较、计算,将矩阵X进行归一化处理。因所选指标(度中心性、介数中心性、接近中心性)均为效益型指标(即值越大表示该节点越重要),因此对矩阵X可按式(5)作归一化处理:
其中:Pi(Qj)max=max{Pi(Qj)|i=1,2,…,N};Pi(Qj)min=min{Pi(Qj)|i=1,2,…,N}。归一化的矩阵可记为R=(rij)N×M。
通常根据一致性经验为节点重要性多属性评价模型的各个指标赋予权重,对此无经验可依时,多采用平均法加权规范化矩阵,即:
采用理想方案对每个节点的重要性进行评估,计算公式如下:
其中,与可通过欧式范数计算得到:
经过上述处理,将节点重要性进行数值化与归一化。因此Ki值越大,表示节点在网络中的重要程度越高。
以SCIE 收录的某校材料学科领域相关文献为研究对象,将2011 年收录的110 篇文献的关键词进行处理,合并同位词、上位词、下位词,舍弃一些无意义的关键词,共整理出关键词309 个。将关键词作为网络的节点,在同一篇文献中出现的关键词用边连接,构建关键词同现复杂网络。
将整理后的每个关键词看作一个节点,进行编号,其出现的频次构成列向量,并进行归一化处理,使其值处于[0,1]之间。将每个关键词对应的列向量的值定义为该关键词的词频中心性。
(1)选取Matlab 作为计算工具,计算关键词词频中心性的列向量。
(2)根据式(1)~式(3)分别计算度中心性、介数中心性和接近中心性,并按式(5)进行归一化处理。
(3)按照式(4)~式(7)对节点的特性指标的度中心性、介数中心性、接近中心性进行加权计算,得到节点重要性的综合性评价指标Ki。
绘制介数中心性、接近中心性、词频中心性、度中心性及复杂网络的综合性评价指标Ki的分布图,如图1 ~图5 所示。
图1 节点介数中心性指标分布图
图2 节点接近中心性指标分布图
图3 节点度中心性指标分布图
图4 节点词频中心性指标分布图
图5 节点综合性评价指标分布图
由图1 ~图5 可以看出,这些指标分布图的分布存在较大相关性,然而细节复杂微妙。为了能够深入分析细微区别,将每个指标确定的前5%的节点列出,进行对比分析,如表1 所示。
表1 不同方法获取的重要关键词前5%编号
由于是对文献群关键词重要性进行探讨,因此表1 仅给出关键词序列的序号,比较几种方法的异同。词频统计方法主要关注关键词出现的频次,关键词同现复杂网络中的各个指标更在乎各节点之间的关系。其中介数中心性和接近中心性都通过最短路径来定义,表1 中两种方法获取的前15 个关键词有5 个相同,由此也验证了两个指标的相关性。
通过词频统计获得的15 个重要关键词与介数中心性法有6 个相同,与接近中心性法有4 个相同,与度中心性法仅有1 个相同。由此可以看出,介数中心性和接近中心性与词频密切相关,而度中心性更加强调节点之间的关系。
关键词同现复杂网络多属性决策的节点重要性综合评价方法,将度中心性、接近中心性、介数中心性综合考虑,通过调整修正各指标权重,得到最优结果。
采用节点多特性指标综合评价方法来评估关键词同现复杂网络中的节点重要性,打破了传统的单一指标的局限性和片面性的束缚,并与词频统计及单指标方法进行比较分析,探讨其相互关系。该方法简单、有效,可以用于揭示某一团体、某一时间段的研究热点问题及趋势。
[1] PRICE D J S. Networks of scientific papers[J]. Science,1965,3683(149):510 -515.
[2] RENDNER. A general theory of bibliometric and other cumulative advantage processes[J]. Journal of the American Society for Information Science,1998,27(5 -6):292 -306.
[3] NEWMAN M E J,GIRVAN M.Finding and evaluating community structure in networks[J]. Physical Review E,2004,69(2):1 -15.
[4] OTTE E,ROUSSEAU R. Social network analysis:a powerful strategy,also for the information sciences[J].Journal of Information Science,2002,28 (6):441-453.
[5] KRETSCHMER H. Author productivity and geodesic distance in bibliographic co-authorship networks,and visibility on the Web[J]. Scientometrics,2004,60(3):409 -420.
[6] NEWMAN M E J.Co-authorship networks and patterns of scientific collaboration[J]. Proceedings of the National Academy of Sciences of the United States of America,2004(101):5200 -5205.
[7] KAJIKAWA Y,YOSHIKAWA J,TAKEDA Y,et al.Tracking emerging technologies in energy research:toward a roadmap for sustainable energy[J]. Technological Forecasting and Social Change,2008,75(6):771-782.
[8] ZHU D H,WANG D B,HASSAN S U. Small -world phenomenon of keywords network based on complex network[J].Scientometrics,2013(97):435 -442.