范纯龙,王洁琼,范东皖,丁国辉
(沈阳航空航天大学 a.辽宁省大规模分布式系统实验室,b.计算机学院,沈阳 110136)
近几年,复杂网络中的节点预测问题受到学者们的关注,其研究类型大致可以分为两类,一类是对网络中源头节点的定位或追溯,另一类是对网络中隐藏节点的发现。例如,在传染病网络中追踪和定位携带病毒的原始载体节点(源头节点),或者在黑暗组织网络中发现和定位隐藏起来的领导人节点(隐藏节点)等。然而这两类节点预测都存在一定的局限性,其一是网络应用场景的局限,都只在具有某些特征的网络中进行研究,正如例子中的传染病网络和黑暗组织网络;其二是现有节点预测研究大多只考虑节点间相似性,网络的结构以及网络传播代价度量等,从而忽略了节点间关系除了相似性之外同时存在着互斥性,相似性用来描述节点间相互吸引的程度,而新提出的节点间互斥性则是描述节点之间互相排斥的程度,可以更全面地描述节点之间的相互影响关系,该互斥性概念的具体理论及公式定义将在后面给出详细的说明;其三是现有节点预测研究都是在单顶点网络中进行,没有涉及关于二分网络中的节点预测研究,特别是对于未来网络中可能出现的新生节点的预测研究更是罕见。因此,针对目前的节点预测领域,有必要研究在二分网络中的新生节点的预测问题,帮助扩展节点预测研究的应用范围,为各种二分网络节点预测提供更广泛的研究思路。
以网络中节点类型的数量为划分依据,复杂网络可以被分类为单顶点网络和二分网络等形式。二分网络由两种类型的节点以及这两种类型节点之间的连边组成,同种类型的节点之间不存在连边。在现实世界中,有很多网络都表现出自然的二分结构,自然界和社会中的一系列合作网络,都可以表现成由合作主体和合作事务而构成的二分网络,比如作者-论文合作网[1-2]、演员-事件合作网[3]、miRNA与疾病关系网络[4]、观众与歌曲网络[5]以及在P2P系统中计算机终端数据网络[6]等。二分网络具有普遍性,已经成为复杂网络研究的重要对象。近年来,二分网络的研究方法被应用到了众多领域中,学者们也开始关注网络的二分性,并尝试在二分网络中应用链路预测解决一些问题,比如个性化推荐[7],合著关系的研究[8]等,从而揭示出来了一些更深层的网络特性。追根溯源,本文研究的节点预测与链路预测是极为相似的问题,链路预测是预测网络中节点间存在链接的可能性,而节点预测问题虽然是预测网络中未来有可能产生的节点,也可以看作是对网络中现有节点与未来可能产生的节点之间存在链接的可能性预测。从这个方面来看,节点预测问题在某种程度上也可以转化为链路预测问题。而且,利用二分网络有利于研究主体和客体之间的结构特征以及演化的过程,可以帮助我们探索知识创造活动的规律,这也是本文尝试在二分网络上研究节点预测问题的原因之一。
本文在二分网络上对网络中较活跃一侧未来可能会出现的节点进行预测,归根结底,这里对未来可能生成节点的预测也可以认为是预测网络中存在的一种潜在节点,与现有的关于源头节点和隐藏节点的预测工作异曲同工。不同之处在于,本文为现有的节点预测算法提供了新的研究思路。首先,我们发现网络中的节点之间除了可以利用相似性指标来表示两节点间的亲密关系,还有一种影响关系存在于节点之间,那就是后文将提出的节点间互相排斥的关系,我们称之为互斥性。在相似性存在的基础上,互斥性的提出帮助我们从另一个方向描述实际存在于网络中的节点间关系,而且明确对该节点间性质进行了定义,该定义的提出不仅能够帮助我们更全面地了解网络中节点的特性,也为学者们以后更深入全面地研究复杂网络提供了全新的灵感和方向。
本文以论文-关键词二分网络为研究对象,主要研究网络中未来可能出现的新生论文节点预测问题,不仅扩展了现有节点预测的应用场景,也为各种二分网络上进行节点预测研究提供了新思路。本文研究也可以称为新生知识点的发现,我们可以利用现有的知识网络结构等信息预测将来可能会出现的新生知识点或者新的研究方向,不仅能够为学者们的研究提供参考和引导,更有可能推动领域研究的发展,对学术界具有重大的意义。
网络可以自然地描述各种自然和社会结构。在这样的网络中,顶点表示实体,链接表示实体之间的通信或关系。链路预测是网络分析研究中的一个重要领域。网络中的链路预测是指通过已知的网络节点以及网络的结构等信息,预测网络中尚未产生连边的两个节点之间产生链接的可能性。这种预测既包含了对未知链接的预测,也包含了对未来链接的预测[9]。本文研究的节点预测与链路预测有着紧密的联系,链路预测是对网络中可能存在的边的预测,而节点预测主要是通过已知的网络信息来预测未来将会出现的新生节点,而新生节点必然会与现有网络中某些节点存在连边的关系。因此,节点预测在某种程度上也可以转化为链路预测问题,即预测新生节点与现有节点之间存在链接的可能性。
目前,学者们对于节点预测的相关研究主要分为两类:一类是对网络中“源头节点”的预测,另一类是对“隐藏节点”的预测。由于许多真实网络拥有巨大的规模,例如因特网或人类社交图,观察网络中所有节点的状态通常是不可行的。也就是说,利用观察者收集的稀疏的测量值来估计源节点的位置是根本不可能的。PINTO等人[10]在受限观察者的异步模型下研究“源头节点”的定位问题,提出了一种对任意树进行最优定位的策略,实现了正确定位的最大概率,并提出了一个估计器。LOUNI等人[11]提出了基于上述源头节点定位工作的两阶段算法,该算法是一种最大似然源定位算法,特别适用于大型社交网络,只需比其他单级算法少3%的传感器节点,便可以获得相同的检测精度。ZHANG等人[12]同样比较了上述源头节点定位工作中提出的源头定位估计器的采样策略,认为识别高效观察者对于高精度定位源节点至关重要,而且策略的定位精度随着网络连通性的增加而降低。SHEN等人[13]同样研究了异步模型下“源头节点”的定位问题,从数据中发现复杂网络结构和动态的能力是理解和控制复杂系统中集体动态的基础。
对当前已有的节点预测研究进行分析,我们发现现有的源头节点和隐藏节点的定位问题,归根结底都是对网络中不能或者很难直接观察到,但是实际存在的或者潜在的节点进行预测。本文预测将来网络中可能会出现的节点,在某种程度上也可以理解为预测网络中的潜在节点。然而,现有节点预测算法存在一些不足之处,比如,现有算法大多关注节点间的相似性以及网络的传播代价度量,从而忽略了节点间存在彼此排斥的现象,不利于更全面地描述节点间的关系。
另外,这两类节点预测研究的应用场景只适用于具有某些结构特征的网络。源头节点的预测[14-16]主要应用在流行病网络中,用来追踪和定位病毒的原始载体;隐藏节点的预测主要应用在恐怖组织网络中,预测领导者的存在和位置,或者也可以预测流行病网络中的病毒源。更重要的是,已有的关于节点预测工作绝大部分都在单顶点网络中进行,而本文主要是在采集的论文-关键词二分网络数据集上预测未来可能发表的论文,不仅扩展了节点预测的应用场景,也为各种二分网络上进行节点预测提供了更广泛的研究思路。
二分网络由两类节点以及两类节点之间的连边组成,同类节点之间不存在连边。二分网络可以用一个无向简单二部图G=(U,V,E)来表示,这里,U和V分别是G的两部分顶点的集合,E为G中边的集合。对于任意边(u,v)∈E,必有u∈U且v∈V,即只有不同部分之间的顶点才能链接,而在同一部分的顶点之间不存在链接[17-18]。如图1(a)所示是一个二分网络,在该网络中,小写字母顶点为同一类型的顶点,大写字母顶点为另一类型的顶点,同类型的顶点之间没有相连的边。
图1 二分网络加权投影
在实际生活中,我们容易发现许多呈现出二分性的网络具有“动态”的特征,网络结构随着时间的变化并不是一成不变的。例如,随着时间推移合著网络中出现新的合著关系,即合著网络中的节点之间产生新的连边。二分网络的“动态性”不仅仅体现在边的变化上,随时间推移其节点的数量也会变化,如合著网络中新科学家的出现,并且普遍存在单侧较“稳定”的特点,另一侧随时间变化则较明显。
二分网络的研究通常有两种思路:第一种是直接基于原始的二分网络进行分析;第二种是把二分网络投影到单顶点网络,然后再进行网络分析。其中,投影方式可以分为无权投影和加权投影两类[19]。最简单的投影方法涉及将二分网络投影到未加权的网络上,而不考虑网络的拓扑结构或与相对集合元素共享链接的频率。如图1(b)和1(c)分别为图1(a)所示二分网络在两种不同类型节点所在侧的无权投影网络。本文采用最简单的一种加权投影方式,意味着边缘直接按共同关联的重复次数加权,也就是将权重定义为两个同类节点共同链接另一类节点的个数。目前,在二分网络上进行的预测算法研究[20-22]都集中在链路预测,即预测新的“合作”关系,新边的产生。本文尝试在二分网络中研究节点预测的问题,假设较稳定一侧的节点个数在一定时间范围内是不变的,然后根据二分网络的现有信息来预测未来“非稳定”一侧会出现的节点,在“非稳定”一侧的二分网络投影上进行节点的预测研究。
在本文关键词节点一侧的加权投影网络上,我们让信息的每一次传播根据每个节点与相邻节点连边的权值比例进行分配。基于节点信息在二分网络加权投影中以随机游走方式传播,存在着如下基于局部随机游走的链路预测框架。在二分网络中,A表示二分网络加权投影的邻接矩阵,存在节点i和j有连边且权重为w,则元素aij=w,若节点i、j无连边,则aij=0。假设目标节点i的初始信息量为1,其余节点信息量为0,每次迭代信息都以随机游走的方式传播,则t+1次迭代后某一节点拥有的信息量为:
(1)
其中,N表示网络中的节点数量,kj表示节点j的度数。我们将两个节点i和j分别作为源节点,令其初始信息资源量都为1,在经过t步扩散之后,将两个节点间传播的信息资源量,即两个节点从对方得到的信息资源量之和作为两个节点之间的相似性,也就是说,节点i和j的相似度由节点间基于局部随机游走的双向信息传播过程叠加得到。基于局部随机游走的相似性指标LRW可表示为:
(2)
本文对在双向传播过程中所传播的信息量进行取最大值计算,利用其最大值来“统一化”被传播的信息量,这种方法能够降低由于取平均值导致的节点间相似度的偏移,可以在在保证避免偏移的前提下得到其相似强度。因此,基于加权网络的最大值随机游走指标MLRW(maximum local random walk)可表示如下:
(3)
为方便理解,基于一个简单的例子对MLRW指标进行较详细的计算和说明。图2是分别以节点A和节点E为源节点的两步加权的局部随机游走过程,A和E分别为源节点,源节点起始信息量为1,其它节点起始信息量为0。当节点A为源节点时,节点E得到的信息量为SA→E=11/36;当节点E为源节点时,节点A得到的信息量为:SE→A=11/60。其中,SA→E表示从节点A开始经过两步随机游走后传播到节点E的信息量,SE→A表示从节点E开始经过两步随机游走后传播到节点A的信息量。
图2 加权投影网络的两步局部随机游走信息传播过程
我们在研究的过程中发现网络的节点间存在着一种互斥关系。在这里,我们首先需要回顾一下存在于节点间的另外一个性质,也就是关于节点间紧密关系相似性的描述。按照传统链路预测的研究,在利用节点间的相似性来进行链路预测时有一个重要的前提假设,若两个节点的相似性或者相近性越大,那么这两节点之间存在连接的可能性也就越大。描述网络节点间相似性的方法有很多,其中最常用且有效的方法便是利用节点间的属性。这里我们可以举一个简单易于理解的例子:假若存在两个商店,他们的店名、商品、信誉、评价以及所在的地域等都相同,那么可以判定这两个商店很相似。另一类是结构相似性,完全根据网络的结构信息来判断节点间的相似性。例如,对有共同邻居的相似性指标来说,两个节点间的相同邻居越多则越有可能存在公共边。根据上面两种相似性指标的方法,我们可以发现它们都是从节点间所拥有的共同点为出发点来定义相似性,前者是依靠属性间的共同点,后者是依靠结构的共同点。
与节点相似性的着眼点不同,本文从另一个角度来考虑节点之间的关系,主要观察节点之间存在的差异。我们发现了节点间的互斥关系是客观存在的,既然在不同方面拥有共同点的节点间存在着相似性,代表着节点间的亲密程度,那么,当然同样可以认为拥有明显特征差异的节点之间存在着互斥性,并且代表着节点之间的排斥程度。本文提出需要考虑节点间的互斥关系,用于描述关键词间彼此排斥的现象。例如,在论文-关键词二分网络中,关键词节点K1和K2出现的频率都很高,但是从未同时出现在同一篇论文中,这时可以认为关键词K1和K2之间的互斥性很强;相应地,在用户-商品网络中,若商品A和B不仅出现频繁,而且总是同时被购买,那么可以说商品A和B之间存在着很微弱的互斥性。
在两节点最多出现次数中,一部分为同时出现的次数,另一部分是非同时出现次数。本文用两节点未同时出现次数占最多出现次数的比率来初步表示节点间的互斥强度。实际上,仅用这个比率来表示互斥性是不全面的,若所研究的二分网络是稀疏的,在两节点间共同出现次数极小的情况下会导致互斥性接近甚至等于1,显然这是不合理的。因此,考虑引入指数e进行调节,从而避免出现互斥性过大的情况。另外,互斥强度除了此比率之外,还需要考虑两节点最多出现次数在所有节点最多出现次数中的分布情况,这一点将在互斥性公式中有所体现。下面给出节点间互斥关系(Mutual Exclusion,简称为ME)的定义:
(4)
根据公式(4),我们不难发现e指数的引入导致实际实验的数据变化过于平缓,从而可能会导致实验数据不满足实际互斥关系的表现强度。在这种情况下,我们考虑引入调节系数λ来平衡这种不足,下面给出调整之后的公式:
ME=λ×ME′
(5)
其中λ∈(0,1),用于调节由于引入的e指数导致的互斥关系过于平缓的问题,这样就可以弥补公式(4)的不足,从而使实验数据更加符合实际情况。
由于本文实验采用论文-关键词二分网络数据集对未来有可能产生的论文进行预测,我们将以该二分网络为例来描述节点预测算法,下面给出利用节点间互斥性和相似性进行节点预测的实现过程。
(1)根据采集到的论文-关键词二分网络,在关键词节点一侧进行投影,得到只含关键词节点的二分网络加权投影,令节点以随机游走的方式进行信息传播,利用基于局部随机游走的相似性指标得到任意两个关键词的相似性矩阵;
(2)在关键词的加权投影网络中结合原二分网络及其加权投影网络所反映的信息。例如,某两个关键词在所有论文中的最多出现次数及其共同出现在同一篇论文的次数,通过我们前面给出的节点间互斥关系定义计算得两个关键词节点之间的互斥关系矩阵;
(3)在步骤(1)和步骤(2)中得到的相似性和互斥性矩阵中选出满足相似度大于互斥性的二元关键词组合(由于我们的算法取得的相似程度选取的是最大值,所以这里在进行比较时取互斥程度的一半进行比较)去除其中大量共同出现次数和最多出现次数同时为1而导致互斥性等于0的关键词之后,认为余下满足条件的二元关键词组合存在十分紧密的关系,未来有很大可能会同时出现在一篇论文中;
(4)步骤(3)得到的二元关键词组合(Ki,Kj)中的两个关键词节点编号Ki和Kj分别在互斥性矩阵和相似性矩阵存在其对应行,而且分别代表了与其它关键词间的互斥性和相似性。因此,我们根据对应行取几何平均值可以得到二元关键词组合(Ki,Kj)与其它关键词Kx(x 一篇论文常见的关键词在4个到5个,去除非核心及作者自己定义的方法名词后,通过(3)中计算的三组亲密度关系进行匹配,得到运用3个关键词可以概括一篇论文内容的主要关键词。所以,本文认为最终获得的关系紧密的3元关键词组可以在某种程度上代表未来将会产生的论文,进而实现预测新节点产生的目的。 引入互斥关系的节点预测算法MENP(node prediction with mutual exclusion)框架描述如下。 输入:G=(U,V,E):论文-关键词二部图; 输出:关键词互斥性矩阵En×n,关键词相似性矩阵Sn×n,二元关键词组集合K2,三元关键词组集合K3。 Begin (1)/*构造投影图Gu=(U,Eu)*/ Eu=∅; Forevery nodeK1inUdo Forevery nodevinN(K1)do Forevery nodeK2inN(v)do Eu=Eu∪{(K1,K2)}; Endfor Endfor Endfor (2)/*计算得到关键词加权投影矩阵Qm×n*/ Forevery edge(K1,K2) inEudo Calculate the weight of edge(K1,K2); ReturnQm×n; Endfor (3)/*根据(2)得到的加权投影矩阵Qm×n,计算得到关键词的相似性矩阵Sn×n和互斥性矩阵En×n*/ Forevery node pairK1,K2inQm×ndo Calculate thesimilarity according to formula(1) and formula(3); Calculate themutual exclusion according to formula(4)and formula(5); ReturnSn×n,En×n; Endfor (4)/*选出满足条件的二元关键词组集合K2*/ Forevery node pairK1,K2do IFSK1,K2>EK1,K2/2 Put node pairK1,K2inK2; ReturnK2; Endfor (5)/*选出满足条件的三元关键词组集合K3*/ Forevery node pairK1,K2inK2do Take the corresponding row of node pairK1,K2inSn×nasSK1andSK2respectively; Take the corresponding row of node pairK1,K2in En×nas EK1and EK2respectively; IFSK1,K2,Kx>EK1,K2,K3/2 Put node pairK1,K2,KxinK3; ReturnK3; Endfor 本实验的数据集来源于知网(CNKI)检索的期刊《软件学报》,该期刊主要发表反映计算机科学和计算机软件新理论、新方法和技术以及有关学科发展趋势的文献。实验数据集完全基于真实的数据采集和处理过程构建,中间经过系列的分词、编号以及同义词去重等处理,最终构成了本文的数据集。实验数据集具体的采集和处理过程如下。 (1)按照年份批量导出知网上2013-2017年《软件学报》上所有论文的基本信息(不包括投稿指南、专刊介绍和专题前言等非学术研究性质的论文),包括论文题目、摘要、作者、关键词以及发表时间等; (2)由于批量导出功能的限制,导出论文的基本信息条目过多。因此,利用分词等相关技术提取试验所需要的论文题目以及关键词; (3)分别编号论文题目和关键词,并对关键词进行去重和同义词处理,构建论文-关键词二分网络。 下面给出去重和同义词处理之前的关键词数, 表1是实验采集的数据的一些主要统计量,其中P代表论文数,K代表对应关键词数。 表1 数据的主要统计量 本实验的二分网络构建于2013-2016年的论文和关键词,网络两侧节点由814篇论文和3 774个关键词组成,其中关键词进行处理后实际有2 681个。 测试集由2017年的208篇论文和993个关键词组成,关键词处理后实际有861个。本文节点预测实验的前提是在二分网络投影一侧节点个数基本稳定不变的假设下进行,因此测试集需要进行以下处理。 (1)对在训练集中出现过的关键词仍然按照训练集中的序号进行编号; (2)将新出现的关键词从测试集中去除,同时为了便于获取节点预测的实验效果,我们将处理后的测试集数据按照论文进行排序,共得到70篇论文,这样实验得到关键词组的集合后,直接观察关键词组集合在测试集论文中的关键词匹配情况即可。 在信息检索等领域(如搜索引擎),自然语言处理和检测分类中常常会用到一些指标来评估实验方法的有效性以及实验结果的质量。其中精确率(Precision)和召回率(Recall)是该领域常见的评价指标。本文在论文-关键词二分网络上进行节点预测研究,我们用实验所得联系紧密的关键词组合去测试集中匹配拥有相应关键词的论文,达到预测将来可能发表的论文的目的。我们在测试集中将关键词按照论文进行分组,以便于评估节点预测算法的性能。在本文中,由于预测节点算法的性能可以被视为信息检索任务,因此这里Precision和Recall可以作为评估该算法性能的两个指标。 我们将通过算法预测到的关键词节点组合进行分类,对于正确匹配到测试集中某篇论文所对应关键词的节点组合,本文称其为正样本,而对于不能匹配或不存在于训练集和测试集中的关键词节点组合,本文称其为负样本。本文进行节点预测实验的目的就是尽可能将全部正样本识别出来,并且尽量避免错误地将负样本判定成正样本的情况。正样本的预测情况分为两类,一种是正样本被预测为正类(True Positive,TP),另一种是正样本被判定为负类(False Negative,FN);负样本的预测情况也分为两类,一种是负样本被判定为正类(False Positive,FP);另一种是负样本被判定为负类(True Negative,TN)。 本文中,Precision指的是节点预测算法成功预测到的存在于测试集中的论文数目占算法实际预测到的论文数目的比例,如式(5)所示。 (5) 相应地,本文中Recall指的是节点预测算法成功预测到的存在于测试集中的论文数目占测试集中包含的所有论文的数目的比例,如式(6)所示。 (6) 算法LRW和算法MLRW是在仅利用对应的相似性指标情况下进行节点预测,如表2给出了四种预测算法的相关实验数据。接下来,我们将简单说明如何在本文的数据集上仅利用相似性指标进行节点预测,其过程具体描述如下。 (3)我们根据步骤(2)中得到的三元关键词组合,观察他们与测试集中论文所对应关键词的匹配程度。 而算法MENP_LRW和MENP_MLRW则是引入了互斥关系的二分网络节点预测算法,利用相似性的同时结合了新提出的节点间互斥关系,其中相似性算法分别采用LRW和MLRW。表2中所展示的数值是算法取不同迭代次数后的最优结果,数值最大的结果所在行用加粗表示。 表2 不同预测算法的预测效果 为了更直接地观察上述四种算法在不同评价指标下的实验效果对比情况,图3(a)和图3(b)分别给出四种不同算法Precision和Recall对比柱状图。 图3 不同预测算法效果对比 因为随机游走步数的不同,算法的实际实验效果也会有所不同。所以,我们针对本文提出的引入互斥关系的节点预测算法,在不同随机游走步数下进行了节点预测实验。表3给出了本文提出的节点预测算法MENP_LRW和MENP_MLRW的Precision和Recall随着局部随机游走步数的变化情况,其中,P代表Precision,R代表Recall,预测效果最好的情况用加粗表示。 为了更好地观察两种算法下评价指标的变化图4(a)和图4(b)分别给出了采用不同相似性指标的节点预测算法MENP_LRW和MENP_MLRW,其Precision和Recall随着最大值随机游走步数的变化情况。 从表2和图3我们可以看出,在仅利用相似性指标进行预测的情况下,MLRW算法比LRW算法的精确率Precision高出1.37%,而召回率Recall则高出了12.86%。由此可知,在论文-关键词二分网络上,MLRW指标比传统局部随机游走指标LRW预测新生论文的效果得到显著提高。可见本文提出对双向传播过程的信息量取最大值能够更好地表达信息传播的强度,有利于选出联系紧密的关键词组,从而更好地预测新生节点。 表3 不同随机游走步数下两种预测算法的Precision和Recall 图4 不同随机游走步数下Precision和Recall变化情况 同时考虑了相似性和互斥性的节点预测算法MENP_LRW和MENP_MLRW与对应的仅依靠相似性指标进行节点预测的效果相比也有一定程度的提升,其精确率分别提高了1.32%和0.21%,召回率则分别明显提升了5.71%和24.28%。这说明引入了互斥性的算法在预测新生论文时更有优势,表明我们提出的互斥关系概念可以使相似性指标在一定程度上更加完善,帮助我们更准确地定量描述节点间联系的紧密性。其中,预测效果最为突出的是MENP_MLRW算法,其精确率达到3.01%,召回率达到45.71%,这表明MENP_MLRW节点预测算法在本文的论文-关键词数据集上对于预测未来可能出现的新生节点即新生论文的效果最好。 由表3和图4可以发现,在局部随机游走步数相同的情况下,MENP_MLRW算法的精确率和召回率相较于MENP_LRW算法均有明显提升,同样说明了在引入了互斥关系的节点预测算法下,采用MLRW指标比采用传统指标LRW的预测效果更好。同时,随着局部随机游走步数的变化,节点预测算法MENP_LRW和MENP_MLRW的精确率和召回率都呈现下降趋势,在随机游走步数为2时精确率和召回率最高,表明预测效果最好。 根据表3,可以发现在实验结果最好的情况下,其Precision值可以说是较低的。但是我们必须看到,本文实验的训练集中所有的关键词组合情况是一个非常巨大的数据量,在这么庞大的数据基数的情况下我们所得到的Precision值虽然很小,但却是完全有意义的。首先,根据前面划分训练集部分内容可以知道,最终关键词处理后的个数为2 681,那么所有可能的关键词组合情况高达将近720万种,在实验过程的最后我们会选择对实验而言有意义的数据,我们知道关系紧密的关键词组合大约1 000组左右,然而对于庞大的所有关键词组合来说,这1 000组关键词组合显然数目极小,仅仅占所有组合情况的约1/7 000,因此在这种比例下我们得到的Precision值虽然较小却是非常有意义的。其次,实验数据集采集过程的不完美也是造成Precision较小的一种原因,《软件学报》本身包含论文种类和领域比较繁琐,因此我们要找的关键词数据集过于分散,并且不具有领域性;再然后在关键词同义词处理过程中不可能完全准确,因而实验存在一定的误差。 本文在基于二分网络加权投影上研究预测新生节点的问题,发现了网络节点间存在一种互斥关系,给出了互斥关系ME的定义。然后,我们提出了在加权网络上基于最大值随机游走的相似性算法MLRW。最后,结合提出的互斥性和相似性指标构建了节点预测算法MENP,预测网络中未来可能会出现的节点,并在采集的论文-关键词数据集上成功验证了算法的优势,其中效果最好的是结合了相似性MLRW的节点预测算法MENP_MLRW。 本文数据集来自于《软件学报》2013-2017年所有论文。选取该期刊作为本文数据集旨在通过论文-关键词二分网络实现对未来可能产生的新生论文节点的预测,我们的实验也成功地验证了我们所提出的节点预测算法对于预测未来新生论文的可行性以及现实意义。我们的实验过程以及结果也存在一些问题,在现阶段主要存在以下两个方面的困难:第一,在实验前期的数据集采集阶段需要经过一系列复杂的数据处理过程,包括论文信息批量导出,题目和关键词的提取,关键词编号、去重以及同义词的处理等,这需要耗费大量的时间;其次,我们需要具有较大影响力和较强领域性的期刊作为数据集来源,实现更好的实验效果。但实际的现状是,一些期刊的论文信息在网站上不具备批量导出功能,这也是导致数据集获取困难的原因。 综上所述,今后的研究将从两方面展开。第一,在不同特征的网络上本文节点预测算法的实际预测效果需要继续进行研究和探索,我们需要采集其他的实验数据集进行下一步验证。第二,互斥性定义的准确性在不同特征的网络上是否具有适用性,也是我们接下来需要研究的主要内容。3 实验结果
3.1 实验数据集
3.2 训练集和测试集划分
3.3 评价指标
3.4 实验结果
4 结论