史玉林 钱晓东
摘 要:通过改进的随机分块模型(SBM)链路预测算法,研究电子商务网络的演化过程与社团结构。针对原始SBM模型块之间的度分布为二项式分布,引入度衰减参数使得随机分块模型中块之间的度分布遵循幂律分布。针对原始SBM模型中节点之间的连接仅仅取决于节点所属块的假设,引入度控制参数使其更接近真实网络的度数分布。基于此提出优化后的随机分块模型,并利用阿里巴巴淘宝数据集验证该算法,结果显示该算法精确度高于随机分块模型(SBM)、度修正的随机分块模型(DCSBM)以及层次结构模型(HBM)。说明改进后的算法能较好地刻画电商网络中的社团结构,准确地发现网络中的缺失链接。
关键词:随机分块模型; 电商网络; 链路预测; 推荐
中图分类号:TP630.40 文献标志码:A
文章编号:1001-3695(2024)03-026-0824-07
doi:10.19734/j.issn.1001-3695.2023.07.0329
E-commerce network link prediction algorithm based on
improved stochastic block model
Shi Yulin, Qian Xiaodong
(School of Economics & Management, Lanzhou Jiaotong University, Lanzhou 730070, China)
Abstract:To study the evolution process and community structure of e-commerce networks, this paper used an improved stochastic block model(SBM) link prediction algorithm. Since the degree distribution among blocks in the original SBM model was binomial, to make the degree distribution among blocks follow the power law distribution in the stochastic block model, this paper introduced the degree attenuation parameter. Aiming at the assumption that the connection between nodes depended only on the block to which nodes belong in the original SBM model, to make the degree distribution closer to the real network, the paper introduced the degree control parameter. Based on this, the paper proposed an optimized random block model, and used the Alibaba Taobao data set to verify the proposed algorithm. The results show that the accuracy of the proposed algorithm is higher than the SBM, the degree-corrected stochastic block model(DCSBM) and the hierarchical structure model(HBM). It shows that the improved algorithm can describe the community structure of the e-commerce network well and find the missing link in the network accurately.
Key words:stochastic block model(SBM); e-commerce network; link prediction; recommendation
移動电子商务网络的迅猛发展,逐渐改变了人们传统的购物方式。通过使用移动设备,摆脱了传统电子商务的束缚,使得购物在时间、地点上更加灵活。消费者可以随时随地利用碎片时间进行网页浏览和消费,大大提高了交易的效率。近几年,各品牌、中间商和商家纷纷走进电商平台,想赶上电商平台带来的红利,这使得各大电商平台中商品的数量与品类呈指数增加。与此同时,用户在购买前后的浏览、购买、收藏、评论等行为也使得电子商务网络中的数据呈指数上升。那么,如何在海量的商品中根据消费者的以往消费行为为其提供个性化推荐,是目前研究的一个热点。通过将整个电商网络的数据进行分块处理,然后对不同社区的消费者进行推荐,会大大提高推荐的准确度,增加商品销量。
链路预测是推荐系统中的一个重要研究方向,其可用于提取信息、识别虚假的交互、评估网络演化机制等[1]。除了帮助分析具有缺失数据的网络之外,链接预测算法还可以用于预测未来可能出现在不断发展网络中的链接。例如,在电子商务网络中,非常可能但尚未存在的链接可以被推荐为有希望的被购买的产品,这可以帮助用户找到有潜在需求的商品,从而提高他们对网站的忠诚度。然而链路预测算法在电子商务网络中的研究尚属于起步阶段,如何利用链路预测算法遏制失真信息,预测节点间连接的概率,提高推荐的精确性,还有待商榷。因此,本文基于传统的随机分块模型,结合电商网络中的消费者购买特性,对该模型进行优化改进,使得实验结果更加符合实际情况,为电子商务网络个性化推荐研究提供参考。
1 相关研究综述
链路预测是社交网络研究的一个重要分支。社交网络中的链路预测能够给社交网络中的用户提供个性化的推荐,给可能交互的用户提供接触的桥梁[2]。21世纪初,文献[3]首先提出链路预测,并将其应用在社交网络中。随后链路预测在不同的网络领域中采用,例如信息检索、生物信息学、电子商务和信息计量学[4]。现有链路预测领域的研究方法有基于相似性的链路预测算法、概率模型、最大似然模型等[5]。
1)基于相似性的链路预测算法 在该方法中,基本假设是将两个节点之间的相似性得分视为它们之间形成链接概率的重要因素[6],对于所有未观察到的链接,计算相似性分数,并且较高的分数意味着将来节点之间形成链接的概率较高[7]。如果两个节点具有共同的特征,那么可以直接测量节点相似性;否则,必须使用涉及链接属性的结构相似性来测量节点相似性[8]。目前研究中,具有代表性的算法指标有局部社团范式系列增强指标(local-community-paradigm,LCP)[9]、资源分配指标(resource allocation,RA)[10]、共同邻居指标(common neighbor,CN)[3]。大部分基于相似性的链路预测算法都在二阶路径框架下设计,但也有少量但重要的算法更关注节点间的局部连接范式,如LCP系列指标[6]。
2)基于概率模型的链路预测算法 该算法是通过对网络中已有节点之间的连接进行概率建模,来预测未来节点之间的连接。其中主流概率模型包括贝叶斯网络、马尔可夫随机场、随机关系模型和考虑了实体之间依赖关系的图模型[11]等。文献[3]最先将机器学习方法应用在链路预测中,并且获得了较高的准确度。Asil等人[12]采用了一种基于模糊规则的监督学习算法,并通过实验证明在监督算法中,决策树算法和随机森林算法比基于模糊规则的算法具有更好的性能。Gupta等人[13]通过朴素贝叶斯方法将链路预测视为一个二元分类问题来识别网络中缺失的连接。但在这些模型中,需要输入节点信息以及网络拓扑结构,因此无法高效地应用在仅具有连边关系的网络数据中。
3)基于最大似然模型的链路预测算法 最大似然模型的基本思路是首先对数据去除噪声、填充缺失值、标准化等,通过统计学方法对节点之间的联系进行建模,并利用已知的社交网络数据进行模型训练,通过交叉验证等方法优化模型参数,最后利用训练好的模型对未知节点之间的链接进行预测。Clauset等人[14]提出一种简单的层次结构模型(hierarchical structure model,HSM),该模型的精確度虽然较高,但计算复杂度却很大。文献[15]在传统的随机分块模型基础上,提出一种适用于动态网络的混合结构奖励预测算法来预测网络中丢失的链接。Pan等人[16]提出一种算法框架,用预先定义的结构哈密顿量计算网络概率,并通过大量的数值模拟表明该算法在预测缺失的链接和识别虚假的链接方面比最先进的方法具有更高的精度。
以上三种链路预测算法中,基于相似性的链路预测方法通过判断节点之间的相似性确定节点之间出现新的连边的可能性,然而这种方法并不能充分考虑网络结构的复杂性和动态性,所以其预测准确度有限。基于概率模型的方法充分考虑了网络节点间的关系,预测准确度相对于基于相似性的方法有所提高,但是其计算复杂度较高,且对数据的依赖程度较高。最大似然方法中,虽然同样面临着计算复杂度高和依赖数据的问题,但该方法在预测准确度上相比其他方法具有优势。因此,本文选取在预测精度上具有优势的最大似然链路预测算法,并且选取了在时间复杂度和准确性、效率性上有很大优势的随机分块模型。
2 随机分块模型与改进
2.1 随机分块模型
1983 年,文献[17]将随机模型与块模型结合,从而提出随机块模型(stochastic block model,SBM)。该模型是建立在一定的先验知识的基础上的,它的主要思想是将网络中的节点分成若干个群,两个节点是否连接的概率只取决于节点所在的群[18]。即该模型认为处于同一组中所有节点的地位是相同的,它主要由两部分信息决定,一是网络被分成若干群的方案,二是分属于两个群的两点之间产生连边的概率矩阵[18]。
综上,本文选择了在建模灵活性、挖掘精度和应用上都有着巨大优势的模型——随机块模型(SBM)[13]。但传统的随机块模型(SBM)在刻画电商网络中存以下局限。a)模型中假设块之间的度分布为二项式分布[19],在实际电子商务网络中,商品之间的关系复杂且密集,其结构通常由少数几个超级节点主导,这些节点有着极高的度数和影响力。在此情况下,如果仅用二项式分布假设各商品之间的连接概率,得到的推荐结果可能与用户实际需求不相符。因此传统的随机分块模型假设块之间的度为二项式分布,并不能反映电子商务网络中消费者与商品之间的关系。b)在传统随机分块模型中,假设节点之间的连接仅仅取决于节点所属的块[20],并没有考虑节点的度数对推荐结果的影响,这会导致一些节点被过度推荐或者被低估,从而影响链路预测的精确度。因此本文对SBM模型作出以下优化:a)通过引入度衰减参数,使得随机分块模型中的块之间的度分布遵循幂律分布;b)通过引入节点的度控制参数,从而调整网络中边的生成概率,合理限制节点的度数,使模拟出的网络更接近真实网络的度数分布,并且利用真实的消费者数据对优化后的模型进行实证模拟,以期提高推荐准确度。
2.2 改进随机分块模型
2.2.1 基于度衰减参数的SBM模型块间的度分布优化
1)传统SBM模型块间度分布的不足
由于传统的随机分块模型(SBM)在块之间的节点连接时用相同的参数处理块中的所有节点,即该模型假设块之间的度分布是二项式分布。但是在真实的电子商务网络中,每个个体的购买力大小不同,所以随机分块模型(SBM)在研究电子商务网络的演化过程中存在不足。
一般来说,当个体拥有更强购买力时就更有可能购买新的产品,从而与新的个体产生连接。因为他们已经有了更大的交际圈,所以更有可能通过现有的关系结交到新的朋友,拥有更多朋友可以创造更多交新朋友的机会。实际上,当一个个体已经拥有很多朋友时,这表明他们可能有某种能力或者亲和力来交更多的新朋友,这种能力会吸引其他人产生新的关系,就像流行网站上链接到其他网站和博客上的链接一样,已经建立的城市会招来新的铁路和航线规划。这种特征符合无标度网络结构中“偏好依附”这一原则。偏好依附是一个大者愈大的网络增长规则:一个有着更多连接的节点相比于连接更少的节点会有更大可能性获得新的连接。因此传统的随机分块模型(SBM)不能对普遍存在于现实电商网络中的这种幂律分布特征进行建模。在电商网络中,一些节点可能具有很高的度数,比如热门商品或者广告;而一些节点可能具有很低的度数,比如稀有商品或者少有人关注的店铺。加入度衰减参数可以更好地处理这些不同类型的节点。具体来说,度衰减参数可以降低节点度数与其他节点之间的连接概率,这样能够更好地反映网络中度数大的节点对网络结构的影响,并避免一些不合理的连接,从而更好地拟合电商网络结构。
2)改进SBM模型块间度分布的优化
基于上述分析,本文提出一种适应现实世界电商网络中幂律分布特征的方法,从而提高商品推荐的精确性。将网络中的每个节点i与另一个潜在变量αi≥0相关联,并用它来调整节点度的分布,即
p(αi|λ)=λe-λαi(1)
其中:αi为度衰减变量,且该变量与节点之间的概率呈负相关。令αi服从指数先验exp(λ),从而得到不同的取值范围。αi取值越大代表节点的度衰减得越快,取值越小,则表示节点的度衰减得越慢。因此,节点度的变化规律应满足:a)当αi=0,即所有节点的度不发生变化时,节点度数对社区结构没有影响,所有节点被等概率地分配到各个社区中,模型退化至传统的随机分块SBM;b)当αi=1,即所有节点的度不断变化时,节点度数对社区结构的影响最大,节点度数越大,被分配到同一社区的概率越大,节点的度分布最终演化为幂律分布。
在电商网络中,同一个社区中节点之间的连接是构成该社区的主要因素,而该社区与其他社区的连接则相对较少。在这一假设的基础上,本文考虑集群内或等效的单集群情况来证明优化后的随机分块模型的建模能力。
3)改进SBM模型块间度分布优化分析
假设一个社团内有m0个节点,每个节点都与潜在度衰减变量αi~exp(λ)相关联,两个社区之间的边缘概率为p0。基于强大的大数定律 (SLLN),随着m0的增加,可以证明,优化后的随机分块模型节点i的归一化度将收敛到仅取决于 αi的随机变量di[21],即
将式(3)看作优化后的随机分块模型的幂律度特征,当 λ 较小时,式(3)中形状参数γ=1+λ/ln p0的值接近1。虽然这小于实际网络的典型值(介于2~4)。但是较小的形状参数使优化后的模型能够更加符合电商网络度分布的重尾特征。
4)模拟实验
通过仿真实验验证引入度衰减参数后的SBM模型有较好的性能,两个模型的初始网络均有200个节点,网络的平均度数k=10,社区间的连边概率p0=0.25,网络中的社区数c=5,引入度衰减参数的模型将参数αi设置为0.52,将传统的随机分块模型和引入度衰减参数的随机分块模型生成的网络(图1)进行比较,生成网络的度分布的变化如图2所示。
图1(a)为传统随机分块模型生成的复杂网络,图1(b)为引入度衰减参数生成的复杂网络;图2(a)为传统随机分块模型生成网络的度分布直方图,图2(b)为引入度衰减参数生成网络的度分布直方图。从实验结果来看,传统随机分块模型生成网络(图1(a))的度数相关性为-0.007,引入度衰减参数的SBM模型生成网络(图1(b))的度数相关性为-0.226,表明优化后的模型节点倾向于连接到度数比本身小的节点,得到的节点的度分布更分散;另外,图1(a)的幂律指数为13.995,图1(b)的幂律指数 为4.73,表明加入度衰减参数后的模型得到的网络呈现出幂律分布的特征,这一特点在图2中同样得到验证,图1(b)的节点度分布图拥有明显的长尾特征。因此,引入度衰减参数的随机分块模型有利于模拟更加真实的电商网络。
2.2.2 基于度控制参数的节点之间连接概率的优化
1)传统SBM模型节点之间连接概率的不足
传统随机分块模型(SBM)中任意节点vi和vj之间是否有链接取决于两者所属的块及块和块之间的链接概率。但在真实的电子商务网络中,拥有相似购买喜好的消费者在未來的消费行为中,购买同样或类似产品的概率也不尽相同。因此传统的随机分块模型应用在实际的电商网络中存在不足之处。
在小世界网络节点之间连接的研究中,研究较多的是通过在原有的连边基础上随机化加边或者随机化重连来形成具有幂律分布特性的网络,这些方法可以从不同方面刻画出特定的网络,也都有其自身的优点和不足。现实世界中的网络千变万化,在将具有相同特征的节点划分到同一区块后,还需对同一区块中的节点再作出区分。
2)改进SBM模型节点连接概率的优化
基于上述分析,本文提出一种新的决定节点之间连接概率的方法。在该方法中,节点依然会划分到各个不同的区块,不同的是任意两个节点之间的连接概率是由节点所属的区块与节点的期望度参数共同决定的,将新引入的节点度控制参数与已有的块参数相乘,可以合并成为新的期望链接数。具体的计算方法如下:
a)构建网络。将一个无向网络记为G(V,E),该网络包含自边和多边的无向网络,其邻接矩阵记为A,并按如下方式进行定义:
4.3 实验结果分析
4.3.1 改进后的SBM模型对真实网络的影响分析
Clauset等人[23]的研究表明,度衰减参数可以在0.1~1.0取值,当衰减参数取值较小(0.1左右)时,生成的网络具有更巨大的社区结构,而当衰减参数取值较大(0.9左右)时,生成的网络更为分散。Monroy等人[24]通过实验表明,当度控制参数的值在(0.5,1]时,节点度数分布呈现幂律分布特性。因此,本文选取度衰减参数为0.3、0.9,度控制参数为0.6、0.9排列组合而成的四组数据进行仿真模拟。
运用仿真软件得出度衰减参数αi和度控制参数βi为(0.3,0.6)(0.9,0.6)(0.3,0.9)和(0.9,0.9)的网络拓扑结构图,如图3(a)~(d)所示。图3(a)有197个节点和834条边,(b)有197个节点和1 278条边,(c)有197个节点和1 481条边,(d)有197个节点和1 947条边,并且表1列出了上述四个网络的基本拓扑性质。其中,从网络的平均集聚系数来看,该网络具有很强的集聚性,说明任意兩个节点之间都存在很多共同的邻居节点;四个网络的同配系数均为负数,说明度数不同的节点相互连接的概率更高,即所有网络都是异配的。通过计算得到四个网络幂律指数分别为1.9、2.4、2.7、2.8,均符合电商网络的幂律指数为(1.5,3)[25],因此该网络可用于进行电商网络预测的研究。
从图3可以得出:若度衰减参数αi不变,度控制参数βi在一定范围内设置越小,网络就越稀疏;若度控制参数βi不变,度衰减参数αi在一定范围内设置越小,网络就越密集。在一定范围内度衰减参数越小,度控制参数越大,网络就越密集。本文分析这是由于度衰减参数αi越大时,节点对相似度的影响就越小, 节点之间成为邻居的可能性就越小,形成的网络便越稀疏;度控制参数βi越大时,节点的邻居数量会越多,节点之间的连接就更加密集,网络也就更加密集。因此,度衰减参数在一定范围内应设置得较小,度控制参数在一定范围内应设置得较大。
4.3.2 实验对比分析
由于现实网络中随机发生、不确定因素的存在,常常造成网络中的许多缺失、不准确的信息。例如在建构社会网络时,一些涉及到被调查者隐私的信息,往往会被隐瞒不愿告知,或者由于暂时被遗忘而导致搜集到的信息不完整。其次在人工处理信息时,也会因为一些失误造成最终构造的网络不准确。以上各种因素在网络连接过程中均会导致边的随机缺失现象。
为验证本文算法具备较高的预测准确率,使用阿里巴巴消费者数据构建的实际网络,按照缺失边比例f=|EL|/|ET|,f∈[0.05,0.95]生成若干“缺失边”,然后检验改进后的算法识别这些边的能力。针对传统的SBM、Degree-corrected stochastic block model(DCSBM)、优化后的SBM(Optimized-SBM)和基于最大似然方法的层次结构模型(hierarchical structure model,HSM)四种链路预测的算法,将其分别与同一个缺失比例的真实网络所获得的预测结果进行对比,计算相应的AUC指标,每个取值均为四种算法在真实网络数据集运行100次取平均值所得,结果如图4所示。
实验过程中,Optimized-SBM算法在度衰减参数和度控制参数变化时得到的网络节点和边的数量与其他三种算法保持一致。横坐标f表示缺失边的设置比例,计算公式为f=|EL|/|ET|,变化为0.05~0.95;纵坐标为AUC值,图4中的每条曲线都表示对应算法在f变化时AUC的变化。
由图4可以看出,在度衰减参数不变的前提下,随着度控制参数的减小,四种算法的精确度都有明显提高,仅在度衰减参数较小时,随着度控制参数的变大,HSM算法的精确度降低。本文分析出现该现象的原因是在密集网络中,节点的度数相对较高,导致许多节点之间具有相同的共同邻居数,从而降低HSM算法的预测精度;在度控制参数不变的前提下,随着度衰减参数的变小,即网络越密集的情况下,四种算法的预测精确度基本都有不同程度的提高。
另外,Optimized-SBM算法不论在稀疏网络还是密集网络的精确度都比HSM算法要好很多,仅在度衰减参数为0.3的网络中Optimized-SBM算法在缺失边比例较小时表现不如DCSBM和SBM算法,当缺失边比例超过65%时该算法才能给出更好的预测精确度,而在其他网络中,该算法的精确度都比DCSBM和SBM算法要高。本文分析出现该现象的原因是:
a)加入度控制参数的随机分块算法依赖节点度数和所在块的度数之和,这种方法在处理度衰减参数较小的网络时容易受到块大小的影响,即块大小相近的情况下,节点在不同块中的度数和并不会有很大的差别。因此,节点的分配可能不够精确,导致算法性能下降。
b)传统随机分块算法和度修正的随机分块算法不依赖节点度数和所在块的度数之和,而是基于节点之间的连接关系进行划分,这种方法在处理度衰减参数较小的网络时仍然能够保持较好的精确度。
4.3.3 实验结果
从图4可以看出,随着度衰减参数αi和度控制参数βi的变小,四种算法在预测缺失边时精确度都有提高,以Optimized-SBM算法为例,度衰减参数αi和度控制参数βi为0.9时(图4(a)),当f=0.05时,该算法的AUC值接近0.725;而当度衰减参数αi为0.9,度控制参数βi为0.3时,同样f=0.05的情况下,该算法的AUC值达到了0.87,即使在缺失边比例达到0.95时,预测的精确度也达到了0.625以上。充分证明了考虑到节点度分布和节点之间的连接概率的SBM算法能够更加准确地预测电商网络边的连接。
表2展示了所有算法在不同比例的缺失边数据下的预测效果。从结果数据中可以得出:不同的算法对于不同大小的网络和不同缺失边比例的情况有不同的预测效果。在节点大小较小(α1=0.9,β1=0.6)和缺失边比例较低(如10%)的情况下,四种算法的预测效果都相对较好,MCC得分普遍在0.8以上。而在节点大小较大(α2=0.3,β2=0.9)和缺失边比例较高(如80%)的情况下,四种算法的预测效果都有所下降,MCC得分普遍在0.5左右。在同一网络中,本文Optimized-SBM算法的预测效果相对较好。无论节点大小和缺失边比例如何变化,Optimized-SBM算法的AUC和MCC得分都保持在较高水平,且recall、precision和F1得分也相对平衡。说明Optimized-SBM算法可以较好地捕捉到网络中的社区结构。
HSM算法在大部分情况下的预测效果较差。无论是在节点大小较小还是缺失边比例较低的情况下,HSM算法的MCC得分都明显低于其他三种算法,且recall、precision和F1得分也较低。这可能是因为HSM算法更适用于节点之间存在较多有效路径的情况,而在缺失边较多的网络中,有效路径减少导致了预测效果的下降。
DCSBM和SBM算法在大部分情况下的预测效果介于Optimized-SBM和HSM之间。虽然它们的预测效果没有Optimized-SBM算法那么好,但仍然相对稳定,并且在某些情况下能够取得比HSM算法更好的结果。
综上所述,本文Optimized-SBM算法在大多数情况下表现较好,而HSM算法在缺失边较多的情况下表现较差。DCSBM和SBM算法在某些情况下能够取得较好的预测效果。
4.4 建议
针对以上实验结果,本文針对卖家与消费者分别给予以下建议:
对于卖家而言,可以通过提高自己的度,即增加其他店铺和消费者与其连接,来提高自己在电商网络中的影响力和曝光率。同时,店铺可以选择与度控制参数较大的其他店铺合作,共同推广产品,通过合作来增加自己在电商网络中的度,以提高自己的销售量和收益。
对于消费者而言,应该通过参与电商网络中的社交活动、评论和评分等方式,增加自己与其他店铺和消费者之间的连接,提高自己在电商网络中的度和影响力。此外,消费者可以选择购买与其他店铺和消费者联系较多的店铺产品,以获取更多的优惠和折扣。
5 结束语
本文提出一种基于改进的SBM模型的链路预测算法。考虑到真实电商网络的特点,从节点的度分布和节点连接概率两个方面改进SBM模型。
针对原始SBM模型假设模型中块之间的度分布为二项式分布的问题,提出基于度衰减参数来调整节点度数的优化机制,即减少热门商品对分块结果的影响,使得商品分布更加均匀,提高分块结果准确性;针对SBM模型中节点之间是否连接仅取决于块之间的连接概率,提出将度控制参数用来调整节点所在的块的度之和,从而影响块的大小分布。通过两方面的改进,SBM 模型可以更好地刻画电子商务网络中的演化规律,更准确地预测电子商务网络中的节点潜在连接。选取真实的淘宝商品数据集,研究电子商务网络的社团结构,将本文算法在不同度衰减参数和度控制参数下得到的网络与SBM和DCSBM、HSM三种算法预测缺失边的能力进行比较。实验结果表明,本文算法的预测准确率优于其他三种算法,能够较为准确地预测出电子商务网络中原有的连边,同时也更加符合电子商务网络的真实结构,有助于从微观层面了解电子商务网络的演化机制。
参考文献:
[1]Lyu Linyuan, Zhou Tao. Link prediction in complex networks: a survey[J]. Physica A: Statistical Mechanics and Its Applications, 2011,390(6): 1150-1170.
[2]Zhang Yinuo, Shen Subin, Wu Zhenyu. Improve link prediction accuracy with node attribute similarities[J]. IEEE Trans on Know-ledge and Data Engineering, 2020,32(11): 2159-2172.
[3]Liben N, Kleinberg J. The link-prediction problem for social networks[J]. Journal of the American Society for Information Science and Technology, 2007,58(7): 1019-1031.
[4]Shahriary S R, Shahriari M, MD Noor R. A community-based approach for link prediction in signed social networks[J]. Scientific Programming, 2015, 2015: article ID 602690.
[5]李艳丽, 周涛. 链路预测中的局部相似性指标[J]. 电子科技大学学报, 2021,50(3): 422-427 (Li Yanli, Zhou Tao. Local similarity indices in link prediction[J]. Journal of University of Electronic Science and Technology of China, 2021,50(3): 422-427.)
[6]Lin Dekang. An information-theoretic definition of similarity[C]//Proc of the 15th International Conference on Machine Learning. [S.l.]: Morgan Kaufmann Publishers Inc., 1998: 296-304.
[7]Biswas A, Biswas B. Community-based link prediction[J]. Multimedia Tools and Applications, 2017,76: 18619-18639.
[8]Sun Duo, Zhou Tao, Liu Jianguo, et al. Information filtering based on transferring similarity[J]. Physical Review E, 2009,80(1): 17101.
[9]Muscoloni A, Abdelhamid I, Cannistraci C V. Local-community network automata modelling based on length-three-paths for prediction of complex network structure sin protein interactomes, food webs and more[EB/OL]. (2018-06-14). https://doi.org/10.1101/346916.
[10]Zhou Tao, Lyu Linyuan, Zhang Yicheng. Predicting missing links via local information[J]. The European Physical Journal B, 2009,71(4): 623-630.
[11]Neville J, Jensen D. Relational dependency networks[J]. Journal of Machine Learning Research, 2007,8(3): 653-692.
[12]Asil A, Gürgen F. Supervised and fuzzy rule based link prediction in weighted co-authorship networks[C]//Proc of International Confe-rence on Computer Science and Engineering. Piscataway, NJ: IEEE Press, 2017: 407-411.
[13]Gupta A K, Sardana N. Naive Bayes approach for predicting missing links in ego networks[C]//Proc of IEEE International Symposium on Nanoelectronic and Information Systems. Piscataway, NJ: IEEE Press, 2016: 161-165.
[14]Clauset A, Moore C, Newman M E J. Hierarchical structure and the prediction of missing links in networks[J]. Nature, 2008,453(7191): 98-101.
[15]Liu Jia, Wang Tong, He Xingsheng, et al. Link prediction in dyna-mic networks based on reward mode[J]. Journal of Network and Computer Applications, 2017, 86: 28-36.
[16]Pan Liming, Zhou Tao, Lyu Linyuan, et al. Predicting missing links and identifying spurious links via likelihood analysis[J]. Scientific Reports, 2016, 6(1): 1-10.
[17]劉厚忠, 张胜, 钟玲玲, 等. 基于边界节点的局部扩展社区发现算法[J]. 南昌航空大学学报: 自然科学版, 2022,36(2): 44-50,57. (Liu Houzhong, Zhang Sheng, Zhong Lingling, et al. Local extended community discovery algorithm based on boundary nodes[J]. Journal of Nanchang Hangkong University: Natural Science Edition, 2022,36(2): 44-50, 57.)
[18]吕琳媛, 周涛. 链路预测[M]. 北京: 高等教育出版社, 2013: 85-88. (Lyu Linyuan, Zhou Tao. Link prediction[M]. Beijing: Higher Education Press, 2013: 85-88.)
[19]Li Yang, Chen Hechang, Yang Bo. Reparameterized stochastic block model adaptive to heterogeneous degree and block distributions[J]. IEEE Access, 2018,6: 37615-37626.
[20]Newman M E. The probability of link formation in network dynamics[J]. Physical Review E, 2001, 64(2): 025102.
[21]Qiao Maoying, Yu Jun, Bian Wei, et al. Adapting stochastic block models to power-law degree distributions[J]. IEEE Trans on Cybernetics, 2019,49(2): 626-637.
[22]Chen Kehui, Lei Jing. Network cross-validation for determining the number of communities in network data[J]. Journal of the American Statistical Association, 2018,113(521): 241-251.
[23]Clauset A, Newman M E J, Moore C. Finding community structure in very large networks[J]. Physical Review E, 2004,70(6): 066111.
[24]Monroy D L, Naumis G G. Description of mesoscale pattern formation in shallow convective cloud fields by using time-dependent Ginzburg-Landau and Swift-Hohenberg stochastic equations[J]. Physical Review E, 2021,103(3): 032312.
[25]Ko?a C, Dogerlioglu D K. The 1 in 1,000,000: context effects of how numbers cue different kinds of incidental environmental anchoring in marketing communications[J]. Journal of Business Research, 2020,109: 536-544.
[26]Newman M E, Leicht E A. Mixture models and exploratory analysis in networks[J]. Proceedings of the National Academy of Scie-nces, 2007,104(23): 9564-9569.