基于图嵌入和多标签传播的重叠社区检测算法

2024-06-01 16:06:05高兵宋敏邹启杰秦静
计算机应用研究 2024年5期

高兵 宋敏 邹启杰 秦静

摘 要:为进一步优化重叠社区检测算法,提出了一种新的基于度和节点聚类系数的节点重要性定义,按照节点重要性降序更新节点,固定节点更新策略,提高社区检测的稳定性。在此基础上,提出了一种基于图嵌入和多标签传播的重叠社区检测算法(overlapping community detection based on graph embedding and multi-label propagation algorithm,OCD-GEMPA)。该算法结合node2vec模型对节点进行低维向量表示,构建节点之间的权重值矩阵,根据权重值计算标签归属系数,据此选择标签,避免了随机选择问题。在真实数据集和人工合成数据集上对该算法进行实验验证。实验结果表明,与其他重叠社区检测算法相比,OCD-GEMPA在EQ和NMI这两个指标都有明显提升,具有更好的准确性和稳定性。

关键词:多标签传播;图嵌入;重叠社区检测;节点重要性;节点更新策略

中图分类号:TP391   文献标志码:A    文章编号:1001-3695(2024)05-021-1428-06

doi: 10.19734/j.issn.1001-3695.2023.09.0423

Overlapping community detection based on graph embedding and multi-label propagation algorithm

Abstract:In order to further optimize the overlapping community detection algorithm, this paper proposed a new definition of node importance based on degree and node clustering coefficient, and the nodes were updated in descending order of node importance, and the node update strategy was fixed to improve the stability of community detection. On this basis, this paper proposed an OCD-GEMPA. The algorithm combined the node2vec model to represent the nodes in a low-dimensional vector, constructed a matrix of weight values between nodes, calculated the label attribution coefficient according to the weight values, and selected labels accordingly, avoiding the problem of random selection. Experimental verification of the algorithm on real data sets and synthetic data sets shows that compared to other overlapping community detection algorithms, the OCD-GEMPA algorithm has significant improvements in both EQ and NMI indicators, with better accuracy and stability.

Key words:multi-label propagation; graph embedding; overlapping community detection; node importance; node update strategy

0 引言

现实生活中,各类网络随处可见,例如社交网络、道路交通网络、文献引用网络,以及生物蛋白质网络[1]等。这些大规模的复杂网络有着巨大的潜在价值信息。社区结构[2]作为复杂网络的重要特征,通常表现为社区内部节点聚集,社区间节点分散的特点。然而在真实世界中,社区结构呈现出一定的重叠性,即某些节点可能同时属于多个社区。挖掘重叠社区结构对于理解网络中的多重归属性、揭示隐藏的关系、精细化社区划分以及实现个性化推荐和定制服务具有重要的意义。

近年来,重叠社区检测[3]的研究已经取得了重大进展,涌现了各种算法。其中具有代表性的算法包括基于局部扩展优化的算法[4]、基于派系过滤的算法[5]和基于链接划分的算法[6]等。上述算法对于挖掘网络社区结构有一定效果,但其运算优化能力较弱,针对大规模网络的社区划分问题较为乏力。相比之下,标签传播算法的思想简单易于实现,无须优化预定义的目标函数和社区的先验信息就能够以接近线性的时间复杂度挖掘出复杂网络中的社区结构。Gregory[7]提出的COPRA就是标签传播算法中的典型代表。COPRA是标签传播算法LPA[8]的扩展版,其最大的优势在于采用多标签策略从而可以挖掘网络中的重叠社区结构,但仍未解决标签传播算法的节点执行顺序所带来的不稳定性问题。在执行COPRA算法时,每次的社区划分结果相差较大,划分质量高低不均,算法的稳定性较差。另外,基于COPRA执行过程的分析可知,因为COPRA无差别对待节点,所以标签传播过程中存在标签随机选择的问题,从而使得算法准确度不高。

针对COPRA存在的不足,很多学者对其做了改进。Lu等人[9]提出了一种改进的重叠社区检测算法LPANNI,引入了邻居节点影响指标NMI,在更新节点标签时计算不同邻居节点的NMI值,以更好地衡量不同节点的重要程度,解决了无差别对待节点的问题。将NMI值作为标签选择的依据,极大地避免了节点标签的随机选择。为了进一步提高社区发现的准确率,刘继等人[10]提出了一种基于圈结构的LPANNI优化算法,该算法采用了一种新的指标(圈比)来衡量节点重要性,并按照节点重要性固定节点序列,进一步增加标签传播过程的稳定性。但是以上两种改进算法在计算邻居节点影响力的时候仅考虑了节点的局部拓扑结構,忽略了不相邻的节点之间也存在着一定的关联。

为了更好地利用网络的全局拓扑结构,已有许多学者将图嵌入[11]应用到复杂网络社区发现问题上,其中最常见的就是图嵌入与传统聚类算法的融合。Yang等人[12]提出了一种基于节点相似性和网络嵌入的复杂网络社区发现算法。该算法结合node2vec[13]获取节点间的相似性值,并据此建立偏好网络,完成初始社划分。然后按照度量指标筛选出中心节点,利用K-means完成最终的社区划分。Hu等人[14]提出了一种结合node2vec和谱聚类的社区发现算法。该算法首先利用node2vec获取节点的嵌入向量,然后利用这些向量构建谱聚类算法的相似性矩阵,以对数据点进行聚类操作,从而得到社区划分的结果。图嵌入可以更好地利用网络中的全局结构信息,为下游任务提供良好的基础,但是传统聚类只能用于非重叠社区结构的检测。因此,需要进一步研究和开发适用于重叠社区检测的图嵌入社区发现算法。

目前,研究人员提出了许多基于节点相似性和节点重要性的社区检测算法,旨在能够进一步提高算法的准确性和稳定性。文献[9]提出标签传播算法引入了节点重要性NI和基于Jaccard改进的相似性度量sim。但是,该算法在相似性度量上需要使用路径长度阈值α以控制计算复杂度,且sim并未充分利用网络中的全局拓扑结构信息。文献[12]将图嵌入引入到社区检测领域,提出了无参数社区划分算法,解决了文献[9]超参数设置问题,同时也提高了节点相似性的准确度。但是,图嵌入与传统聚类的结合却不能挖掘出更复杂的重叠社区结构。

综上所述,基于标签传播的改进算法并没有兼顾稳定性和全局拓扑结构的综合考量。本文提出的基于图嵌入模型的标签传播改进算法,结合了改进的节点重要性排序方法以及更高阶的相似性度量,以进一步提高社区划分的准确性和稳定性。

本文贡献主要包括以下几个方面:

a)提出了一种新的节点重要性定义,通过综合考虑节点度和邻居节点间关联程度这两个因素,可以更全面地评估节点的重要性;

b)设计了一种带权重的社区归属系数公式,相对于传统的随机选择方法,降低节点标签的随机选择性,从而更准确地捕捉节点的归属关系;

c)提出了一种基于图嵌入和多标签选择的重叠社区检测算法OCD-GEMPA,与传统重叠社区检测算法相比,算法的准确度得到了显著提升。

1 基本概念

G=(V,E)表示无向无权图,其中V={v1,v2,…,vn}表示图的顶点集合,E={e1,e2,…,en}表示图的边集合,n和m分别表示图中节点和边的数量。

定义1 重叠社区。网络中的重叠社区集合C定义为

其中:n′表示重叠社区数量;C中的元素表示为一个重叠社区,重叠社区之间可能包含多个相同的节点。

定义2 图嵌入。图嵌入是一种将图形数据映射到低维向量空间的技术,能够将复杂的图结构转换为连续的向量表示,从而便于进行机器学习和数据分析任务。具体过程如图1所示。

2 OCD-GEMPA算法的设计与实现

本文提出了基于图嵌入和多标签传播的重叠社区检测算法(overlapping community detection based on graph embedding and multi-label propagation algorithm,OCD-GEMPA),如图2所示,该算法的核心部分主要包括节点更新顺序和标签更新策略两个方面。下面从这两个方面阐述算法的思想以及具体的实现过程。

2.1 节点更新顺序

目前存在的一些多标签传播算法在初始化阶段平等看待每个节点,并按照随机顺序对节点进行更新,这使得算法极具不稳定性。对节点进行重要性评估,并将其作为节点更新的依据,能够极大地降低标签传播过程中所发生的不确定性。在OCD-GEMPA中,根据节点重要性值的大小对节点更新序列进行降序排列。节点重要性越大,节点成为潜在社区中心的可能性越大。重要性大的节点先更新在一定程度上能够加快算法的收敛速度。

针对于节点的重要性评估问题,目前存在着许多衡量方法。其中,最为常用的方法主要包括度中心性、k-shell算法以及PageRank算法等。但是以上算法在评估节点重要性时,仅考虑节点本身的重要程度,却忽略了其邻居节点之间的紧密程度。节点本身的连接数量固为重要,但是邻居节点之间的链接紧密度不容忽视,因为它衡量了整体的链接关系,能够更加准确地评估一个节点的重要程度。

基于以上分析,在描述节点重要性方面,综合考虑了节点的度和局部聚类系数,提出了一种新的基于度和节点聚类系数的节点重要性定义,不但考虑了节点本身的连接数,还考虑了节点的邻居之间的连接紧密度。节点i的重要性NI(i)定义为

其中:ki表示与节点i存在链接关系的节点数量;CC(i)表示节点i的局部聚类系数;Ri表示与节点i存在链接关系的邻居节点之间的链接数量(可借助经过i的三角形数得到)。

以图3的无向无权图为例,计算节点3的重要性NI(3)的值。其中k3=3,R3=5(虚线部分表示通过节点3的三角形个数), CC(3)=1.67,那么NI(3)=3×(1+1.67)=8.01,同理,节点5的NI值为4×(1+0.1.33)=9.32,通过计算可知节点5的重要性大于节点3。

2.2 标签更新策略

根据文献[8]提出的多标签传播策略,算法能够检测到网络中的重叠社区结构,其中每个节点可以拥有多个社区标签,即节点可被划分到多个社区。然而在算法中,当节点接收到来自邻居节点的标签并去除掉无效标签的时候,会存在以下两种随机选择的情况:

a)当待选择的邻居节点标签具有同样的归属系数值时,节点就会随机选择其中一个;

b)如果所有标签的歸属系数都小于阈值也会随机选择其中一个。

为了尽可能避免这种随机选择的情况,算法采用图嵌入模型node2vec对节点进行低维向量表示,然后构建节点间相似性矩阵,并将其作为归属系数权重,使得节点更偏重选择跟它最具相似性的节点标签。

目前存在许多关于节点相似性的计算方法,比如Jaccard相似性、Dice相似度、katz指标等,但是它们都有一定的局限性。例如,Jaccard没有充分利用网络拓扑结构信息,仅考虑节点一阶邻居共同数量,Katz指标权重衰减因子的最优值只能通过大量的实验验证获得等。

图嵌入是一种深度学习方法,它将复杂的图数据映射为低维稠密的向量,相较于其他相似性度量,向量空间有更丰富的方法工具集。目前,基于图嵌入的标签传播算法较少,大都是基于图嵌入做传统聚类(K-means)的非重叠社区发现算法,将图嵌入结合到标签传播算法中,不仅能够极大程度地保留网络的拓扑结构信息,获取更高阶的相似性度量,提高算法的准确度,同时还能够检测出网络中的重叠社区结构,更加符合真实的结构划分。

在OCD-GEMPA算法中使用node2vec模型进行网络表示学习。不同于基于DFS邻域的DeepWalk[15]和基于BFS邻域的LINE[16],node2vec是一种综合考虑DFS邻域和BFS邻域的图嵌入方法,可以看作是DeepWalk的一种扩展。它采用了有偏的随机游走算法并结合 skip-gram 算法学习图嵌入,通过参数设置来控制搜索策略,从而有效地平衡了 embedding 的同质性和结构有效性。 相比于DeepWalk,node2vec优化了采样方式与序列生成方式,提高效率的同时也提升了效果。

以图4(a)为例,采用node2vec模型学习网络拓扑结构,获取节点的低维向量表示。通过对节点做embedding,节点之间的相似度就转换成了向量之间的相似度。采用余弦相似度去衡量两个向量之间的相似性,即为两个向量的点积除以两个向量大小的乘积,具体公式如下:

其中:A、B表示两个向量,Ai表示向量A的第i个元素。

基于以上方法获得图2的节点相似性矩阵W如式(5)所示,其中行列表示節点ID。

为了避免标签过多从而造成传播过程的复杂性,本文算法采用主导标签策略,只传播社区归属系数最大的主导标签,为保证主导标签的唯一性,当出现多个时随机选择一个,节点u的主导标签具体表示如下:

当节点u更新其标签时,它从其邻居节点接收多个主标签,并形成标签集如下所示。

LND={l(Dl1,b1),l(Dl2,b2),…,l(Dlv,bv)}(7)

其中:v∈N(u),N(u)表示节点u的邻居节点集合;bv表示节点v对社区Dlv的社区归属系数。

构建的节点相似性矩阵作为社区归属系数的权重值。从上述构建的矩阵可以看出,节点间的相似值均不相同,从而极大地避免归属系数相同而导致的节点随机选择标签的现象,其中带权重的新归属系数计算如下:

2.3 算法设计

2.3.1 算法步骤描述

首先,根据本文提出的基于度和节点聚类系数的节点重要性定义,计算所有节点的节点重要性值,并将它们降序排列,以确定节点更新的顺序;然后,初始化节点的标签,将其默认设置为主导标签;接下来,使用带权重的社区归属系数来更新节点的标签,将具有较大归属系数的标签设置为节点的主导标签;选择相邻节点的主导标签,并过滤掉具有较小社区归属系数的无效标签,从而形成节点的主导标签集合;最后,当节点的主导标签集合不再发生变化或达到最大迭代次数T时,算法停止,从而得到最终的重叠社区结构。

算法1 OCD-GEMPA

2.3.2 节点更新与标签传播示例

图4介绍了OCD-GEMPA算法的节点更新和标签传播过程,对节点NI值进行降序排序从而获得的节点更新顺序为1→5→9→2→4→6→8→3→7。

以图4(a)为给定的简单无向无权图为例,首先,初始化节点标签为每个节点对应的ID并将所有节点的归属系数设置为1,如图4(b)所示。按照节点更新顺序进行节点标签传播,以节点1为例,其相邻节点2,4,5,6,8,9的标签为(2,1)(4,1)(5,1)(6,1)(8,1)(9,1),然后根据给定的带权重的归属计算公式计算出标签的新归属系数值,从而得到新的节点标签集合{(2,0.160),(4,0.165),(5,0.178),(6,0.169), (8,0.167),(9,0.170)},按照标签长度的倒数去掉无效标签,即去掉(2,0.160)(4,0.165)这两个标签,最后对剩下的标签进行标准化处理从而得到节点1最终的标签集合为{(5,0.249),(6,0.251),(8,0.247),(9,0.253)},主导标签为(9,0.253),其余节点标签传播过程与节点1相同,得到的最终节点标签集结果如图4(c)所示。经过两次迭代,每个节点的标签集合不再发生变化,算法结束,整个网络划分成两个社区,其中节点1为重叠节点,划分结果如图4(d)所示。

2.4 时间复杂度分析

假设n代表网络中节点的个数,m代表边的个数,k代表网络节点的平均度数,T代表最大迭代次数。在固定节点更新顺序阶段,节点重要性计算的时间复杂度是O(kn+nk2),节点重要性排序采用基数排序算法,时间复杂度是O(n),那么在固定节点更新顺序阶段的总时间复杂度为O(kn+nk2)。在标签传播阶段,生成节点相似性矩阵的时间复杂度是O(n2),标签传播的时间复杂度取决于算法的迭代次数,对于第一次迭代,它的时间复杂度是O(kn),则第一次迭代的总时间复杂度为O(n2+kn),那么标签传播阶段的总时间复杂度是O(T(kn+n2)。

3 实验分析

本文使用了7个不同规模的真实数据集和4个人工合成数据集对OCD-GEMPA算法进行了实验。所有实验都在一台搭载3.20 GHz的AMD Ryzen 7 5800H处理器和16 GB内存的笔记本电脑上进行。实验代码均采用Python 3.8编写。

3.1 真实数据集和人工数据集

3.1.1 真实数据集

表1详细列出了实验所需的7个真实网络数据集,n表示网络的节点个数,m表示网络中边的数量,k表示网络中的平均度数。

3.1.2 人工数据集

LFR benchmark基准程序是近年来较为广泛使用的人工基准网络程序,因为其生成的网络可以很好地表示出节点度和社区规模分布的异质性,通过调节参数来生成不同网络,主要参数说明如表2所示。

本实验使用LFR基准程序生成了四组网络,为了更好地验证算法的准确性,每一组都会设置一个可变参数,以LFR1为例,u设置为0.1~0.5,其他参数保持不变,详细的参数设置如表3所示。

3.2 对比算法介绍及参数设置

为了能够更好地验证OCD-GEMPA的性能,将其与DEMON[17]、LFM_EX[18]、SLPA[19]、COPRA四种重叠社区检测基线算法进行对比实验,下面是算法介绍以及参数设置。

a)LFM_EX:一种基于适应度函数和社区相似性的改进LFM算法,解决了LFM算法由于其回溯步驟所产生的不归属任何一个社区的离散节点问题。

b)DEMON:一种以局部优先的方法发现分层和重叠社区的算法。

c)SLPA:基于说话人-听众规则的标签传播重叠社区检测算法。

d)COPRA:基于标签传播的重叠社区检测算法,RAK的改进算法。

本文对比算法的参数设置如下:COPRA算法中v的范围为3~8;对于SLPA算法,在合成网络中,标记概率阈值r从0.01~0.1变化,间隔为0.01,而在真实网络中,r从0.05~0.5变化。

3.3 评价指标

3.3.1 模块度EQ

模块度EQ[20]用于评价社区划分结果的优劣。模块度值越接近1,则表示社区划分的质量越高;反之模块度越小,表明社区划分结果较差。模块度的定义如下:

其中:m为网络中边的总数;c为划分得到的社区的数目;Oi为节点i所属的社区个数;ki为节点i的度;Aij用于判断节点i和j之间是否存在连接,若存在连接则Aij为1,否则为0。

3.3.2 标准化互信息NMI

标准化互信息(normalized mutual information,NMI)[21]是用于测量两种数据分布之间吻合程度的一种方法,可以作为网络社区划分结果的评价指标。其公式如下:

其中:CA为标准社区划分的结果;CB为算法所得到社区划分的结果;矩阵N的行对应标准社区结果,列对应算法得到的社区检测结果;Ni.为第i行的总和;N.j为第j列的总和。NMI值越大,说明算法划分社区的效果越好。

3.4 真实数据集上的实验结果

3.4.1 EQ

图5为OCD-GEMPA与其他四种基线算法在7个真实数据集上的实验结果。从图中可以看出,OCD-GEMPA除在netscience数据集上EQ值略低于SLPA之外,在其他真实数据集上的EQ值均高于另外四种基线算法。另外,与SLPA和COPRA这两种多标签传播算法相比较,OCD-GEMPA总体上表现更好,这说明引入图嵌入模型计算节点相似度矩阵作为归属系数的权重值能够更好地指导标签选择,在一定程度上提高了算法的准确度。

3.4.2 稳定性分析

为了验证算法的稳定性,将OCD-GEMPA算法与COPRA、SLPA这两个经典的标签传播算法在六个真实数据集上进行20次模块度方差值的实验。表4列出了稳定性实验的结果,可以看出,节点之间的权重极大地降低了标签随机选择的可能性,算法的稳定性更好。

3.5 人工合成网络上的实验结果

3.5.1 混合参数mu变化对算法的影响

图6给出了随着混合参数mu的不断增加,各算法在LFR1网络上的EQ值和NMI值变化。mu值不断增加,社区相互混合,网络结构就会越复杂。以COPAR为例,在mu从0.3增加到0.4这个过程中,EQ和NMI两值的下降幅度最大。这是因为在社区结构相互混合的情况下,每个社区都受到邻居社区噪声的影响,那么在标签传播过程中邻居节点的选择就是关键,COPRA随机选择邻居节点,而OCD-GEMPA是根据节点权重值选择,所以从整体上看,OCD-GEMPA的下降趋势较小,整体性能相对较好。

3.5.2 重叠节点参数on变化对算法的影响

图7展示的是在重叠节点参数on的不断增加的情况下,各算法在LFR2上的EQ值和NMI值变化。重叠节点的增加也就意味着社区之间的重合越多,网络结构越复杂。由图7(a)知,on与EQ值呈负相关。从整体上看,OCD-GEMPA无论是EQ还是NMI值均优于其他算法,变化幅度最小。这是因为图嵌入学习网络拓扑,通过考虑高阶临近度获取节点之间更好的相似性,即便网络结构复杂,依旧可以选择当下最相似的邻居节点,为标签传播奠定良好的基础。

3.5.3 重叠节点的社团隶属数om变化对算法的影响

如图8(a)所示,随着om值的增加,各算法在LFR3数据集上的EQ值呈现下降趋势。COPRA整体波动较大,这是因为算法在执行过程中存在邻居节点随机选择的问题,使得准确度较低,稳定性较差。OCD-GEMPA采用节点相似性矩阵作为标签归属系数的权重极大地避免了邻居随机选择,在准确度和稳定度上都有了很大提高。整体表现优于其他四类基线算法。

3.5.4 节点数量n变化对算法的影响

图9展示的是随着网络规模的不断扩大,各算法在LFR4数据集上的具体表现。很明显,COPRA、SLPA和OCD-GEMPA整体波动性较小且EQ值和NMI值较高,说明标签传播算法在大规模网络重叠社区发现问题上也具有良好的性能。而局部扩展优化算法LFM_EX的EQ值和NMI值呈现下降趋势,这说明该算法不适合大规模网络的社区检测。从整体看,OCD-GEMPA在网络节点n不断增加的情况下依然能够很好地检测重叠社区,主要原因是固定的节点更新顺序和节点依据权重值选择邻居标签这两方面使算法的准确度和稳定性都得到了很大的提高。

表5列出了节点数量由1 000~10 000组成的不同人工网络上各算法划分的重叠社区数量对比情况,true表示真实划分结果。从表5可以清楚地看出,随着网络规模的不断扩大,OCD-GEMPA仍能够正确地划分社区。

4 结束语

本文提出了一种基于图嵌入和多标签传播的重叠社区检测算法OCD-GEMPA。该算法采用固定节点更新策略,提出了一种新的度量节点重要性的衡量方法和带权重的社区归属系数公式,极大地避免了节点随机选择,提高了算法的准确度。节点属性对于节点的相似性度量也有着很重要的参考价值,下一步将继续研究带有节点属性的重叠社区发现问题。

参考文献:

[1]Li Meizi,Lu Shuyi,Zhang Lele,et al. A community detection method for social network based on community embedding [J]. IEEE Trans on Computational Social Systems,2021,8(2): 308-318.

[2]Acman M,Van Dorp L,Santini J M,et al. Large-scale network analysis captures biological features of bacterial plasmids [J]. Nature Communications,2020,11(1): 2452.

[3]Gao Yang,Yu Xiangzhan,Zhang Hongli. Overlapping community detection by constrained personalized PageRank [J]. Expert Systems with Applications,2021,173: 114682.

[4]郭娜,鄭晓艳. 基于最大生成树的重叠社区发现算法 [J]. 计算机应用研究,2020,37(S2): 170-172,180. (Guo Na,Zheng Xiao-yan. Overlapping community discovery algorithm based on maximum spanning tree [J]. Application Research of Computers,2020,37(S2): 170-172,180.)

[5]Gupta S K,Singh D P,Choudhary J. A review of clique-based overlapping community detection algorithms [J]. Knowledge and Information Systems,2022,64(8): 2023-2058.

[6]Gabardo A C,Berretta R,Moscato P. M-link: a link clustering memetic algorithm for overlapping community detection [J]. Memetic Computing,2020,12: 87-99.

[7]Gregory S. Finding overlapping communities in networks by label pro-pagation [J]. New Journal of Physics,2010,12(10):103018.

[8]Li Chunying,Tang Yong,Tang Zhikang,et al. Motif-based embedding label propagation algorithm for community detection [J]. International Journal of Intelligent Systems,2022,37(3): 1880-1902.

[9]Lu Meilian,Zhang Zhenglin,Qu Zhihe,et al. LPANNI: overlapping community detection using label propagation in large-scale complex networks [J]. IEEE Trans on Knowledge and Data Enginee-ring,2018,31(9): 1736-1749.

[10]刘继,贾芳弟. 基于圈结构的 LPANNI 优化算法 [J]. 计算机应用研究,2022,39(9):2717-2722,2744. (Liu Ji,Jia Fangdi. LPANNI optimization algorithm based on circle structure [J]. Application Research of Computers,2022,39(9):2717-2722,2744.)

[11]Wang Xiao,Bo Deyu,Shi Chuan,et al. A survey on heterogeneous graph embedding: methods,techniques,applications and sources [EB/OL]. (2022). https://arxiv.org/abs/2011.14867.

[12]Yang Xuhua,Wang Lei,Ye Lei,et al. Complex network community detection algorithm based on node similarity and network embedding [J]. Computer Science,2022,49(3): 121-128.

[13]Grover A,Leskovec J. node2vec: scalable feature learning for networks [C]// Proc of the 22nd ACM SIGKDD International Confe-rence on Knowledge Discovery and Data Mining.New York:ACM Press,2016: 855-864.

[14]Hu Fang,Liu Jia,Li Liuhuan,et al. Community detection in complex networks using node2vec with spectral clustering [J]. Physica A: Statistical Mechanics and its Applications,2020,545: 123633.

[15]Berahmand K,Nasiri E,Rostami M,et al. A modified DeepWalk method for link prediction in attributed social network [J]. Computing,2021,103: 2227-2249.

[16]Zhang Zhengyan,Yang Cheng,Liu Zhiyuan,et al. Cosine: compressive network embedding on large-scale information networks [J]. IEEE Trans on Knowledge and Data Engineering,2020,34(8): 3655-3668.

[17]Coscia M,Rossetti G,Giannotti F,et al. DEMON: a local-first disco-very method for overlapping communities [C]// Proc of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2012: 615-623.

[18]Zhang Lingxiao,Yan Xuefeng. An improved LFM algorithm based on fitness function and community similarity [C]//Proc of IEEE International Conference on Parallel & Distributed Processing with Applications,Big Data & Cloud Computing,Sustainable Computing & Communications,Social Computing & Networking. Piscataway,NJ:IEEE Press,2019: 9-15.

[19]Xie Jierui,Szymanski B K,Liu Xiaoming. SLPA: uncovering overlapping communities in social networks via a speaker-listener interaction dynamic process [C]// Proc of the 11th IEEE International Confe-rence on Data Mining Workshops. Piscataway,NJ:IEEE Press,2011: 344-349.

[20]Chattopadhyay S,Basu T,Das A K,et al. A similarity based genera-lized modularity measure towards effective community discovery in complex networks [J]. Physica A: Statistical Mechanics and Its Applications,2019,527: 121338.

[21]Hesamipour S,Balafar M A. A new method for detecting communities and their centers using the Adamic/Adar Index and game theory [J]. Physica A: Statistical Mechanics and Its Applications,2019,535: 122354.