摘 要:蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based discrete level firefly algorithm for detecting protein complexes,RLDLFA-DPC)。引入强化学习思想提出一种自适应层级划分策略,动态调整层级结构,能有效解决迭代后期种群多样性下降的问题。在层级学习策略中个体向两个优秀层级学习,避免算法陷入局部最优。为了提高蛋白质复合物检测的精度,结合个体环境信息提出自适应搜索半径的局部搜索策略。最后,在酵母蛋白质的4个数据集上,与8种经典的蛋白质复合物检测方法进行对比,验证了该方法的有效性。
关键词:蛋白质复合物; 萤火虫算法; 强化学习; 层级学习策略; 局部搜索策略
中图分类号:TP301 文献标志码:A 文章编号:1001-3695(2024)07-008-1977-06
doi:10.19734/j.issn.1001-3695.2023.11.0549
Reinforcement learning-based discrete level firefly algorithm fordetecting protein complexes
Abstract:Protein complexes play a crucial role in understanding life’s molecular activity process. Aiming at the problems of high false-positive/negative rate, low accuracy, and decrease in population diversity when detecting protein complexes by swarm intelligence algorithms, this paper proposed the RLDLFA-DPC. It introduced the idea of reinforcement learning to offer an adaptive level partition strategy that dynamically adjusted the level structure, solving the issue of declining population diversity in the late iteration. The algorithm also incorporated a level learning strategy where individuals learn from two excellent levels to avoid falling into a local optimum. Additionally, it utilized a local search strategy with an adaptive search radius in combination with individual and environmental information to improve the accuracy of protein complex detection. Finally, the effectiveness of the algorithm was verified by comparing it with eight classical protein complex detection methods on four datasets of saccharomyces cerevisiae proteins.
Key words:protein complex; firefly algorithm; reinforcement learning; level learning strategy; local search strategy
0 引言
蛋白质复合物是由多个蛋白质相互作用形成的大分子结构,参与了细胞的各种生物学过程,如信号传导、代谢调控和基因表达等,在细胞内发挥着重要作用[1]。因此,准确地检测蛋白质复合物对理解细胞内的生物学过程以及相关疾病的研究至关重要[2]。在过去的几十年里,研究者们提出了各种各样的计算方法检测蛋白质复合物[3~5],然而,受蛋白质相互作用数据复杂性和噪声的影响,它们在复杂生物系统中的应用受到了限制。
为了克服这些挑战,研究人员利用群智能优化算法的高度自适应性和良好的优化能力,解决蛋白质复合物检测问题。2019年,Lei等人[6]提出基于飞蛾扑火优化算法的蛋白质复合物检测,利用逐层思想找到蛋白质复合物的核心作为火焰,让飞蛾在火焰周围螺旋飞行,形成复合物。同年,基于花授粉机制的蛋白质复合物检测算法[7]被提出,通过模拟寻找最佳授粉植物花粉的过程,利用改进花授粉算法将外围蛋白质附着在相应的核心上,生成蛋白质复合物。2022年,Wang等人[8]提出了通过自适应和声搜索算法检测具有多重属性的蛋白质复合物检测方法,利用马尔可夫聚类算法挖掘蛋白质复合物的核心,设计蛋白质复合物形成策略来检测附件蛋白质,并开发了一种自适应和声搜索算法来优化算法的参数。
在众多的群智能优化算法中,萤火虫算法结构简单、易于实现,自提出以来得到国内外学者的广泛关注[9]。2016年,Lei等人[10]提出了一种新的基于萤火虫算法的马尔可夫聚类方法,用于从蛋白质相互作用网络中检测蛋白质复合物。2018年,Jenghara等人[11]将动态蛋白质相互作用网络构造问题转换为优化问题,通过标准复合物和基因共表达的组合定义萤火虫算法中的吸引力函数,从而实现了蛋白质相互作用网络的构造。同年,Zhang等人[12]提出了一种基于萤火虫算法的蛋白质复合物挖掘新方法,定义了一种新的目标函数来寻找高内聚、低耦合的簇,最后对比了不同的蛋白质聚类方法。
虽然萤火虫算法在蛋白质复合物的检测过程中已经取得了重大进展,但是在这些检测方法中,算法自身仍然存在缺陷,在检测精度方面还有一定的提升空间。因此,提出了一种基于强化学习的离散层级萤火虫算法,旨在解决萤火虫算法多样性不足,易陷入局部最优、收敛性能不高,蛋白质复合物检测准确性低的问题。本文从以下三个方面进行改进:a)强化学习思想控制层级数,允许将种群划分为多个层级,强化学习算法能够根据问题的复杂性和种群的性能动态地选择最佳的层级数,通过奖励和惩罚机制引导个体的行为,以便更好地探索搜索空间;b)层级学习策略通过向两个更优秀的层级移动,实现了跨层级的交流,增加了搜索空间的多样性,避免算法过早陷入局部最优解;c)在层级内引入局部搜索策略,以便个体在同一层级内能够更好地合作和学习,有助于改善算法的性能、加速收敛速度、提高算法的鲁棒性。
1 基础知识介绍
1.1 萤火虫算法
萤火虫算法(firefly algorithm,FA)是一种模拟自然界中萤火虫发光机制的随机优化算法[13]。为了构建FA的数学模型,使用了以下三个理想化准则:a)算法中的所有萤火虫不区分性别;b)萤火虫之间的吸引力和亮度成正比;c)萤火虫的亮度与目标函数成正比。
定义1 吸引力。萤火虫j对i的吸引力定义为
其中:β0为最大吸引力,即在光源处(r=0)萤火虫的吸引力;γ为光吸收系数;rij为萤火虫i到j的笛卡尔距离:
定义2 位置更新。由于萤火虫i被j吸引,萤火虫i向其移动并更新自己的位置,更新公式为
其中:t是算法的迭代次数;为随机项系数;εi是由高斯分布、均匀分布得到的随机数。
1.2 强化学习
强化学习(reinforcement learning,RL)是一种强大的机器学习方法[14,15],其核心思想在于智能体(agent)通过与环境(environment)的互动,逐渐学会在各种情境下作出决策,以最大化累积的奖励达成特定目标。不同于传统的监督学习,强化学习无须依赖事先标记好的训练数据,而是通过实验不同的行为路径来探索并学习最优策略。这使得强化学习在许多实际问题中具有很高的适用性,尤其是在涉及复杂决策和不确定性的问题。由于强化学习可以通过学习策略实现自适应调整,研究者们将强化学习与进化算法(evolutionary algorithm,EA)结合起来,使用RL处理棘手的策略选择或参数设置问题[16~18]。尽管EA与RL的结合在优化问题中已经取得了显著的成果,但在FA的应用中仍然有待深入研究。萤火虫算法通常用于解决复杂的连续优化问题,目标是寻找参数或变量的最优组合。强化学习的一个优势是可以处理离散决策问题,这些问题通常涉及到更复杂的状态空间和动作空间。将强化学习与萤火虫算法结合,可以扩展其适用范围,使其更适合解决不同类型的问题。
2 基于强化学习的离散层级萤火虫算法
蛋白质复合物检测是生物信息学领域的一个重要问题,旨在检测生物系统中相互作用的蛋白质复合物。通常情况下,每个蛋白质由多个特征(如结构特征、功能特征等)表示,这样会导致计算复杂度大大增加,容易出现维数灾难问题。随着维度的增加,搜索空间的大小以指数方式扩展和复杂化,巨大的搜索空间要求较高的搜索效率,使得标准萤火虫算法很难在合理的时间内找到最优解。因此,为了更有效地检测蛋白质复合物,提出了基于强化的离散层级萤火虫算法。
2.1 编码方式
蛋白质复合物是由n个蛋白质构成的集合,每个蛋白质都有唯一的索引,编码方式使用n维的二进制向量来表示每个萤火虫的位置。对于每个萤火虫,向量的第i个元素为1,则表示第i个蛋白质是该复合物的一部分;否则,该元素为0。假设有五个蛋白质节点(P1,P2,P3,P4,P5),一个可能的编码是“11001”,表示P1、P2和P5在复合物中,而P3和P4不在复合物中。
2.2 层级划分
如果萤火虫都被亮度最高的萤火虫吸引,会导致种群的多样性不足。为了解决上述问题,按照适应度值将萤火虫种群分层。通常认为,适应度越好的个体,越有可能开发有希望的区域;较差适应度的个体具有更好的探索能力。这样的分层结构可以使FA更好地平衡搜索的全局性和局部性,从而提高搜索效率和解的质量,增加种群的多样性。
假设种群规模为N,按照适应度值将种群平均划分为L个层级。其中,L1是最高的层级。每个层级的个体数为M=N/L,最后一个层级的个体数为N/L+N%L。
2.3 强化学习思想控制层级数
为了保持种群的多样性,RLDLFA-DPC采用基于层级的种群结构。强化学习算法能够根据问题的复杂性和种群的性能动态地选择最佳的层级数,通过奖励和惩罚机制引导个体的行为,以便更好地探索搜索空间。因此,RLDLFA-DPC采用强化学习思想控制种群的层级数。
每一次迭代结束后,层级数都会被更新。设置奖励表和Q-table,定义状态和动作为层级数。奖励表初始值为0,Q-table初始值设置为随机值。奖励表通过适应度值更新,Q-table通过奖惩机制更新。在优化期间,当随机数大于探索因子,即rand>ε时,根据Q-table中的Q值选择具有最高预期奖励的动作,以利用已有的知识;反之,以一定的探索概率随机选择动作,以探索新的层级数。具体公式如下:
其中:arandom是种群在当前状态中可以采取的任何动作;Argmax[·]表示具有最高Q值的动作;Lnum是层级数,为了保持学习策略的有效性,划分的层级至少为3。
在受到奖励后,为了保持动作选择策略的有效性,强化学习策略将通过以下规则更新其Q值:
Q(s,a)=Q(s,a)+α·(r+γ·maxQ(snext,anext)-Q(s,a))(6)
其中:Q(s,a)为当前状态s采取动作a后的Q值;snext、anext为下一状态和下一动作,r为采取当前动作后的奖励值,如果新的适应度值大于当前的适应度值,r=1,反之,r=-1;γ为折现因子;α为学习率。图1是奖励表和Q-table更新示例图,其中,行表示状态,列表示动作。当前种群划分的层级数为4,即L1、L2、L3、L4。α=0.1,γ=0.9。假设在状态L2执行动作L2,r=-1,Q(L2,L2)=0.4+0.1×(-1+0.9×max(-0.1,0.4,-0.2,0.3)-0.4)=0.296。
算法1 强化学习思想控制层级数
2.4 层级学习策略
在FA中,个体之间的移动是通过光强度吸引的方式实现的,即个体向光强度较高的个体移动,以实现全局搜索和优化。然而,如果整个种群中的个体都朝向光强度最高的个体移动,可能会导致算法陷入局部最优解。因此,引入层级学习策略,通过从随机选择的两个优秀层级中随机选择两个个体进行学习,引入了随机性和多样性,有助于防止所有个体都朝向相同的方向移动,增加了算法的多样性,从而避免算法过早陷入局部最优解。
在RLDLFA-DPC中,萤火虫的移动由两个动作决定:吸引力β和参数α。萤火虫Xi向萤火虫Xj和Xk移动的定义如式(7)所示。
2.5 局部搜索策略
层级学习策略是一种通过在不同层级的个体之间进行学习来提高算法性能的方法。虽然这种策略可以促进跨层级的信息交流,但忽略了层级内部的学习,从而限制了层级内部的搜索能力。为了克服上述缺陷,考虑在层级内引入局部搜索策略,以便个体在同一层级内能够更好地合作和学习。层级内引入局部搜索策略可以提供更多的搜索焦点,有助于改善算法的性能、加速收敛速度、提高算法的鲁棒性。
对于每个层级内的个体,引入局部搜索策略,以便更好地探索局部解空间。首先,为每个个体定义一个自适应的局部搜索半径,该半径决定了个体在局部搜索时应该关注的邻域范围,可以根据个体和环境的信息进行动态调整。以下是局部搜索半径的定义公式:
Ri=η·max(f)fi·‖Xg-Xi‖(11)
其中:Ri是个体i的局部搜索半径;fi是个体i的适应度值;max(f)是当前层级中适应度值的最大值;Xg是个体i当前位置Xi周围最优解的位置;η是一个控制参数,用于调整局部搜索半径的大小。
其中:Generation是当前迭代的代数;MaxGenerations是算法允许的最大代数。初始时,η较大,允许更广泛的搜索,随着代数的增加,η逐渐减小,从而限制局部搜索半径的范围,促使算法更加聚焦于局部搜索。这种动态调整η的方式可以使算法在早期探索解空间的广度,在后期更专注于深度搜索。
萤火虫个体i的位置为Xi,在局部搜索时,更新个体i的位置,使其朝向随机选择的个体j移动。位置更新公式如式(13)所示。
Xi=g(f(Xi,Xj,β),α)(13)
2.6 算法整体流程
综合以上对RLDLFA-DPC各阶段的讨论,下面将详细阐述整体运行流程。
a)初始化参数:种群规模为N,按照适应度值将种群平均划分为层级数为L,当前迭代次数t,最大迭代次数Tmax。
b)创建初始种群:根据初始化参数,随机生成初始种群,每个个体代表一个可能的蛋白质复合物结构。
c)计算适应度值:对于每个个体,利用F-measure评估函数计算其适应度值。
d)进行层级划分:使用强化学习思想动态地控制层级数,通过奖励和惩罚机制引导个体的行,选择最佳的层级数,通过式(5)更新层级数,通过式(6)更新Q-table。
e)层级学习策略:根据个体的适应度,向两个更优秀的层级学习。
f)层级内的局部搜索:在每个层级内,引入局部搜索策略,使用邻域搜索算法对每个个体进行局部优化。
g)更新萤火虫位置:根据层级学习策略位置更新式(7)和局部搜索策略位置更新式(13),更新个体的位置。
h)重复步骤c)~g),直到达到最大迭代次数。
i)输出最优解:在算法停止后,根据适应度值选择最优的蛋白质复合物解作为输出。
3 仿真实验及结果分析
3.1 复杂度分析
a)层级划分:这一步涉及将种群划分为L个层级,所以时间复杂度是O(L)。
b)奖励表和Q-table的更新:Q-Learning涉及奖励表和Q-table的更新,涉及状态和动作的组合,所以其更新的时间复杂度为O(L2)。
c)层级学习策略:在随机选择的层级中,随机选择两个个体进行学习,时间复杂度取决于随机选择的次数,通常可以看作是O(1)。
d)局部搜索策略:计算每个个体的局部搜索半径涉及到个体的位置信息和环境信息,计算位置信息的复杂度为O(1),计算环境信息的复杂度可以表示为 O(N)。
综合以上各步骤,整个算法的时间复杂度主要由Q-Learning更新部分和局部搜索策略部分决定,所以总体时间复杂度可以近似表示为O(L2)+O(N)。
3.2 参数设置
参数设置对算法性能起着至关重要的作用。根据RLDLFA-DPC的描述,算法中需要确定的关键参数为探索因子ε。在优化期间,当rand>ε时,根据Q-table中的Q值选择具有最高预期奖励的动作;反之,以一定的探索概率随机选择动作,以探索新的层级数。本研究使用Friedman检验来确定最优的探索因子,设置ε的取值为{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},选择四种不同类型的基准函数进行测试,通过这些函数测试不同ε下RLDLFA-DPC的收敛性能。如表1所示,均秩值越小,说明算法的整体优化性能越好。从实验结果可以看出,当ε=0.7时,函数的均秩最小,因此RLDLFA-DPC的探索因子ε设置为0.7。
3.3 策略有效性分析
RLDLFA-DPC采用层级划分、强化学习控制层级数、层级学习策略和局部搜索策略改善FA。为了研究每种策略的效果,使用四种不同类型的测试函数来测试当使用不同策略组合时,算法的优化结果。策略组合如表2所示。为了公平起见,五种方法中的参数都设置为相同值。
表3展示了使用不同策略组合算法的实验对比结果。最优结果用粗体表示。从表中可以看出,在相同的参数设置下, FA、FA_L、FA_RL、FA_RL_S、RLDLFA-DPC的性能越来越好,RLDLFA-DPC在所有测试函数的性能最优, FA_L、FA_RL和FA_RL_S的性能也都优于FA。这表明采用层级划分、强化学习思想控制层级、层级学习策略和局部搜索策略改善FA是有效的,也证明了RLDLFA-DPC方法的有效性。
为了直观地比较每个策略组合算法的性能,表4展示了不同策略组合算法的Friedman测试结果。可以看出,测试结果与上述分析一致,RLDLFA-DPC方法的性能最好。图3中给出了每种算法优化结果的收敛图。从图中可以看出,改进后的方法在收敛性上都优于FA,RLDLFA-DPC收敛性能最好。
3.4 实验数据和评价指标
本文将改进的基于强化学习的离散层级萤火虫算法应用到蛋白质复合物检测的过程中,采用酿酒酵母(saccharomyces cerevisiae)的数据集DIP[19]、Gavin[20]、Krogan[21]和MIPS[22]进行测试。采用的标准数据集是CYC2008[23],该数据集包含408个蛋白质复合物。
为了评估检测出的蛋白质复合物的性能,使用常见的三种统计评估方法,即准确率precision、查全率recall和调和平均值F-measure[24]。这些评价指标的取值都在[0.0,1.0],它们的值越高,说明检测方法的性能越好,也从侧面反映出该方法检测蛋白质复合物的性能更优异。这三个评价指标的计算公式为
其中:TP是指算法检测出来的蛋白质复合物和标准蛋白质复合物相匹配的个数;FP是指算法检测出来的蛋白质复合物和标准蛋白质复合物不匹配的个数;FN是标准蛋白质复合物中没有被检测出的蛋白质复合物个数;F-measure是precision和recall的调和平均值。
3.5 性能对比
为了测试RLDLFA-DPC方法的性能,采用10种经典的蛋白质复合物检测方法MCL[25]、MCODE[26]、ClusterONE[27]、CSO[28]、CORE[29]、COACH[30]、EWCA[31]、NLPGE-WPN[32]、MP-AHSA[8]和LCDA[33]在四个数据集上进行对比。同时为了更加清晰地对比蛋白质复合物的检测结果,表5对比RLDLFA-DPC与10种经典方法在四个数据集上的性能。表5中,RLDLFA-DPC方法和实验结果排名前三的上标处注明排名。实验结果显示,RLDLFA-DPC方法在MIPS数据集上的precision、recall和F-measure评价指标都优于其他蛋白质复合物检测方法。在Gavin和DIP数据集上precision、recall和F-measure都处于领先地位。在Krogan数据集上,precision的值虽然略微落后于其他方法,但是F-measure优于其他方法。综合分析,RLDLFA-DPC方法比其他蛋白质复合物检测方法更能有效地检测蛋白质复合物。
3.6 与已知蛋白质复合物比较
为了更好地展示算法性能的优劣,更加清楚地展示RLDLFA-DPC方法检测结果的准确性,对比分析CYC2008标准蛋白质复合物中第265个蛋白质复合物和RLDLFA-DPC与其他四种方法在Krogan数据集上的检测结果。该标准蛋白质复合物有YNL232W、YOL021C、YHR081W、YGR158C、YHR069C、YOL142W、YDL111C、YCR035C、YDR280W、YGR095C、YOR001W、YGR195W 12个蛋白质节点。
图4展示了已知蛋白质复合物、RLDLFA-DPC和其他四种方法的检测结果的可视化分析图。蓝色节点是正确检测的蛋白质,绿色节点是未检测出的蛋白质,粉色节点是错误检测出的蛋白质。如图4所示,CORE方法检测效率比较低,仅正确检测出2种标准蛋白质,MCODE和ClusterONE方法检测效率有所提升,分别正确检测出6种标准蛋白质和9种标准蛋白质,相较于前面几种方法,EWCA方法的检测结果更佳,正确检测出了11种标准蛋白质,但也错误地检测出了其他2种蛋白质。在RLDLFA-DPC方法的检测结果中,12种标准蛋白质全部被检测出来,并且没有错误地检测出其他的蛋白质。因此,RLDLFA-DPC方法在蛋白质复合物的检测过程中取得了最佳性能。
4 结束语
蛋白质复合物的检测在生物医学中具有重要的意义,RLDLFA_DPC方法能有效提高蛋白质复合物检测的效率和精度。该方法引入强化学习思想动态调整种群层级数量,能更好地增强种群多样性。在迭代过程中,层级学习策略促使个体向两个优秀层级学习,实现了跨层级学习,避免算法陷入局部最优解。通过个体和环境信息设置局部搜索半径,自适应半径的局部搜索策略可以对局部空间进行充分探索,实现同一层级个体的交流与协作,提高蛋白质复合物检测精度和收敛速度。实验结果表明,RLDLFA_DPC相较于传统方法,能够更有效地发现复合物结构,具有更高的检测准确性和更快的收敛性能。该方法还具有广泛的应用价值,未来的研究将进一步探索群体智能方法在不同领域的应用潜力,也可以结合机器学习和深度学习更有效地发现复合物结构。
参考文献:
[1]Javad Z, Abbasali E, Samaneh B, et al. Protein complex prediction: a survey[J]. Genomics, 2020,112(1): 174-183.
[2]王金雷, 丁学明, 秦琪琪, 等. 基于协同进化信息和深度学习的蛋白质功能预测[J]. 计算机应用研究, 2023,40(12): 3572-3577. (Wang Jinlei, Ding Xueming, Qin Qiqi, et al. Protein function prediction based on coevolutionary information and deep learning[J].Application Research of Computers, 2023,40(12): 3572-3577.)
[3]Chen Bo, Xie Ziwei, Qiu Jiezhong, et al. Improved the heterodimer protein complex prediction with protein language models[J/OL]. Briefings in Bioinformatics, 2023,24(4). https://doi.org/10.1093/bib/bbad221.
[4]Liu Guangming, Liu Bo, Aimin Li, et al. Identifying protein complexes with clear module structure using pairwise constraints in protein interaction networks[J]. Frontiers in Genetics, 2021, 12: 664786.
[5]Wang Jie, Jia Ying, Sangaiah A K, et al. A network clustering algorithm for protein complex detection fused with power-law distribution characteristic[J]. Electronics, 2023,12(14): 3007.
[6]Lei Xiujuan, Fang Ming, Fujita H. Moth-flame optimization-based algorithm with synthetic dynamic PPI networks for discovering protein complexes[J]. Knowledge-Based Systems, 2019,172: 76-85.
[7]Lei Xiujuan, Fang Ming, Guo Ling, et al. Protein complex detection based on flower pollination mechanism in multi-relation reconstructed dynamic protein networks[J]. BMC Bioinformatics, 2019,20(3): 131.
[8]Wang Rongquan, Wang Caixia, Ma Huimin. Detecting protein complexes with multiple properties by an adaptive harmony search algorithm[J]. BMC Bioinformatics, 2022,23(1): 414.
[9]Cheng Zhiwen, Song Haohao, Zheng Debin, et al. Hybrid firefly algorithm with a new mechanism of gender distinguishing for global optimization[J]. Expert Systems with Applications, 2023,224: 120027.
[10]Lei Xiujuan, Wang Fei, Wu Fangxiang, et al. Protein complex identification through Markov clustering with firefly algorithm on dynamic protein-protein interaction networks[J]. Information Sciences, 2016, 329: 303-316.
[11]Jenghara M M, Ebrahimpour-Komleh H, Parvin H. Dynamic protein-protein interaction networks construction using firefly algorithm[J]. Pattern Analysis and Applications, 2018, 21: 1067-1081.
[12]Zhang Yuchen, Lei Xiujuan, Tan Ying. Firefly clustering method for mining protein complexes[C]//Proc of the 8th International Confe-rence on Swarm Intelligence. Cham:Springer, 2017: 601-610.
[13]Yang Xinshe. Nature-inspired metaheuristic algorithms[M].[S.l.]:Luniver Press, 2010.
[14]Wang Ling, Pan Zixiao, Wang Jingjing. A review of reinforcement learning based intelligent optimization for manufacturing scheduling[J]. Complex System Modeling and Simulation, 2021,1(4): 257-270.
[15]Meng Xiaoding,Li Hecheng,Chen Anshan. Multi-strategy self-learning particle swarm optimization algorithm based on reinforcement learning[J]. Mathematical Biosciences and Engineering, 2023,20(5): 8498-8530.
[16]Wu Di, Wang Shuang, Liu Qingxin, et al. An improved teaching-learning-based optimization algorithm with reinforcement learning strategy for solving optimization problems[J]. Computational Intelligence and Neuroscience, 2022, 2022: article ID 1535957.
[17]Wang Feng,Wang Xujie,Wang Shilei. A reinforcement learning level-based particle swarm optimization algorithm for large-scale optimization[J]. Information Sciences, 2022, 602: 298-312.
[18]Wang Zijia, Zhan Zhihui, Yu Weijie, et al. Dynamic group learning distributed particle swarm optimization for large-scale optimization and its application in cloud workflow scheduling[J]. IEEE Trans on Cybernetics, 2019,50(6): 2715-2729.
[19]Salwínski L, Miller C S, Smith A J, et al. The database of interacting proteins: 2004 update[J]. Nucleic acids research, 2004, 32(S1): D449-D451.
[20]Gavin A C, Aloy P, Grandi P, et al. Proteome survey reveals modularity of the yeast cell machinery[J]. Nature, 2006,440(7084): 631-636.
[21]Krogan N J, Cagney G, Yu Haiyuan, et al. Global landscape of protein complexes in the yeast Saccharomyces cerevisiae[J]. Nature, 2006, 440(7084): 637-643.
[22]Güldener U, Münsterktter M, Oesterheld M,et al. MPact: the MIPS protein interaction resource on yeast[J]. Nucleic Acids Research, 2006, 34(S1): D436-D441.
[23]Pu Shuye, Wong J, Turner B, et al. Up-to-date catalogues of yeast protein complexes[J]. Nucleic Acids Research, 2009, 37(3): 825-831.
[24]Younis H, Anwar M W, Khan M U G, et al. A new sequential forward feature selection(SFFS) algorithm for mining best topological and biological features to predict protein complexes from protein-protein interaction networks(PPINs)[J]. Interdisciplinary Sciences: Computational Life Sciences, 2021,13(3): 371-388.
[25]Enright A J, Van Dongen S, Ouzounis C A. An efficient algorithm for large-scale detection of protein families[J]. Nucleic Acids Research, 2002, 30(7): 1575-1584.
[26]Bader G D, Hogue C W V. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC Bioinformatics, 2003,4(1): article No.2.
[27]Wang Jianxin, Li Min, Chen Jian’er, et al. A fast hierarchical clustering algorithm for functional modules discovery in protein interaction networks[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2010,8(3): 607-620.
[28]Zhang Yijia, Lin Hongfei, Yang Zhihao, et al. Protein complex prediction in large ontology attributed protein-protein interaction networks[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2013,10(3): 729-741.
[29]Leung H C M, Xiang Qian, Yiu S M, et al. Predicting protein complexes from PPI data a core-attachment approach[J]. Journal of Computational Biology, 2009,16(2):133-144.
[30]Wu Min, Li Xiaoli, Kwoh C K, et al. A core-attachment based method to detect protein complexes in PPI networks[J]. BMC Bioinforma-tics, 2009, 10(1): article No.169.
[31]Wang Rongquan, Liu Guixia, Wang Caixia. Identifying protein complexes based on an edge weight algorithm and core-attachment structure[J]. BMC Bioinformatics, 2019,20(1): article No.471.
[32]Yu Yang, Kong Dezhou. Protein complexes detection based on node local properties and gene expression on PPI weighted networks[J]. BMC Bioinformatics, 2022,23: article No.24.
[33]Dilmaghani S, Brust M R, Ribeiro C H C, et al. From communities to protein complexes: a local community detection algorithm on PPI networks[J]. PLoS One, 2022,17(1): e0260484.