改进RAkEL 分类算法的多功能酶分类预测

2021-08-02 07:40皮赛奇
软件导刊 2021年7期
关键词:分类器机器标签

皮赛奇,刘 干

(贵州民族大学人文科技学院,贵州贵阳 550025)

0 引言

随着生物信息技术快速发展和蛋白质测序手段改进,高通量的蛋白质基因序列被发现[1]。采用传统生物技术手段对高通量的蛋白质进行功能预测费时且费力,如何高效、快速地对高通量蛋白质进行精准预测值得研究[2]。近年来,随着大数据和人工智能行业的兴起,利用人工智能和机器学习手段对高通量的蛋白质进行分类预测是现阶段比较火热的方法[3]。研究人员利用机器学习对相应的蛋白质进行分类预测,例如,利用支持向量机对氧化还原酶进行亚类的分类预测、利用随机森林算法对膜蛋白进行预测、运用深度学习相关算法对蛋白质亚细胞定位进行研究等[4]。研究者们主要从两个大的方向进行研究实验。第一个方向为蛋白质特征提取,第二个方向为分类器模型搭建[5]。研究者们提出了各种各样的特征提取模型以及特征融合算法,同时也搭建出各种不同的机器学习模型,这些研究在相应实验中都取得了非常好的效果,但主要考虑单标签分类。然而,现实世界中存在非常多的多功能蛋白质(具有多个功能标签),此时,运用上述单标签机器学习算法模型进行分类预测效果不显著。因此,构建多标签机器学习模型对多功能蛋白质进行分类预测显得十分重要。本文主要对传统的随机k标签分类算法(RAkLE)进行改进,加入Apriori 算法对标签进行关联规则挖掘[6],将得到的关联规则进行标签划分,运用集成(Label Powerset,LP)算法完成模型训练[7],最终得到模型并进行标签分类预测。本文运用改进的多标签分类学习算法对多功能酶(一种多功能蛋白质)进行分类预测,并与传统的多标签分类学习算法作效果比较,改进后的多标签分类器在相关指标上能取得较好结果。

1 多标签分类器与多功能酶分类预测研究现状

1.1 多标签分类器研究现状

多标签机器学习分类器是机器学习领域十分重要的一个方向。由于现实世界中存在的问题大部分都是多标签问题,因此,研究高效、精准的多标签机器学习分类器以解决现实生活中的多标签分类预测问题十分必要。

对多标签分类学习的研究最早源自于文本分类,主要是基于Boost 方法对文本进行分类[8]。在生物信息学这一领域中,多标签分类学习主要应用于蛋白质亚细胞定位、蛋白质多功能预测、膜蛋白预测、多功能酶预测、抗菌肽预测、革兰氏阳性菌预测等方面[9-12]。

多标签分类学习中构建合理的分类器十分重要。当前主要通过两种策略构建:第一种是问题转化策略,其核心思想是将多标签分类问题转化为多分类问题,使现有的解决单标签分类的分类器可以适应,其算法有CC(Classifi⁃er Chains)算法[13]、LP(Label Powerset)算法[14]、随机K 标签(RAkEL)算法[15];第二种策略是单标签分类算法改进,核心思想是在单标签分类器基础上进行改造使其适用于多标签分类器。如将最近邻分类器(KNN)改造成多标签最近邻分类器(MLKNN)[16]、将神经网络模型BP 和RBF 改造成多标签神经网络BP-MLL[17]和ML-RBF[18]、将支持向量机(SVM)改造为排序支持向量机(RANKSVM)[19]等。由于多标签研究更加贴近人们现实生活中的事物分类,研究多标签问题具有重要意义。

1.2 多功能酶分类预测研究现状

多功能酶是一种生物催化剂,在维持生命的各种反应中都能起到非常重要的作用。正确快速地注释出多功能酶的功能对基因工程和细胞工程的发展起到关键性作用[20]。传统的生物技术研究费时费力,利用计算机中机器学习技术进行相关研究尤为重要。Ferrari 等[20]利用多标签K 近邻分类器对多功能酶进行研究,注释功能准确率达80%;Zou 等[21]在利用双层分类模型对多功能酶进行分类研究,得到了非常好的效果;Che 等[22]对多功能酶进行分类预测,运用IBLR_ML 分类器实现多标签分类预测;Amidi等[23]利用多功能酶的结构作为特征表达,运用多标签支持向量机分类器对多功能酶进行研究。随着深度学习的提出,基于神经网络的多标签学习也被相继提出。利用多标签神经网络对多功能酶的注释研究将是一个重要研究方向。

2 改进多标签机器学习算法

2.1 随机k 标签分类器算法(RAkEL)

随机k标签分类器算法(RAkEL)由Tsoumakas 等[14]提出,主要思想是:①将所有数据实例中的标签,划分成一组组具有k个标签的子标签集合;②对划分好的k标签集合使用LP 方法,构造m个分类器,每个分类器用来预测一组k标签集。利用实例的特征数据进行多类别分类器训练;③将测试集的数据分别在训练好的分类器上进行测试,每一个测试用例在每个分类器上都会得到一个结果,最后通过投票方式得到该实例最终标签。

基于RAkEL 算法思想,通过伪代码形式展示训练模型算法和测试模型算法。

RAkEL 算法训练过程伪代码:

RAkEL 算法测试过程伪代码:

2.2 改进RAkEL 算法(Ap-RAkEL)

RAkEL 分类算法是一种集成分类器算法,在处理多标签分类问题中将标签进行随机划分;然后对每个划分的标签用LP 算法为其创建一个分类器,进行模型训练;最后,将测试数据放到每个训练好的分类器中进行分类预测,在多个分类器中采用投票策略得出最终结果。由于RAkEL 算法在划分标签集时采取的是随机划分,在划分时随机性很强,标签之间的关联性并不能很好地表现出来。在划分过程中很可能出现大量冗余或者并没有关联的组合,这样增加了计算开销,降低了计算效率。鉴于此,本文对该算法进行改进,在标签划分时加入关联规则挖掘算法(Apriori 算法),对所有标签数据集进行关联挖掘,并给出关联规则,将得到的关联规则划分为一个标签集合。得到标签集合后按照标签集合的总个数确定分类器个数,并用数据进行训练及预测。该改进算法命名为Ap-RAkEL 算法,C[k]表示长度为k 的候选集,L[k]表示长度为k 的频繁项集。L[1]表示长度为1 的频繁项集。

Ap-RAkEL 算法训练过程伪代码:

3 实验数据分析

3.1 实验数据集

本实验数据集为多功能酶数据集,多功能酶拥有多种功能,在机器学习算法中可将该类问题划分为多标签问题。本数据集中的功能标签个数为6 个,分别为异构功能、裂合功能、转移功能、水解功能、合成功能、氧化还原酶功能。其各功数据分布如表1 所示。在蛋白质库中存在的多功能酶的种类共有4 666 条,实验中将提取得到的4 076 条数据进行同源性分析,筛选出同源性低于65%的数据进行实验。

Table 1 Multifunctional data sets表1 多功能数据集

3.2 实验数据分析

3.2.1 基分类器选择

由于改进的算法实质还是集成算法,集成算法必须选择基分类器,本次实验分别用K 近邻分类器(KNN)、支持向量机(SVM)、高斯贝叶斯网络分类器(GaussianNB)、随机森林分类器进行比较(RF),如图1 所示。可以看出,基分类器采用随机森林(RF)能取得较好效果(此次实验采用的是独立集验证方法)。

Fig.1 Classification and prediction effect of various base classifiers图1 各种基分类器分类预测效果

3.2.2 随机森林参数寻找

如图1 所示,随机森林分类器整体分类效果优势明显。因此,本实验基分类器选用随机森林分类器进行集成分类器构建。随机森林参数设置很重要,本文实验采用网格搜索法进行参数寻优,如图2 所示,寻参范围是1~3 000。可以看出,当参数为411 时分类器达到最好效果(此次实验采用独立集验证方法)。

Fig.2 Random forest parameter selection图2 随机森林参数选择

3.2.3 与其他多标签分类器比较

本实验最终各项指标与其他分类器进行比较,结果如表5 所示。实验采用五折交叉验证,可很好地解决实验样本少的问题。此次实验主要是从微观精度(Micro-Preci⁃sion)、微观召回率(Micro-Recall)、微观F 值(Micro-F-Mea⁃sure)、宏观精度(Macro-Precision)、宏观召回率(Macro-Re⁃call)、宏观F 值(Macro-F-Measure)、平均精度(Average Pre⁃cision)7 个指标衡量改进后的多标签分类器在多功能酶分类预测中的效果,并且还与其他文章中的分类器在多功能酶数据集中的分类进行了比较。从表2 数据可以看出,改进后的分类器对多功能酶的分类预测,不论从精度还是召回率上看,都能取得较好结果。其中,平均精度(AP)可达92.03%。

Table 2 Indicators of various classifiers in multifunctional enzymes表2 各种分类器在多功能酶中的指标

4 结语

本文主要利用改进的随机k标签机器学习算法(Ap-RAkEL)对多功能酶进行分类预测。主要思路是在RAkEL算法中加入Apiroir 算法,在标签划分时找到标签之间的关联性,将相关性强的标签划分成一个基标签,减少标签空间及计算量。实验表明,本文Ap-RAkEL 算法在多功能酶分类预测中各性能指标能取得较好分类效果。由于本文在关联性分析中只用到了Apiroir 算法,在未来研究中可以尝试对关联性算法作出改进,提升多标签分类模型预测精度。同时,还可以运用深度学习方法构建新型的多标签分类器。

猜你喜欢
分类器机器标签
机器狗
机器狗
未来机器城
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
标签化伤害了谁
基于多进制查询树的多标签识别方法