马晓玉 岳欣蕾 韩佳玲
摘要:蛋白质与适配体间的相互作用广泛存在于生物体,且在各种生命活动中发挥着重要作用。核酸适配体(简称适配体)是与靶标具有高亲和力的、长度大约在30~80 nt的核苷酸链,其与蛋白质的特异性结合对于疾病的靶向治疗研究具有重要意义。随着大数据和人工智能的发展,基于生物信息学的蛋白质-适配体相互作用预测及适配体筛选的计算方法的实现能有效解决传统实验方法的周期长、费用高等问题。本文就蛋白质-适配体相互作用预测实现方法和以蛋白质为靶标的适配体的筛选方法作一综述,以期为临床选择适合的预测方法提供参考。
关键词:蛋白质;适配体;蛋白质-适配体相互作用预测;生物信息学
Abstract:The interaction between proteins and aptamers is widespread in organisms and plays an important role in various life activities. Nucleic acid aptamers (abbreviation form of aptamers) are high-affinity nucleotide chains with a length of about 30~80 nt, and their specific binding to proteins is of great significance for the targeted treatment of diseases. With the development of big data and artificial intelligence, the implementation of calculation methods for protein-aptamer interaction prediction and aptamer selection based on bioinformatics can effectively solve the problems of long cycle and high cost of traditional experimental methods. This article reviews the realization methods of protein-aptamer interaction prediction and the selection methods of protein-targeted aptamers, in order to provide a reference for clinical selection of suitable prediction methods.
Key words:Protein;Aptamer;Protein-aptamer interaction prediction;Bioinformatics
適配体是一类较短的核酸序列,其具有特异性和高亲和力的分子结合能力[1]。尽管蛋白质与适配体之间的相互作用具有重要的研究意义和应用前景,但其相关研究工作也面临着诸多难题。传统的实验方法过程复杂、实验周期长、费用高,随着数据量的增多,其弊端更加突出,需采用高效的计算方法来进行蛋白质-适配体相互作用的研究工作。随着高通量测序和计算机技术的成熟与发展,机器学习和深度学习在生物信息学领域得到了广泛的应用[2-4]。本文对蛋白质-适配体相互作用预测方法以及以蛋白质为靶标的适配体筛选方法作一综述。
1蛋白质-适配体相互作用预测实现方法
蛋白质-适配体相互作用预测方法的基本框架是通过将蛋白质与适配体的序列转化为可用于计算的特征值,通过机器学习模型对特征空间进行训练得到预测模型。特征与机器学习方法的选取和优化是影响模型预测性能的重要因素,根据待解决问题的特点提取序列的关键特征并选择合适的机器学习方法至关重要。通常情况下,特征空间主要来源于对蛋白质与适配体的序列信息的计算,特征空间的维度也是影响预测性能的重要因素。此类问题是一种二分类的问题,常用的机器学习分类方法包含决策树、朴素贝叶斯、随机森林以及支持向量机等。由于朴素贝叶斯是在各属性相互独立的假设上进行的分类,因此对于特征之间相关性较大的问题其分类效果较差。决策树由于算法较为简单,可对较大的数据集实现快速的分类,但是对于缺失数据处理困难且易产生过拟合问题。目前,随机森林与支持向量机是生物信息学应用较为广泛的机器学习方法。
1.1随机森林 随机森林(random forest)[5]是在决策树基础上进行改进的一种集成方法,是一种典型的Bagging算法。该算法是将多个决策树集成一个预测精度更高的分类器,通过样本的随机性与属性的随机性以及少数服从多数的投票机制有效解决了决策树的过拟合问题。随机森林方法在蛋白质-适配体相互作用预测中实现了很好的预测效果。Li BQ等[6]提出了一种基于伪氨基酸的随机森林的方法,首次实现了使用计算方法预测蛋白质-适配体的相互作用,其研究通过收集Aptamer Base[7]数据库中的蛋白质-适配体条目构建数据集,提取了核苷酸组成、氨基酸组成和伪氨基酸组成(PseAAC)[8]这三种特征作为模型的输入,为减少特征冗余度和降低计算度,通过最大相关最小冗余方法(mRMR)和增量特征选择(IFS)方法对290维的特征进行最佳特征的筛选后得到了220维的最优特征组合,该预测模型在独立测试集上的预测准确率为0.774,敏感性为0.483,特异性为0.871。张丽娜[9]提出一种基于多源特征提取策略和集成方法的蛋白质-适配体相互作用预测方法,该方法使用了基于随机森林的集成方法,通过对三个随机森林分类器的训练得到三个预测模型,并将三个模型的预测结果的平均值作为最终的结果。该研究在Li BQ等[6]构建的数据集的基础上对训练集进行数据重构,其基于多源特征提取策略,提取了伪K元组核苷酸组成(K分别为2和3)、离散余弦变换、二元位置特异性打分矩阵和无序区域信息[10]这些重要特征作为模型的输入,并通过Relief-増量特征选择方法对特征进行筛选后得到了304维的最优特征空间,该预测模型在独立测试集上的预测准确率为0.719,敏感性为0.738,特异性为0.713。
这两种基于随机森林的预测方法实现了蛋白质-适配体相互作用的有效预测。基于伪氨基酸的随机森林的方法因其较小的特征维度和使用单一的随机森林分类器,其模型的计算复杂度较低,但是由于数据集的不平衡,造成了大小样本的预测准确率的严重失衡。此外,该方法的特征提取较为单一,蛋白质与适配体的结合涉及到多方面的性质,忽略这些关键特征造成特征向量不能有效表征蛋白质与适配体而影响预测效果。而基于多源特征提取策略和集成方法的预测方法因提取了更多的特征以及使用了基于3个随机森林分类器的集成方法,显著地均衡大小样本的预测准确率,但是也增加了预测模型的计算复杂度。此外,将3个平衡的训练子集用于3个机器学习分类器,单个分类器的负样本训练数据较少使得对训练样本的学习不足造成了负样本预测准确率的降低。
1.2支持向量机 支持向量机(support vector machines,SVM)[11,12]是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。线性可分即存在一个超平面可以将样本根据类别一分为二,而线性不可分即找不到这个超平面导致支持向量机无法实现分类。核函数的引入使得支持向量机也可以解决高维非线性数据的分类问题。支持向量机具有很好的泛化能力,能有效解决二分类问题,但是不适用于大规模样本和多分类的问题。Yang Q等[13]提出一种基于自动编码[14,15]特征提取和集成方法的蛋白质-适配体相互作用预测方法,使用了基于支持向量机的集成方法,将自动编码特征、核苷酸组成、伪核苷酸组成(PseKNC)和一般序列相关的伪三核苷酸组成(SC-PseTNC-General)作为特征输入,通过梯度下降树(GBDT)[16]对676维的特征进行筛选后,得到的最优特征空间维数为616。该方法也在Li BQ等[6]构建的数据集基础上采用了数据重构的方法,将训练集分为3个平衡的训练子集并分别用于3个支持向量机模型的训练,将3个训练模型最终集成为一个预测精度更高的模型。在独立测试集上该模型的预测准确率为0.757,其特异性和敏感性分别为0.745和0.793。基于三个支持向量机的集成预测方法,相较于其他两种方法实现了更好的预测效果,但是此方法高维度的特征造成高复杂度的计算而影响预测性能;且将自动编码特征作为蛋白质表示的唯一特征,虽然能有效的提取蛋白质的序列信息,但是也导致了蛋白质的结构特征和理化性质等被忽略。
基于随机森林与支持向量机的蛋白质-适配体预测方法能有效地实现预测功能,实现的三种方法[5,9,13]在相同的独立测试集上进行了独立测试。由于使用了不平衡的数据集,准确率不能真正客观的评价预测性能,需综合考虑敏感性、特异性等评价标准以及模型的计算复杂度,3种方法具有不同的优缺点及适用情况。基于伪氨基酸的随机森林的方法因其较低的特征维度,计算复杂度较低,对于样本数量较大的数据集能快速的进行预测,但是该方法的特异性较高、敏感性较低,适用于对于真阴性有较高要求的预测;反之,对于真阳性有较高要求的预测,此方法不能满足其预测效果。基于多源特征提取策略和集成方法的预测方法相较于基于伪氨基酸的随机森林的方法敏感性显著提高,虽然对负样本的预测准确度有所降低,但是对正负样本均可实现有效预测,此方法的计算复杂度虽高于基于伪氨基酸的随机森林的方法,但仍可满足大量样本的快速预测需求。对于预测精度要求高、数据量大的数据集可使用该方法进行相互作用预测。而基于自动编码特征提取和集成方法的预测方法其敏感性和特异性均高于基于多源特征提取策略和集成方法的预测方法,对负样本的预测准确度虽不如基于伪氨基酸的随机森林的方法,但对正样本的预测准确度有大幅度的提升,该方法相较于其他两种方法,实现了更高的预测精度,对预测精度要求高且数据量较少的数据集,该方法是一个很好的选择;但对于大量数据的批量预测,由于其较高计算复杂度需要的时间会较长。
2以蛋白质为靶标的适配体的筛选
传统的SELEX实验方法进行蛋白质靶标的适配体筛选要对序列文库经过十几轮的扩增与筛选,此技术虽已较为成熟,但是其过程复杂,时间成本高。通过计算方法实现以蛋白质为靶标的适配体的筛选可从缩小序列范围、加快识别与蛋白质具有相互作用的序列两方面着手。Lee W等[17]提出了一种基于序列和结构信息的蛋白质靶标的RNA筛选方法,数据集主要来源于PDB数据库和Li BQ等[6]构建的数据集,训练集包含了35个样本(RNA适配体-蛋白质复合物),并收集了696個RNA-蛋白质复合物用于计算核苷酸与氨基酸相互作用倾向(IP),测试集包含56个正样本和56个负样本,特征空间由核苷酸与氨基酸相互作用倾向(IP)[18,19]、单核苷酸组成、伪核苷酸组成、伪氨基酸组成等特征构成。根据结构特征,将6×106的随机RNA文库序列经过RNAfold[20]分析后挑选出符合条件的序列并使用经过对训练集进行学习的随机森林模型来计算RNA序列与蛋白质之间的结合概率。通过二级结构特征进行序列文库的初步筛选,缩小了后续筛选的范围,减轻了结合概率计算的工作量。将自由能和结合概率排序结果为前10的RNA作为以此蛋白质为靶标的适配体的筛选结果。该方法在独立测试集上筛选的准确率为0.714,证明了此方法的有效性和实用性。通过计算方法实现针对某一蛋白质的适配体的筛选相较于SELEX实验方法其费用更低,时间更快,但是由于初始的序列文库较大且过程复杂,对于多个蛋白质的批量处理较为困难;且此方法只对蛋白质的RNA适配体进行筛选,无法对DNA适配体进行筛选。
3总结
通过计算方法实现相互作用预测及适配体的筛选可有效减轻相关研究人员的工作量,加快研究进程,但是现有的方法也存在一定的问题,通过以上所述,目前的蛋白质-适配体相互作用预测方法存在以下不足:①对不平衡数据集没有进行平衡处理而造成小样本的预测准确率较低,数据重构方法减少了训练集的样本数使得分类器对样本的学习不充足而降低了整体的预测准确率;②特征选取单一,而忽略关键特征影响了预测性能,特征选取不当易造成较高的计算复杂度,不利于大量样本的预测;③对机器学习方法缺少优化,预测准确度仍有提升的空间。目前蛋白质靶标的适配体筛选方法主要存在无法大规模开展,筛选范围不全面的问题。此外,实现的方法缺少对工具的开发,不方便研究人员使用。蛋白质-适配体相互作用预测及适配体筛选的计算方法已实现了较好的效果,随着更多的多中心研究,相信未来会有更快速、更准确的方法和工具的出现。
参考文献:
[1]Kinghorn AB,Fraser LA,Lang S,et al.Aptamer Bioinformatics[J].Int J Mol Sci,2017,18(12):2516.
[2]Xu Y,Ju L,Tong J,et al.Supervised Machine Learning Predictive Analytics For Triple-Negative Breast Cancer Death Outcomes[J].Onco Targets Ther,2019(12):9059-9067.
[3]Halilaj E,Rajagopal A,Fiterau M,et al.Machine learning in human movement biomechanics:Best practices,common pitfalls,and new opportunities[J].J Biomech,2018(81):1-11.
[4]谭志颖.基于深度学习的流感病毒抗原变异和病毒宿主预测[D].湖南大学,2018.
[5]Matsuki K,Kuperman V,Van Dyke JA.The Random Forests statistical technique:An examination of its value for the study of reading[J].Sci Stud Read,2016,20(1):20-33.
[6]Li BQ,Zhang YC,Huang GH,et al.Prediction of aptamer-target interacting pairs with pseudo-amino acid composition[J].PLoS One,2014,9(1):e86729.
[7]Cruz-Toledo J,Mckeague M,Zhang X,et al.Aptamer Base:a collaborative knowledge base to describe aptamers and SELEX experiments[J].Database(Oxford),2012(2012):bas006.
[8]Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.
[9]张丽娜.基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究[D].山东大学,2017.
[10]Li M,Cho SB,Ryu KH.A novel approach for predicting disordered regions in a protein sequence[J].Osong Public Health Res Perspect,2014,5(4):211-8.
[11]Guo Y,Jia X,Paull D.Effective Sequential Classifier Training for SVM-Based Multitemporal Remote Sensing Image Classification[J].IEEE Trans Image Process,2018.
[12]Huang S,Cai N,Pacheco PP,et al.Applications of Support Vector Machine(SVM)Learning in Cancer Genomics[J].Cancer Genomics Proteomics,2018,15(1):41-51.
[13]Yang Q,Jia C,Li T.Prediction of aptamer-protein interacting pairs based on sparse autoencoder feature extraction and an ensemble classifier[J].Math Biosci,2019(311):103-108.
[14]李興球,姜洪开,王瑞欣,等.基于迁移深度降噪自动编码器的飞机关键机械部件故障诊断方法[C]//第十三届全国振动理论及应用学术会议,2019.
[15]刘楚鸿,汪培萍.基于自动编码器集合的入侵检测系统的研究与实现[J].中国新通信,2019,21(24):71-74.
[16]Gui L,Xia Y,Li H,et al.Prediction of NOX Emission from Coal-fired Boiler Based on RF-GBDT[C]//Proceedings of the 2017 6th International Conference on Energy and Environmental Protection(ICEEP 2017),2017.
[17]Lee W,Lee J,Han K.Finding Potential RNA Aptamers for a Protein Target Using Sequence and Structure Features[C]//International Conference on Intelligent Computing,2018.
[18]Choi S,Han K.Prediction of RNA-binding amino acids from protein and RNA sequences[J].BMC Bioinformatics,2011,12(Suppl 13):S7.
[19]Choi S,Han K.Predicting protein-binding RNA nucleotides using the feature-based removal of data redundancy and the interaction propensity of nucleotide triplets[J].Comput Biol Med,2013,43(11):1687-97.
[20]Zhang K,Meng Y,Cao X,et al.Genetic variants in p53 signaling pathway genes predict chemotherapy efficacy in colorectal cancer[J].Cancer Med,2019,8(7):3428-3436.
收稿日期:2020-03-25;修回日期:2020-04-07
编辑/杜帆