基于特征选择技术的蛋白质热稳定性预测研究

2022-07-07 00:05罗仕艳金佳瑶
科技研究·理论版 2022年11期
关键词:特征提取机器学习

罗仕艳 金佳瑶

摘要:本文研究蛋白质热稳定性预测方法,该方法首先提取了氨基酸组成和g-gap二肽特征,然后利用ANOVA方法对特征进行了选择,最后通过Weka软件及其免费提供的LibSVM软件包来实现SVM的功能,对蛋白质热稳定性进行预测。实验表明该方法具有较好预测性能。

关键词:蛋白质热稳定性;机器学习;特征提取

1 引言

蛋白质的热稳定性是蛋白质生化和生物技术研究的重要方面,它与酶工程特别相关。具有良好热稳定性的酶蛋白应用在工业生物催化的领域有着巨大的前途和发展,如治理水污染,清理堵塞管道,酿造食品,生物制药等[1]。现如今,计算机技术在生物信息学的领域的作用越来越不可取代。试想,如果我们能够从蛋白质的结构本身出发去对蛋白质根据其热稳定性进行分类,那么就可以借助计算机高速的运算能力显著提高获得耐热蛋白质的几率。由此可见,通过了解蛋白质的序列和结构所蕴含的信息而对蛋白质的热稳定性进行分类具有重要的意义。

早在多年前,Perutz[2]等人在对细菌中的血红蛋白等研究中就已经涉及了蛋白质热稳定性的相关内容。从蛋白质耐热特性的研究结果中了解到蛋白质的热稳定性与其氨基酸序列,离子对数量和盐桥相关。Ding[3]等人在研究中对比了一些耐热和耐温的蛋白质的二肽组成,充分地证实了蛋白质的二肽组成对其热稳定性也存在着重大的影响。Pace[5]等人研究了四个不同的蛋白质突变体的疏水作用,发现疏水作用与蛋白质的结构形成和维持其稳定有着密切的关系[4]。

丁彦蕊等人[6]统计并且分析了16个家族中共32个蛋白质序列的各种氨基酸含量,并且系统地分析了氨基酸组成对蛋白质热稳定性的影响。发现随着蛋白质耐热性的增强,氨基酸Ser和Cys含量明显降低 , Arg、Ile、Pro的含量明显升高。邓明霞[7]等人测定了这些胶原蛋白的氨基酸组成和热变性温度,发现胶原蛋白发生热变性时的温度与碱性氨基酸、总极性氨基酸和带电荷极性氨基酸的含量与呈正相关关系,而与亚氨基酸与非极性氨基酸的含量则呈现负相关的关系。

Zhang和Fang[8]还发现,蛋白质的二肽组成也蕴含着与蛋白质的热稳定性相关的信息。Ding[9]等人使用了v-支持向量机的技术发现二肽组成和氨基酸组成都对蛋白质的热稳定性有着重大的影响。

2 特征提取

(1)氨基酸组成

氨基酸组成表示各种氨基酸在蛋白质中的含量,氨基酸组成能最直观地体现出蛋白质序列所包含的信息。

(2)g-gap二肽组成

g-gap二肽组成的特征提取方法,是计算某个长度为N的蛋白质序列片断中k个间隔距离的残基对在该序列中的组成比例。本方法中,k最大为5。然而,当k=0的时候,序列结尾会有1个氨基酸没有其他氨基酸与之配对,这样提取的残基对数量为N-1;k=1时,有2个氨基酸没有配对,那么提取出的残基对数量为N-2;所以规律就是,当序列长度为N,间隔为k时,一共可以提取的残基对数量为N-k-1。

3 特征选择

对于一个蛋白质序列来说,我们可以从中提取到成百上千的特征,但是这些特征未必都对蛋白质的热稳定性预测起到帮助。除此之外,大量的特征会导致计算机的运算时间过长,浪费计算机资源。所以最好的办法就是通过特征选择技术来选取一组对蛋白质的热稳定性影响最大的特征,去掉冗余的参数。这样得出的结果可靠性才有所保障。目前已经提出了一些特征选择的方法,如主成分分析、遗传算法和最小冗余最大关联等。但是Ding[10]等人提出了一种方差分析(ANOVA)的方法。ANOVA方法能够简单有效地分析出对某一事物具有重大影响的因素,因具有多种优点而被广泛使用。本文使用ANOVA方法对蛋白质的g-gap二肽组成进行特征选择。

4 分类器

Weka是一款非商业化的机器学习和数据挖掘软件。它在Java环境下运行,并且免费、开源。其主要开发者是来自新西兰的怀卡托大学,至今已经经历了20多年的发展和完善,其功能也已经非常强大和成熟。本文使用Weka免费提供的LibSVM软件包来实现SVM的功能。

5.总结

本文实现了一个蛋白质热稳定性预测方法,利用特征提取、特征选择算法以及支持向量机方法对蛋白质根据其是否具有热稳定性而分类。

参考文献:

[1]李晗.现代生物化工中酶工程技术研究与应用[J].科技风,2020(06):132.

[2]Perutz M F, Raidt H. Stereochemical basis of heat stability in bacterial ferredoxins and in haemoglobin A2[J]. Nature, 1975, 255(5505): 256-259.

[3]Ding Y R, Cai Y J, Zhang G X, et al. The influence of dipeptide composition on protein thermostability[J]. FEBS Letters, 2004, 569(1-3): 284-288.

[4]王克夷.疏水作用和蛋白质[J].生命的化学,1999(05):37-39.

[5]Pace C N, Fu H, Fryar K L, et al. Contribution of Hydrophobic Interactions to Protein Stability[J]. Journal of Molecular Biology, 2011, 408(3): 514-528.

[6]丁彦蕊,蔡宇杰,乌云,须文波.氨基酸组成对蛋白质耐热性的影响[J].生物技术,2004(04):47-50.

[7]邓明霞,汪海波,杨玲,刘良忠,黄爱妮,张含俊.氨基酸组成及溶剂环境对淡水鱼胶原蛋白热稳定性能的影响[J].现代食品科技,2015,31(12):111-120.

[8]Zhang G Y, Fang B. Application of amino acid distribution along the sequence for discriminating mesophilic and thermophilic proteins[J]. Process Biochemistry, 2006, 41(8): 1792-1798.

[9]Ding Y R, Cai Y J, Sun J. Identifying the Mesophilic and Thermophilic Proteins from their Amino Acid Composition with v-Support Vector Machines [J]. Journal of Algorithms & Computational Technology, 2010, 4(3): 335-348.

[10] H. Ding, P. M. Feng, W. Chen, et al. Identification of bacteriophage virion proteins by the ANOVA feature selection and analysis[J]. Molecular BioSystems, 2014, 10(8):2229-2235.

項目基金:国家级大学生创新项目(202111488009);作者:罗仕艳,衢州学院数据科学与大数据技术本科学生。

猜你喜欢
特征提取机器学习
同步定位与建图特征提取和匹配算法研究
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
一种针对特定无线电信号的识别方法
基于模糊K近邻的语音情感识别
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
机器学习理论在高中自主学习中的应用