胡 震
(景德镇陶瓷大学,江西 景德镇 333000)
枯草杆菌是革兰氏阳性菌中比较有代表性的模式生物,启动子作为RNA聚合酶结合的靶序列,其预测和分析对于研究枯草杆菌的基因序列关系有着非常重要的作用。利用高精度的预测算法能够有效地补充传统实验中对于枯草杆菌的相关研究。支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势,因此,利用支持向量机的方法展开针对枯草杆菌的启动子预测和分析,正是文章探讨的中心内容。
枯草杆菌(又名枯草芽孢杆菌)虽然是革兰氏阳性菌中比较典型的一种菌株,但是应用其制备发酵制品的时候,该菌株是非致病的。又因为其具备自身合成消化性酶类(如蛋白酶、纤维素酶),可以在消化道中与内源酶发生共生作用,合成多种维生素,提高和人动物体内的干扰素和巨噬细胞活性的诸多特点,美国的FDA和中国农业部等相关部门都认可批准其是安全级的食品菌株。有相关研究表明,枯草杆菌可以改善血清总胆红素值,能够用于治疗新生儿的母乳性黄疸和子宫肌瘤等妇幼疾病。因此,把枯草杆菌作为一种益生菌积极应用进入医疗卫生行业,能够有效提高人类的生命质量,维护人类健康。
而要想把枯草杆菌进行大规模的工业开发,基因工程技术的应用就显得尤为重要。启动子是基因表达中的一个重要调控序列,能够在DNA转换成RNA时发挥重要的作用,按照克拉克提出的中心法则,DNA转换成RNA再转换成蛋白质,从这个链条来看,启动子发挥的作用显而易见,它就像是一个“开关”,决定基因的活动走向,而当中的组织特异性启动子,能够为医学上特殊疾病的靶向治疗提供实现的可能。枯草杆菌的毒素和亚基(SUBA)结合,能够摧毁葡萄糖调节蛋白78的结构(GRP78),诱导细胞凋亡,结合前文所描述的该菌株的其他作用,枯草杆菌作为抗癌药物的生产能够有效支持面向恶性肿瘤的靶向治疗。基于支持向量机的枯草杆菌启动子预测技术的研究开展,就是为了挖掘出枯草杆菌的临床应用区域,更好地为人类的健康事业服务。
对于枯草杆菌的研究,早在100多年前就已经开始涉及。主要的研究内容大都聚焦在形态功能观察和功能鉴定等方面,近40年来,与之相关的生理、生化、遗传及分子生物学的研究陆续积极展开。尤其,随着分子生物学和基因工程的快速发展,其作为基因工程表达系统发展迅速,并展现出良好的应用前景。因此总的来说,在生物信息学方面,国内外的研究水平都处于逐年升高的趋势。
在启动子研究方面,启动子序列克隆的多种方法促进了启动子分离技术的突飞猛进,各类型的启动子不断得到提取,利用生物信息学方法来预测启动子的功能属性也得到了相对广 泛 的 应 用 ,Core Promoter、Promoter 2.0、Mat Inspector、Tf site scan、Sigscan、Tf search和Consite等相应软件也不断研发出来,并投入到实际的应用当中。倪伟明等利用Neural network promoter prediction在粪肠球菌基因组中预测了乳酸脱氢酶和三磷酸甘油醛脱氢酶的启动子序列,并证明其具有启动活性;苏红等分析了牛Gt12基因的侧翼序列,找到其潜在的启动子序列,并成功克隆出牛Gt12基因的启动子序列;中国计量学院学者利用支持向量机技术开发了预测人类核心启动子的系统。
国外方面,相较于国内更偏重于特异性启动子预测的研究,国外会比较偏重于共性的启动子预测研究。从主要成型的技术成果来看,包括了ANN技术(基于人工神经网络)、SVM技术(基于支持向量机)、PWM技术(基于位置权值矩阵)和QDA技术(基于二次判别分析)。其中,文章论述的支持向量机就是Vapnik等人在1995年提出来的;Rajeev Gangal等人就利用该项技术开发了预测人类RNA聚合酶II的启动子工具Prometheus。
启动子作为基因的组成部分,包含范围非常之广,所以要预测启动子并不是一件容易的事。为了最大化利用支持向量机的特点进行预测,首先需要解决的是将枯草杆菌转录调控数据库DBTBS中收集到的枯草杆菌启动子数据的特征提取的问题,从而获得含枯草杆菌启动子信息的特征向量,最后在利用支持向量机对特征向量进行训练和判别。该方法解决了一般的启动子预测模型在数据上的准确度不高以及适用范围局限性的问题。这不仅是机器学习算法与生物模型的一次结合应用,更是利用智能算法对传统预测的一次有益尝试。
在充分利用了启动子序列区域的全局组成特征、局部信号特征以及结构特征的基础上,首先选取适当的特征模型分别计算各个特征得分,再将特征得分组合成高维特征向量,继而在特征空间中利用SVM对向量进行训练和判别,对枯草杆菌实际数据集的测试结果表明,研究提出的算法可以对启动子进行有效的预测,并对多类启动子有广泛的适用性。
针对上述的几个问题,本课题的研究将分步骤进行,在研究过程中,将跟踪近些年比较先进的研究理论和方法。此外,文章中所需要的数据都可以从权威的数据库中下载,这为本次研究提供了便利条件。
本次项目研究路线图如图1所示:
图1 研究方案路线图
孟玲玲于2015年提出了“基于支持向量机的组合预测模型及其应用研究”并进行了详细的描述,具有充分的理论支持。由于文章所采用的数据主要从枯草杆菌转录调控数据库DBTBS中收集整理而来,是目前已被实验证实的枯草杆菌启动子数据,具有一定的准确性和权威性,这也为文章中的模型建立打下了良好的基础。
在DNA序列特征提取上将采用如下方法:DNA序列是由4种碱基所组成,一个长度为蕴的序列表示如下:
对该序列进行统计分析可得到碱基成分(nucleotides composition,NC)以及K联体成分(K-NC),这些成分可作为序列特征以反映序列中各种碱基的分布情况,但是仅仅用这些成分来表达序列会造成序列的顺序信息和物理化学特性的丢失,由此引入了伪碱基成分(PseNC)的概念,伪碱基成分的引入已经被证明可以显著提高DNA序列属性的预测效果。在提取碱基成分时,首先根据碱基的物理化学属性指标对DNA序列作数字编码,假设Hi(i=1,2,3,4)为4种碱基的某种物理化学属性值(attribute value),据此将DNA序列的每个碱基残基一一对应地转化成数值,表示为[H(R1),H(R2),…,H(R蕴)],对该数字信号流可以做傅里叶分析和小波分析,以获取在不同层面和不同尺度下的物理化学信息。经过以上步骤,DNA序列就可以被表达为高维特征空间里的一个点,或者说向量:
本研究还尝试提出一种新的特征提取方法,即构造碱基序列物理化学属性矩阵(PCM)。采用10种生物物理化学实验中已测知的碱基物理化学属性,如水解性、酸碱性、分子重量、分子体积等,将不同尺度下的物理化学属性值做标准化:
再根据标准化后的物理化学属性对碱基序列编码成如下形式:
从矩阵(图像)中提取的描述子可以反映序列的多种物理化学信息,如采用统计学里的自相关与互相关协方差算法:
通过上述的特征提取步骤,任意一条DNA序列都可以映射到高维特征空间中的一个点,即一个高维特征向量。但是,这些特征中可能有很多特征与要解决的分类问题关系并不密切,他们在后续的分类器设计中可能会影响分类器的性能。另一方面,有时即使很多特征都与分类关系密切,但是特征过多会带来计算量大、推广能力差等问题。这时就需要进行特征选择以降低特征空间维数。由于选择的空间很大且对特征间的关系缺乏认识,因此尝试使用遗传算法进行特征选择。遗传算法虽然不能保证收敛到全局最优解,但是在多数情况下至少得到很好的次优解。
科技改变生活,创新推动发展。基于支持向量机的枯草杆菌启动子预测技术的研发对于推动基因工程开展,完善生物技术发展都有着十分积极的意义。可以说,结合支持向量机在高维识别中表现出来的独有优势,并且充分利用了启动子序列区域的全局组成特征、局部信号特征以及结构特征,开发出一种面向枯草杆菌的启动子分类预测器,通过文章的论证,证明其确有一定的社会价值和实现的可能。
[1] 杜耀华,倪青山,王正志.基于支持向量机的枯草杆菌启动子预测方法[J].生命科学研究,2005,(12):319-326.
[2] 匡琳.支持向量机在文本分类中的应用的概述[J].科技资讯,2008,(36).
[3] 孙吉贵,韩霄松,卢欣华,等.真核生物启动子的预测技术[J].计算机科学,2009,(1):5-7.
[4] 刘开泉.利用原核系统表达富含二硫键蛋白质的探索与改进[D].泰安:山东农业大学,2011.
[5] 孙吉贵,韩霄松,卢欣华,等.真核生物启动子的预测技术[J].计算机科学,2009,(1):5-7.