夏 丽 王成龙 储冰峰
变形链球菌是革兰氏阳性的兼性厌氧菌,是口腔主要的致龋细菌之一。变形链球菌主要的毒力是利用食物中的葡萄糖产酸,利用蔗糖合成胞外多糖进行粘附[1]。
细菌非编码RNA(small non-coding RNA,sRNA)是一类长度在50-500 个核苷酸,不能编码蛋白质的RNA。sRNA 有诸多功能,在细菌的转录调节、RNA 的加工与修饰、mRNA 的稳定性与翻译、以及蛋白质的降解、质粒的复制、细菌的应激反应和毒力等[2,3]方面发挥重要作用。生物信息学是根据sRNA 的特点进行计算机系统预测,使sRNA 不再是偶然被发现[4-7]。sRNA 的特点包括:比较基因组学的特点,其序列位于基因间区,在相近菌种间具有序列同源性;热动力学中保守的二级结构;特定的转录信号,包括有σ70启动子,可预测的内在终止子。
随着对基因组研究的深入,Dragana 等[4]获得了变形链球菌标准菌株UA159 的基因组序列,对变形链球菌的环境适应及毒力相关基因有大量研究,但是调控机制并不清楚。本研究通过生物信息学预测变形链球菌UA159 的sRNA,对部分可能存在的序列进行实验初步筛选,生物信息学鉴定。
1.1 生物信息学方法预测 各种生物信息学预测方法不同,预测结果变化较大。下面介绍本实验使用的4 种生物信息学预测方法。
1.1.1 sRNAPredict sRNAPredict 是第一个使用转录信号的位置特点预测sRNA 序列的软件[5],特点包括:启动子信号,转录因子结合位点,由TRANSTERMHP 预测的ρ-非依赖性终止子[6],通过BLAST(Basic Local Alignment Search Tools)进行同源性分析。这一方法可以用于预测不知道启动子序列的新sRNA。
1.1.2 SIPHT SIPHT 是进行sRNA 大规模预测的生物信息学方法。该方法运用高通量技术(high-throughput technology,SIPHT),采用自动工作流程,首先从美国国立生物技术信息中心
(National Center for Biotechnology Information,NCBI)数据库获得所有细菌的复制子,进而预测sRNA 的编码基因,由Condor DAGMan’s高通量计算系统进行运算。
1.1.3 sRNASVM sRNASVM 是根据大肠杆菌sRNA 特点,基于机器学习方法编程,进行生物信息学预测的方法。利用已知的细菌sRNA基因构建训练集,提取描述训练集中每个样本的特征向量,采用机器学习的方法构建sRNA 预测模型,预测出细菌特有的sRNA。
1.1.4 网站Oral pathogens non-coding small RNA prediction 名为Oral pathogens noncoding small RNA prediction 的网站针对口腔细菌进行sRNA 预测。
1.2 RT-PCR 初步检测
1.2.1 菌株 变形链球菌UA159 标准菌株为本室保存。
1.2.2 实验方法
细菌总RNA 的提取:取厌氧袋中BHI 培养的变形链球菌菌液2ml,离心收集细菌,用0.1%DEPC 水洗涤一次。将细菌重悬于100μl 含5g/ L溶菌酶的TE(pH=8.0)缓冲液中,置于冰上15-20min。细胞溶液中加入20μl 10%SDS,置于沸水1min。于冰上冷却并加入100μl Trizol 吹打混匀,加入20μl 氯仿,剧烈震摇15s。室温静置3-5min 后,于4℃,12000rpm 离心15min。吸取上层液相,移至新管,加入等体积异丙醇,颠倒混匀,置于-70℃沉淀过夜。4℃微量离心机,12000rpm 离心20min,可见RNA 在管底形成白色沉淀;吸弃上清,加入1ml 80%乙醇,颠倒混匀,于4℃,7500rpm 离心5min;弃上清,于室温晾干沉淀,用42μl DEPC 水溶解RNA;-70℃保存。
RT-PCR 检测:取2.5μg 所提总RNA 进行加尾,加入5×M-MLV Buffer 5μl,100mM ATP 0.25μl,RNA2.5μg,PAP0.25μl,RNA 酶抑制剂0.5μl,DEPC 水补至21μl,37℃水浴1h。反转录合成cDNA,反转录通用引物RT-Primer:
5’-GCGAGCACAGAATTAATACGACTCACTATAGGTTTTTTTTTTTTTTTTTTVN-3’,将加尾产物中加入dNTP (2.5mM)2.5μl,M-MLV0.5μl,RT-Primer(500ng/ μl)1μl,42℃水浴1.5h,保存于-20℃。PCR 检测反转录产物中的sRNA,引物为sms1f:AATCAGCCTTTAGCTTTGATAC,sms2f:CTAAGACAGCAGGGGAGCGT,sms3f:TTTCTCCTCTCGTCTATT,sms4f:TGAATACGCCTACGACTCTGTG, sms5f: TATTCCTTTAACACTGTCC,QmiR-reverse:GCGAGCACAGAATTAATACGAC;反应条件:95℃10min;94℃30s,54℃30s,72℃30s,扩增30个循环;72℃10min。荧光定量PCR反应条件: 95℃10min; 95℃30s,54℃30s,72℃30s,扩增40 个循环;95℃60s,54℃30s,95℃30s,采集熔解曲线。
1.3 sRNA 序列的家族鉴定 Rfam 数据库是用序列比对和协方差统计的方法对非编码RNA进行家族分类[18]。进入Rfam 网站http:/ / rfam.xfam.org/ ,输入sRNA 序列,系统自动分析[19],网页跳转至分析结果页面。
2.1 生物信息学软件预测结果 通过sRNAPredict,SIPHT,sRNASVM,网站Oral pathogens non-coding small RNA prediction 4 种方法预测变形链球菌UA159 的非编码RNA。sRNAPredict 预测得到14 条序列,SIPHT 预测得到226 条序列,sRNASVM 预测得到132 条序列,网站 Oral pathogens non-coding small RNA prediction 预测得到37 条序列。其中SIPHT,sRNA Predict 和sRNASVM 三种方法预测得到4条相同序列;SIPHT,sRNASVM 和网站三种方法预测得到1 条相同序列;SIPHT 和sRNA Predict 两种方法预测得到10 条相同序列;sRNASVM 和网站两种方法预测得到9 条相同序列;SIPHT 和网站两种方法预测得到6 条相同序列;SIPHT 和sRNASVM 两种方法预测得到10条相同序列。4 种生物信息学方法共得到334 条不同sRNA 序列,有40 条序列是至少两种生物信息学方法预测得到。
2.2 RT-PCR 检测部分预测的sRNA 通过不同生物信息学方法预测的sRNA 中,有40 条序列是至少两种生物信息学方法预测得到。采用RT-PCR 检测这40 条sRNA 序列,其中5 条存在RT-PCR 产物(图1)。
图1 RT-PCR 检测出的5 条sRNA 电泳图注:从左到右分别为pUC18 Marker,sms1,sms2,sms3,sms4,sms5。
2.3 sRNA 序列的家族鉴定 通过Rfam 网站分析5 条RT-PCR 检测得到的sRNA 序列(表1)。sms2 序列属于L10-Leader 家族(RF00557),sms5序列属于PyrR家族(RF00515)。 sms1,sms3,sms4 未检测到相近的家族序列,可能为新发现的sRNA。
表1 经RT-PCR检测得到的5 条sRNA 序列
生物信息学预测方法是常用的系统性寻找sRNA 的方法之一。最初的sRNA 是在实验中偶然发现的,随着发现的增加,对已发现的sRNA基因特点加以总结和推算,发展出各种生物信息学方法预测sRNA。目前主要由以下四个方面进行预测[7]:一是比较基因组学,二是二级结构的稳定性,三是转录单元预测,四是机器学习方法。本研究通过4 种方法得到了变形链球菌sRNA 生物信息学预测结果。其中sRNAPredict,SIPHT 和网站
Oral pathogens non-coding small RNA prediction
都属于转录单元预测的方法,sRNASVM 则是机器学习的模拟方法。转录单元预测方法的基本假设是sRNA 基因在相近物种的基因组中具有一定的序列保守性和结构保守性,有已知的启动子和终止子单元。虽然是同样的原理,但编写软件的方法不同,对参数的设定不同,会造成预测结果存在差别,所以在研究中虽然采用了3 种转录单元预测的方法,其重复的序列并不多。基于机器学习的方法进行的生物信息学预测是采用机器学习方法构建sRNA 预测模型,对基因组中新的sRNA 进行预测。但这种方法需要对DNA 片段进行窗口化处理,而sRNA 的序列长度变化较大,很难选择最佳的窗口大小[8],使得机器学习方法构建的sRNA预测模型的阳性检出率(positive prediction value,PPV)不是很高[9]。总的说来,生物信息学方法是根据已知的sRNA 序列特点,对基因组信息完整的细菌,通过不同的运算方法来预测,可以获得大量的sRNA 信息,但这些序列还是需要实验学方法进行验证。在本研究中,用4 种生物信息学方法进行预测,对其中40 条序列进行RT-PCR 初步检测,得到5 条序列,其中3 条来自sRNASVM 和网站两种方法预测得到的相同序列,2 条来自SIPHT 和网站两种方法预测得到的相同序列。
目前也有研究采用基因芯片对sRNA 进行全面检测,基因芯片可以获得所有转录的RNA 序列,再通过大量的数据分析,得到sRNA 序列。但是一些sRNA 只在特定的环境中表达,对于这一部分sRNA 就很难检测到。在对化脓性链球菌sRNA 的研究中[10],同时采用生物信息学预测和基因芯片进行研究,总共预测出了75 条sRNA,其中只有7 条是两种方法都检测到的。
生物信息学方法预测和基因芯片检测sRNA,都是对全基因组进行sRNA 筛选,二者各有侧重。生物信息学方法更加方便快捷,省时省力,只需要提供细菌的基因组信息就可以完成,与sRNA 是否在特殊环境表达无关;基因芯片则需要提供细菌的RNA,受实验方法和技术的限制,与sRNA 是否在特殊环境下表达密切相关,但检测得到的序列真实性更高。不管是基因芯片,还是生物信息学方法,都需要进一步通过实验验证。
生物信息学在变形链球菌sRNA 的研究中发挥了重要作用,预测了大量可能存在的序列,对相关序列进行分析鉴定,与实验相辅相成,相互验证。目前生物信息学的预测结果还不够全面准确,随着实验的不断深入,生物信息学也会快速发展,为研究提供更多可靠的结果。
[1] 张 鹰, 文玲英, 储冰峰. 变形链球菌黏附相关分子及其针对性免疫防龋的研究进展[J]. 中华老年口腔医学杂志,2010,8(2):120-123
[2] Romby P,Vandenesch F,Wagner EG. The role of RNAs in the regulation of virulence-gene expression[J]. Current opinion in microbiology,2006,9(2):229-236
[3] Toledo-Arana A,Repoila F,Cossart P. Small noncoding RNAs controlling pathogenesis[J]. Current opinion in microbiology,2007,10(2):182-188
[4] Ajdic D,McShan WM,McLaughlin RE,et al. Genome sequence of Streptococcus mutans UA159,a cariogenic dental pathogen[J]. Proceedings of the National Academy of Sciences of the United States of America,2002,99(22):14434-14439
[5] Livny J,Fogel MA,Davis BM,et al. sRNAPredict: an integrative computational approach to identify sRNAs in bacterial genomes[J]. Nucleic Acids Res,2005,33(13):4096-4105
[6] Kingsford C,Ayanbule K,Salzberg SL. Rapid,accurate,computational discovery of Rho-independent transcriptional terminators illuminates their relationship to DNA uptake[J].Genome Biol,2007,8(2):R22
[7] Jayavel S,Paramasamy G. Computational Small RNA Prediction in Bacteria[J]. Bioinformatics and Biology Insights,2013,7:83-95
[8] 刘 倩,应晓敏,吴佳瑶,等. 基于转录终点序列特征预测大肠杆菌sRNA[J]. 生物物理学报,2011,(3):257-264
[9] Tran TT,Zhou F,Marshburn S,et al. De novo computational prediction of non-coding RNA genes in prokaryotic genomes[J]. Bioinformatics,2009,25(22):2897-2905
[10] Perez N,Trevino J,Liu Z,et al. A genome-wide analysis of small regulatory RNAs in the human pathogen group A Streptococcus[J]. PloS one,2009,4(11):e7668