贾立君,李凤霞,马汇泉
(1.黑龙江省农业科学院佳木斯分院 佳木斯;2.山东理工大学生命科学学院)
近年来,人们陆续通过宏基因组技术,筛选到新的生物素合成操纵子、脂(酯)酶、琼脂糖酶、甘油脱水酶、蛋白酶和抗菌化合物及合成酶基因簇等[1-2]。刘舒等人通过构建番茄灰霉病病株根际土壤宏基因组文库,通过功能筛选法成功筛选到5 个(4#、9#、11#、15#、17#)对灰葡萄孢菌具有拮抗性的克隆子,其中9#克隆子的拮抗性最强,并对其进行测序,这为番茄灰霉病的生物防治提供了一条新的研究思路。
生物信息学分析是目前推测基因或蛋白质功能的一个非常有利的手段[3],应用生物信息学对基因结构或功能进行预测,再加以实验验证,可以大大提高实验的准确度和精确度。基于番茄灰霉病病株根际土壤宏基因文库中的9#克隆子的测序结果,对其进行生物信息学分析,为进一步研究该基因对灰葡萄孢菌的拮抗机理提供一定的理论基础。
GGAGAACGCGGTGGCGGCCGCTCTAGACTAGT GGATCCCCCGGGCTGCAGGGTTTTGGAAAGTATATT CTCCTCTGTAATTTCAACAATTATGTGGAGCTGTTTG CAGGATGGCACAAGGTGAAGGTGATCGGAGAGGAC CGCCCCATGCAATGTGCCACGGCGGAAGGGATCAC CATTATCAATTTCGGCATGGGCAGTGCCAGCGCGGCCACCATCATGGACCTGCTCAGCGCCATCAAACCCAA GGCTGTCTTGTTTTTGGGAAAGTGCGGGGGCATCAA ACGGAAGAATAAGCTGGGGGACCTGATCCTCCCCA TTGCAGCCATCCGGGGAGAAGGCGCCTCGGACGAT TATTTCCC1GCCCGAGGTGCCGGCATTACCGGCCTTC GCGCTGCAAAAAGCCACTTCCACGGCCATTCGTGAT AACAACCGTGATTATTGGACCGGGACCTGCTACAGC ACTAACAGGCGTGTCTGGGAGCATGACGGTGAGTTC AAAAAATACCTTAATAAAATACGCGCGATGGCAGT GGACATGGAAACCGCCACGATCTTCACGGTGGGAT TTTACAACCACATCCCCACCGGCGCTCTCCTGCTGG TATCCGACCGGCCCATGATCGCCGAGGGCGTCAAG ACCGAGAATAGCGATAAAGGCATCACGGCTAACTA TGTGGAGCTTCACCTTAAGATTGGCATTGATTCACTG AAACATCTGATCAATAAAGGGTTGACGGTAAAGCA CCTCATATTCTGAATCTCCCGGAATAAGCCGAGGGT GATCAGCTTTCAACAGACCCTGCCTGATGAAGGGAC TTTAGAAACTTGCTTTAAACTGAACGTTTTACAACA AAAAAACAAGTATGCAACAGGTAGAACATATTGCG ATCGCCGTCAAATCCCTCGAACAAGGCCATTCAGCT TTATGAACGCTTGCTGAACAGAAAGTGCTATAAGAC GGAGCAGGTGAAATCCGACACGGTGAATACCGCTT GTTTTGAAGACGAGGAACACCCGTGATAAATTGAC TGT。
DNA 序列及编码蛋白序列在NCBI 中进行blastn 和blastp 同源性比对,运用ORFfinder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)寻找序列的最大开放阅读框,用DNAMAN 翻译序列的最大开放阅读框,用EMBL-EBILK 中心开发的在线工具CpGPlot(http://www.ebi.ac.uk/emboss/cpgplot/index.html)预测该序列的CpG 岛,用Neural Network Promoter Prediction 工 具(http://www.fruitfly.org/seq_tools/promoter.html) 预测该序列的启动子区域,用POLYAH(http://www.softberry.com/berry.phtml?topic=polyah&group=programs& subgroup=promoter)预测该序列的转录终止信号,用工具CodonW(http://bioweb.pasteur.fr/seqanal/interfaces/codonw.html)计算编码区密码子的偏好性,用Expasy 提供的ProtParam、ProtScale、COIL 等工具(http://expasy.org/tools/)分别预测蛋白序列的基本理化性质、亲疏水性、卷曲螺旋区 域, 用 TMHMM(http://www.cbs.dtu.dk/services/TMHMM -2.0/) 预 测 蛋 白 的 跨 膜 区 域,用PredictProtein(http://www.predictprotein.org/)预测蛋白的二级结构,用InterProScan(http://www.ebi.ac.uk/InterProScan/)预测蛋白的结构域,用Expasy 提供的SWISS-MODEL 和SWISS-PdbViewer 工具预测和观察蛋白的三级结构。
2.1.1 同源性
将该序列在Genebank 进行blastn 同源性搜索,发现该基因序列与面包虫编码黑色素抑制蛋白的MIP mRNA 以及编码Tm-肽聚糖蛋白-SA 前体的Tm-PGRP-SA mRNA 最高相似度可达100%,但是其覆盖率很低,只有4%(表1)。因此,需要进一步分析其编码的蛋白质研究其结构与功能。
表1 Genebank 中的blastn 检索结果Table 1 The search results of blastn in Genebank
2.1.2 最大开放阅读框
该基因147~758 bp 有一个最大开放阅读框(ORF),612 bp,翻译结果是:MQCATAEGITIINFGMG SASAATIMDLLSAIKPKAVLFLGKCGGIKRKNKLGDL ILPIAAIRGEGASDDYFPPEVPALPAFALQKATSTAIR DNNRDYWTGTCYSTNRRVWEHDGEFKKYLNKIRA MAVDMETATIFTVGFYNHIPTGALLLVSDRPMIAEG VKTENSDKGITANYVELHLKIGIDSLKHLINKGLTVK HLIF。
2.1.3 转录调控序列
CpG 岛预测结果显示,在468~670 bp 处有一个203 bp 的CpG 岛,序列各个位置G+C 含量观察值/期望值(Obs/Exp)比率=0.6,(G+C)%>50%,CpG 岛通常出现在基因的启动子和起始外显子附近,因此推测在该CpG 岛附近可能存在该基因的启动子和起始外显子。
启动子区域预测结果显示,在502~552 bp 和942~992 bp 区域有2 个启动子,但是第二个启动子位于转录终止信号的下游方向,所以502~552 bp 处的启动子区域才是可能的启动子区域。
转录终止信号预测结果显示,在510 bp 和723 bp 处有2 个可能的polyA 位点,因为序列本身存在重复序列,推测510 bp 处的polyA 位点为假阳性。
2.1.4 编码区密码子的偏好性
编码区密码子的偏好性计算结果表明,该基因编码区有效密码子数目Nc 值50.49,说明该基因编码区不存在特别明显的密码子偏好性。采用CUPS、CondonW 程序及密码子数据库对编码区密码子统计分 析,ACG、AGC、TTG、TTT、GGG、ATC、AAA、CGG、GAT、TAT、TTC 和CCG 这12 个密码子为该基因使用频繁的密码子。通过不同物种或基因间密码子使用频率比对,可择优选择表达系统或改变密码子,从而提高外源基因的表达。但外源基因的表达受到多种因素的共同作用,密码子使用的影响只是其中之一。
2.2.1 编码蛋白的基本理化性质
该蛋白的理论分子量为22.186 7 KDa,G+C 含量51.4%,编码203 个氨基酸,等电点为8.91,含碱性氨基酸(H,K,R)29 个,酸性氨基酸(D,E)20 个,疏水氨基酸(A,F,I,L,M,P,V,W,Y)98 个,极性氨基酸(S,T,N,Q,Y,C,D,E,H,K,R)94 个,正电荷残基(Asp+Glu)总数为22,负电荷残基(Arg+Lys)总数为18,分子式为C1816H2722N424O480S26,不稳定系数为18.95(小于40),归为稳定蛋白,脂肪系数为96.21,总平均疏水性为0.006,表明其为疏水性脂溶蛋白。
2.2.2 编码蛋白的同源性
将蛋白序列在NCBI 中进行blastp 比对,发现该蛋白与黄杆菌菌株DSM2366 和鞘脂杆菌株21 的AMP 核苷酶序列的同源性较高(表2),与通过Swiss-Prot 同源搜索的结果一致,推测该编码蛋白可能是一种新型的AMP 核苷酶。
表2 NCBI 中的blastp 检索结果Table 2 The search results of blastp at NCBI
2.2.3 编码蛋白的亲疏水性
编码蛋白亲疏水性计算结果显示,在13、27、39、57、79、137、149 氨基酸位点附近属高疏水性区域,在44~50、91~100、104~122、164~171 氨基酸区域属高亲水性区域(图1)。蛋白质折叠时会形成疏水内核和亲水表面,同时在潜在的跨膜区会出现高疏水值区域,因此推测在预测的7 个高疏水性区域可能存在跨膜区。
2.2.4 编码蛋白的跨膜区
编码蛋白跨膜区的预测结果显示,1~8 氨基酸位于膜外,跨膜区位于9~31 氨基酸区域,32~203 氨基酸位于膜内(图2),结合该蛋白的亲疏水性分析,跨膜区属于疏水性区域,预测的编码蛋白的二级结构显示,该跨膜区富含螺旋结构。
图1 编码蛋白亲疏水性分布图Fig.1 Hydropathy profile of coding protein
图2 编码蛋白跨膜区预测Fig.2 Prediction of coding protein transmembrane region
图3 编码蛋白卷曲螺旋区预测Fig.3 Prediction of coding protein coiled-coil region
2.2.5 编码蛋白的卷曲螺旋区
编码蛋白卷曲螺旋区的预测结果显示,在111~134 氨基酸区域内存在一个卷曲螺旋(图3),卷曲螺旋结构存在于许多天然蛋白质中,如转录因子、膜蛋白等,它们在基因调控、分子识别方面具有重要作用,结合对编码蛋白的亲疏水性分析,该卷曲螺旋区域与该蛋白的一个高亲水性区域重叠,因此推测该基因可能在拮抗灰葡萄孢菌过程中识别病原菌产生的毒素方面起重要作用。
编码蛋白的二级结构的预测结果表明,该蛋白含有38.92%的α 螺旋,17.73%的β 折叠,43.35%的环状结构。结构域预测结果显示,该蛋白在9~160 氨基酸区域存在AMP 磷酸化酶结构域,属于PNPUDP-1 超家族(图4)。模体搜索发现该蛋白含有5个蛋白激酶C 磷酸化位点(106~108、154~156、168~170、187~189、197~199),1 个酪蛋白激酶II 磷酸化位点(23~25),3 个N-豆蔻酰化位点(15~17、101~103、171~173),这些位点均与细胞内信号传导、蛋白定位以及黏附等过程有关,推测该基因可能在拮抗灰葡萄孢菌过程的信号转导中发挥重要作用。
图4 编码蛋白结构域预测Fig.4 Prediction of coding protein domain
采用同源建模法预测编码蛋白的三级结构(图5),编码蛋白和1ybf 蛋白的A 链具有较高的相似度(65%),通过Anolea/Gromos/Verify3D 3 个评估程序检测模型的健康度显示预测的蛋白模型能量较低,健康度较高。
图5 编码蛋白三级结构预测Fig.5 Predicton of coding protein tertiary structure
通过SWISS-PdbViewer 观察编码蛋白的三维模型(图6),结果显示有194 个氨基酸残基(97.54%)的二面角落在允许的范围内,175 个氨基酸残基(86.21%)的二面角落在最允许的范围内,只有9 个氨基酸残基(4.43%)的二面角落在不允许的范围,结果表明编码蛋白的三维模型的二面角分布和立体构象均较为合理,符合立体化学φ、ψ 二面角分布的要求,其空间结构稳定[4]。
图6 编码蛋白三维模型观察Fig.6 Observation of coding protein tertiary structure
对基因序列进行分析发现,该基因编码的蛋白质仅与AMP 核苷酶(Accession No.YP_004318143.1 at NCBI)具有80%的同源性,推测其可能是一种新型的AMP 核苷酶。该基因可能编码含有203 个氨基酸的小分子量、疏水性脂溶的稳定蛋白质。编码蛋白的序列中含有5 个蛋白激酶C(PKC)磷酸化位点,1 个酪蛋白激酶II 磷酸化位点,3 个N-豆蔻酰化位点。蛋白质磷酸化是调控蛋白质功能和定位的主要的翻译后修饰,蛋白质的磷酸化状态对信号传导途径是非常重要的,磷酸化能阻止某些激酶和激活磷酸酶,从而改变正常的转录方向。
PKC 是一个磷脂依赖的遍在蛋白,大量研究表明,PKC 在与细胞增殖、分化和细胞程序性死亡关联的信号传导中发挥重要作用[5]。酪蛋白激酶Ⅱ磷酸化位点和N-豆蔻酰化位点也均与细胞内信号传导、蛋白定位以及黏附等过程有关。据此推测,该基因编码的蛋白可能在拮抗灰葡萄孢菌过程的细胞黏附、信号传导中发挥重要作用。它可能是细胞内与分子识别有关的某个蛋白或其亚单位,卷曲螺旋结构有助于它对灰葡萄孢菌毒素分子进行识别。
灰葡萄孢菌产生的毒素在植物致病过程中是重要的致病因子,它能直接与寄主的DNA 结合,终止DNA 的合成,或者直接吸附于寄主的核糖体上,抑制蛋白质的合成,由此推测AMP 核苷酶表面可能具有毒素可以识别并结合的特异性位点,而且这种识别与结合程度在不同的生物体内是不同的。
灰葡萄孢菌毒素的主要成分是botrydial 和dlihvdrobotrydial,基本骨架是双环状的、非类异戊二烯倍半萜烯类化合物,AMP 核苷酶存在于许多种生物体内,能够催化水解核苷或核苷酸衍生物中N-糖苷键,由此推测灰葡萄孢菌毒素物质的结构中可能含有N-糖苷键。
AMP 核苷酶可能通过信号传导、分子识别、特异性结合、或者水解毒素N-糖苷键而在拮抗灰葡萄孢菌的过程中发挥极其重要的作用,对于该基因的生物学功能还需要进一步通过实验进行验证,为研究灰葡萄孢菌的拮抗机理提供理论基础。
[1]SF Brady and J Clardy.N-acyl derivatives of arginine and tryptophan isolated from environmental DNA expressed in Escherichia coli[J].Organic Letter,2005(7): 3613-3616.
[2]T Waschkowitz,S Rockstroh ,and R Daniel.Isolation and characterizeation of metalloproteases with a novel domain structure by construction and screening of metagenomic libraries [J].Applied and Environmental Microbiology,2009(75),2506-2516.
[3]于永忠,郭雯,吴欣媛,等.靶向ORFV-DNA ploymerase基因shRNA 表达载体的构建[J].黑龙江八一农垦大学学报,2012,24(4):38-41.
[4]L Huang,J S Cao,Y C Zhang,et al.Identify of a new cabbage pollen development -related gene BcMF7[J].Science China,2007(37): 479-487.
[5]Z Y Liu and X P Cai.Homologous modeling and analysis of Cysticercus celluosae dUTPase[J].Vet Sci Chin,2007(9): 742-745.
[6]S A Clement,C C Tan,J L Guo,et al.Roles of protein kinase C and alpha-tocopherol in regulation of signal transduction for GATA-4 phosphorylation in HL-1 cardiac muscle cells[J].Free Radic Biol Med,2002(32):1344-1350.