赵丽娜,李巍伟,贺宝玲,胡 芬,王 洋,余 源,高 爽
基于多维液相色谱质谱组合分析的痢疾杆菌蛋白质基因组学
赵丽娜,李巍伟,贺宝玲,胡 芬,王 洋,余 源,高 爽
目的 应用多维液相色谱质谱组合体系为基础的蛋白质组学方法对福氏痢疾杆菌基因组注释进行完善。方法痢疾杆菌福氏2a型301株(Sf2a301)的全菌蛋白经胰酶消化,二维液相色谱分离后进行MALDI-TOF/TOF和ESI-MS/MS组合鉴定,质谱数据分别应用MASCOT和SEQUEST软件检索基于Sf2a301全基因组构建的6个读码框数据库,完成对原基因组注释的验证和补充。结果研究表明多维液相色谱质谱组合体系能够增加鉴定蛋白的覆盖率,共鉴定Sf2a301的1 231个蛋白编码基因产物,涵盖了COGs 数据库22个功能分类组中的20个,包含306个功能未知的假定蛋白。发现了9个未注释的基因,得到RT-PCR和Northern blot的进一步验证。新基因大多数是重叠基因,包含3个嵌套基因。结论多维液相色谱质谱组合体系相对于单一的串联质谱技术能够更加有效验证、补充痢疾杆菌的基因组注释,更新后的基因组注释库为今后开展痢疾杆菌功能研究提供更多的靶点。
福氏痢疾杆菌;基质辅助激光解吸电离;电喷雾电离;蛋白质基因组学;基因组注释
Supported by the National Natural Science Foundation of China (No. 81302323), the Science and Technology Research Project of the higher Education Institutions in Hebei Province (No. QN20131059), the Training Foundation of North
China University of Science and Technology (No. GP201518) and the PhD Research Startup Foundation of North China University of Science and Technology
痢疾杆菌(Shigella)是一种引起人类和灵长类动物细菌性痢疾的革兰氏阴性杆菌。细菌性痢疾是世界上尤其是发展中国家高发的急性肠道传染病,每年有超过100万人死亡。福氏痢疾杆菌(S.flexneri)是发展中国家引起菌痢的主要菌种,在我国福氏痢疾杆菌引起的感染占60%[1]。我国于2001年首先完成了福氏痢疾杆菌优势血清型2a代表株301(S.flexneri2a str.301,Sf2a301) 的全基因组测序和注释工作,应用计算机软件预测Sf2a301全基因组包含4 443个开放阅读框(open reading frames, ORFs)[2]。
目前认为计算机概率算法预测基因由于其内在局限性会引起一定的错误率,迫切需要实验室方法进行验证。近些年兴起的应用蛋白质数据注释基因组的蛋白质基因组学(proteogenomics)是通过质谱鉴定的肽为来源于蛋白编码基因产物的存在提供了最直接证据,与其它基因组注释手段相比有着不可替代的作用。蛋白质基因组学已经被应用于许多经过测序的原核生物的重新注释中[3-5],然而目前最大的问题是相对较低的蛋白鉴定率直接影响了基因组注释的覆盖度和准确度,因此发展快速、高通量的蛋白质基因组学技术方法仍是一项富有挑战性的工作。
基质辅助激光解吸附电离 (matrix-assisted laser desorption ionization,MALDI)和电喷雾电离(electrospray ionization,ESI)是两种不同的离子化方式,以往的研究表明两种质谱联用可以提高鉴定蛋白的覆盖率[6],但至今未见这种方法在基因组注释中的应用。本研究以痢疾杆菌Sf2a301为研究对象,酶解的全菌蛋白经二维液相色谱(two-dimensional liquid chromatography,2D LC)分离后进行基质辅助激光解吸附电离飞行时间串联质谱(MALDI-time of flight tandem mass spectrometry,MALDI-TOF/TOF)和电喷雾串联质谱(ESI-tandem mass spectrometry,ESI-MS/MS)的多维液相色谱质谱组合体系分析,以期从验证已注释基因、发现新基因等方面对痢疾杆菌基因组注释进行全面和精确的验证和补充。
1.1 材料
1.1.1 菌株Sf2a301菌株由中国医学科学院病原生物学研究所惠赠。
1.1.2 主要试剂与仪器 色谱级乙腈(ACN)、三氟乙酸(TFA)等生化试剂购自Sigma公司;测序级胰蛋白酶等酶试剂购自Roche公司;反转录试剂盒等购于Promega 公司。Ultimate 3 000高压液相色谱购自Dionex公司;Ultraflex Ⅲ型MALDI-TOF/TOF质谱仪购自Bruker公司;LCQ Deca XP plus阱质谱仪购自Thermo公司;PTC-100 PCR仪购自Bio-Rad公司。
1.2 蛋白样品制备 从含0.01%刚果红的TSB培养基平板上挑取Sf2a301的单菌落接入5 mL不含抗生素的TSB培养基中,200 r/min,37 ℃培养过夜。过夜培养菌液以1∶100稀释到无抗性TSB培养基中,37 ℃,200 r/min振荡培养,选择细菌生长旺盛的对数生长周期收集菌体。全菌蛋白样品制备操作步骤参见文献[7],提取的蛋白通过BCA法测定浓度。
1.3 还原烷基化和溶液内酶切 具体操作步骤参见文献[8]。部分酶切样品溶于100 μL甲酸(FA)进行ESI鉴定,其余样品溶于100 μL 0.1% TFA后续进行MALDI鉴定。14 000 r/min, 4 ℃离心10 min, 取上清进行质谱分析。
1.4 二维液相色谱分离质谱鉴定
1.4.1 2D LC-MALDI-TOF/TOF分离鉴定 取上述20 μL酶解肽段混合物(0.1% TFA)通过Ultimate 3 000高效液相色谱进行分离,分11个NaCl浓度梯度对第一维强阳离子柱(SCX)进行洗脱,分别为0.5 mmol/L,1 mmol/L,2 mmol/L,3 mmol/L, 5 mmol/L,10 mmol/L,25 mmol/L,50 mmol/L,100 mmol/L,200 mmol/L,500 mmol/L。洗脱下的样品在二维毛细管反相柱中以同样的梯度进行洗脱,流速为2 μL/min,流动相是A液(100% H2O+0.05% TFA)、B液(80% ACN+0.04% TFA)。洗脱条件参见文献[7]:分离的液相馏分点样在自动点靶仪的PAC靶上,PAC靶放入MALDI-TOF/TOF质谱仪进行分析。质谱加速电压是20 kv,串联质谱加速电压是9 kv,质量扫描范围为 m/z 700-4 000 Da。
1.4.2 2D LC-ESI-MS/MS分离鉴定 上述的20 μL解肽片段混合物(5% FA)通过ESI离子肼质谱(LCQ Deca XP plus)进行分析。分15个NH4Cl浓度梯度对第一维SCX进行洗脱,洗脱下的样品通过二维反相柱的流速为200 μL/min, 流动相是A液(100% H2O+0.15% FA)和B液(100% ACN+0.15% FA)。参见文献[8]从反相柱上洗脱下来的肽段以流速为200 nL/min经电喷雾进入质谱检测, 条件为喷雾电压为1.8 kV,一级质谱的质量扫描范围m/z 400-1 500 Da, 选取离子强度最强的3个离子进行二级质谱扫。
1.5 质谱数据分析 MALDI和ESI质谱数据分别通过MASCOT 2.0搜索引擎和SEQUEST 3.3软件检索Sf2a301的6个读码框数据库。MASCOT的检索条件:允许一个酶切位点遗漏,动态修饰为甲硫氨酸氧化,肽段质量误差±0.3 Da,二级质量误差±0.5 Da,大于95% 置信水平的蛋白鉴定结果有统计学意义。在控制假阳性率<1%条件下,SEQUEST筛选条件:ΔCn≥0.1,+1价肽,Xcorr≥1.9,+2价肽,Xcorr≥2.2,+3价,肽Xcorr≥3.75。
1.6 构建Sf2a301的6个读码框数据库 NCBI中下载Sf2a301完整的FASTA格式的全基因组序列,其染色体及大质粒pCP301的核苷酸序列GenBank登记号分别为AE005674和AF386526。利用Perl程序将Sf2a301全基因组序列按照“六位移码翻译”策略,根据所有可能的ORFs翻译成相应的氨基酸序列(保留氨基酸序列大于15的ORFs)。
1.7 细菌总RNA提取及RT-PCR 按照Promega 公司总RNA提取试剂盒说明提取Sf2a301的RNA,测定提取的总RNA的浓度和纯度。根据Primer Premier 5.0软件设计要验证新基因的引物序列(表1)。RT-PCR扩增体系参照Promega公司反转录试剂盒说明书。反应条件:95 ℃变性5 min,94 ℃变性1 min;退火53 ℃, 45 s,72 ℃延伸1 min,30个循环,72 ℃延伸8 min。PCR产物纯化后直接测序,如果是小于100 bp短序列采用PCR产物T载体克隆后测序。
1.8 Northern blot 针对嵌套基因设计的探针序列(表1)。按上述方法提取细菌总RNA,RNA样品中加入1倍体积的2×Loading Buffer中,95 ℃水浴 5 min变性,冰浴1 min。30 μg总RNA样品在6%聚丙烯酰胺凝胶变性胶中进行电泳分离,转膜,将膜置于UV交联仪中自动交联, 80 ℃下干烤2 h,加入6~10 mL ULRAhyb到杂交管中,42 ℃预杂交1~4 h。标记探针,将变性的探针加入到预杂交液中,37 ℃杂交过夜, 低严紧性洗膜,再高严紧性洗膜,压片显影。
2.1Sf2a301的6个读码框数据库Sf2a301全基因组序列按照“六位移码翻译”策略翻译的6个读码框数据库包含90 330个条目的氨基酸序列(每个序列均大于15个氨基酸)。
2.2 蛋白编码基因的表达验证及功能分析 37 ℃条件下于对数生长期(OD600≈1.0)收集Sf2a301菌体。MALDI和ESI串联质谱数据分别通过MASCOT和SEQUEST软件搜索Sf2a301的6个读码框数据库,图1显示两种不同质谱方法鉴定得到的肽和蛋白数目。MALDI鉴定到2 677个肽,ESI鉴定到1 958个肽,总共鉴定结果为3 794个肽(图1A);MALDI鉴定出960个ORFs,ESI鉴定729个,最终鉴定得到1 231个ORFs的编码产物(图1B)。检索结果再与NCBI中Sf2a301的蛋白质数据库进行比对,共验证了Sf2a301的1 222个已注释蛋白。MALDI鉴定的蛋白匹配肽的个数为2.8,ESI是2.7,组合鉴定后单个蛋白匹配的肽段数增加至3.1;MALDI和ESI蛋白鉴定的平均氨基酸序列覆盖率分别为14.3%和13.9%,组合鉴定后升高为16.0%。
表1 RT-PCR引物和Northern Blot探针
Tab.1 Primers and probes used in RT-PCR and Northern Blot
GenetagLength(bp)Sequenceofprimerandprobe(5′-3′)BIO01608118F:TGAACCCAATATCTTTCCTTAGCR:AACGACCAACTCCAGAGCACABIO2349654F:ATGCGGCCCAATTTACTGCTR:TCAGTTTATCGAACAAACCCATBIO0723578F:ATGTTCGGGTCGCAGCATCGR:TTATTGTTCCTTCCTACGCAACBIO43803140F:GCCGCGCTTGTTGAAAACR:CGCACAATCGCGAGCAACBIO50043444F:GGGCATATTCGCTTCCACGR:GGCTACTTCGGTCGCCTCTTBIO00681189F:TGCCATTCTATTTCAGGAAGGR:TCAGCGCAGCACCTCCTGipaD588F:CCTTACTATGCTCAACGACACCR:TGAGATACCTTGCCGATTGTTCnegativecontrol-F:ACCGAGGAATGAATAAAGAAR:TACGAAAACCAGTATTAACCACBIO42245150CGATTTTCGGTCTGACTCGTGGGGT⁃GAACGCTAABIO32212126TTTCTCAATGTGATTACTTCCGTACCGC⁃CCACCACBIO6007263GCCTTTTCTGCACAATCATTGGCTGAATC5srRNA118GCCTGGCAGTTCCCTACTCTCGCATGG
A: Distribution comparision of peptides identified by MALDI and ESI; B:Distribution comparision of proteins identified by MALDI and ESI.图1 不同质谱方法识别的肽和蛋白的数目Fig.1 Identification of peptides and proteins by different mass spectrometry methods
根据蛋白质直系同源簇(clusters of orthologous groups of proteins,COGs)数据库对Sf2a301的已鉴定蛋白进行功能分类,结果显示(图2)所鉴定的蛋白涵盖了Sf2a301的COGs 数据库中22个功能分类组中的20个,即鉴定蛋白几乎参与了痢疾杆菌的所有生物学过程。其中包含306个功能未知的假定(hypothetical)蛋白(S组)。
图2 鉴定蛋白的功能分类Fig.2 Function classification of protein identified
2.3 新蛋白编码基因的鉴定及功能分析 将串联质谱获得的肽段检索Sf2a301的6个读码框数据库,所得鉴定产物若在现有注释库中无同源物,则作为候选的新基因。本研究综合MALDI和ESI鉴定结果共发现9个未注释的新基因,新基因基本特征见表2。应用BLASTP对未注释基因进行其它血清型痢疾杆菌或大肠杆菌的同源蛋白比对,结果显示在其它肠道菌中能够找到同源蛋白的有4个基因,找不到任何同源蛋白的有5个基因。新基因具有两个突出特征:一是序列短,基因编码产物平均由128个氨基酸组成,其中有5个ORFs的蛋白编码产物少于50个氨基酸;二是基因重叠,除了BIO01608和 BIO00681,大多数新基因与已注释的蛋白编码基因有重叠现象。
对于那些与已注释基因无重叠或部分重叠的新基因,应用RT-PCR验证其转录产物的存在。RT-PCR扩增结果(图3)所示,6个基因BIO23496、BIO07235、BIO01608、BIO43803、BIO00681和 BIO50043扩增结果均为阳性,与PCR产物预期大小一致。并对相应的PCR产物进行测序,测序结果与NCBI上预测的核苷酸序列一致。
对于编码序列完全包含在对侧已知更长基因编码序列范围内(nested C)的嵌套基因,应用Northern blot验证其转录产物的存在。结果显示(图4),除阳性对照5S rRNA 外,3个基因均出现杂交信号,分别是BIO42245、BIO32212和 BIO60072,并且杂交条带的大小与预测值相近。
表2 9个新基因的基本特征
Tab.2 Characteristics of nine novel genes
GenetagGenelocationLength(aa)Overlaps∗AnnotationinotherenterobacteriaVerificationBIO006811938609-193842162NoputativebacteriophageproteinRT⁃PCRBIO01608135438-13568080NohypotheticalproteinRT⁃PCRBIO500432538118-2537021365PartialSsulfatetransportersubunitRT⁃PCRBIO438034577512-4576022496PartialChypotheticalproteinRT⁃PCRBIO234962533103-253315617PartialSNoneRT⁃PCRBIO072351784677-178475425PartialSNoneRT⁃PCRBIO422454131171-413132049NestedCNoneNorthernblotBIO32212856749-85687441NestedCNoneNorthernblotBIO600723846510-384644820NestedCNoneNorthernblot
Note: * No. ORFs not overlapping other genes; Partial S: ORFs partially overlapping known genes on the same strand; Partial C: ORFs partially overlapping known genes on the complementary strand; Nested C: ORFs completely contained within known genes on the complementary strand.
M: DNA Marker; 1: BIO23496; 2: BIO07235; 3: BIO01608; 4: BIO43803; 5: BIO00681; 6: BIO50043; 7: negative control (cDNA as template); negative control (genomic DNA as template); positive control (housekeeping gene ipaD).图3 新基因的RT-PCR扩增Fig.3 RT-PCR amplification of novel genes
M: RNA Marker; 1: BIO42245;2:BIO32212;3: positive control 5S rRNA;4: BIO60072.图4 Northern blot检测新基因转录产物Fig.4 Validating transcriptional products using Northern blot analysis
应用生物信息学软件预测新基因编码产物的功能结构域,只有BIO01608和BIO50043的蛋白产物具有特定功能的结构域。BIO01608具有YmgB超家族结构域,与生物膜合成和对酸的抵抗性有关;BIO50043具有ABC-CysA-硫酸盐保守转运结构域,与硫酸盐转运有关。
蛋白质基因组学是将质谱鉴定的肽段定位到用6个读码框翻译策略构建的全基因组骨架上,识别的肽段分为两类,一类是来源于已注释蛋白数据库可用于验证已注释基因的结构与表达;另一类是与6个读码框数据库的核酸序列相匹配,却不包含于已注释蛋白数据库中,可以用于发现新的基因或修正已注释基因的结构[9]。目前研究表明蛋白质基因组学只是作为一种补充手段对已注释基因组进行完善,还不能在全基因组水平上进行基因注释。原因在于其高度依赖蛋白质组学技术的特性使其具有难以克服的内在缺陷,如果不能获得高覆盖率的质谱数据就不能对基因组进行全面的注释,因此蛋白质组学技术方法上的改进和提高势在必行。本研究考虑到单一质谱的局限性,应用2D LC-MALDI-TOF/TOF和2D LC-ESI-MS/MS的多维液相色谱质谱组合体系从蛋白水平上共验证Sf2a301的1 231个ORFs的表达,其中包含1 222个已注释基因的表达产物,占Sf2a301总基因组已注释的4 443个ORFs编码产物的28.0%, 与以往研究相比[7-8]这是迄今为止福氏痢疾杆菌验证蛋白表达基因数目最多的结果。本实验结果显示, MALDI和ESI对肽和蛋白的鉴定结果既相互确认又互相补充,组合鉴定相对于单一质谱鉴定能够很大程度上提高了鉴定蛋白的数量和可信程度,这与以往的研究结论一致[10-11],从而能够更为全面的完善基因组注释。因此,多维液相色谱质谱组合体系可以作为今后完善基因组注释可供借鉴的技术平台。
在任何一个细菌的基因组中,大概有30%~50%的ORFs编码产物是功能未知的假定蛋白。由于没有可供比对的实验验证的蛋白产物,假定蛋白注释过程中相对于已知功能的蛋白注释出错率更高,所以更加需要实验室验证假定的ORFs是否能够翻译成蛋白质[12]。Sf2a301在NCBI已注释蛋白数据库中包括1 944个保守的假定蛋白,本研究共验证了306个假定ORFs产物的表达,占预测的假定ORFs编码产物的16.0% 左右[13]。分析假定蛋白的鉴定率(16.0%)要低于已注释蛋白(28.0%),考虑可能有相当比例注释为假定蛋白的基因其实并不存在,只不过是对基因的错误注释而已[14]。
蛋白质基因组学不仅能对已注释基因进行表达验证,还可以发现新的未注释基因。本研究鉴定的新基因具有序列短和与已注释基因有重叠的特征,进一步分析发现这两个特征恰恰是新基因无法被计算机软件预测的原因。以往研究表明对短基因(尤其是小于150个核苷酸组成的基因)的预测一直以来是计算机预测方法难以解决的瓶颈;而对于重叠基因的预测由于一定的筛选阈值的设定,往往是相对长的基因而非短基因保留下来而被注释[15]。为了进一步证实新基因的存在,本研究通过分子生物学方法RT-PCR和Northern blot分别验证了与已注释基因无、部分重叠的新基因和与已注释基因完全重叠的嵌套基因表达,从而从转录和翻译两个水平证实了新基因的表达。以往研究发现细菌中基因重叠的序列比较短,超过80%以上重叠的核苷酸数目小于30 bp,嵌套基因则更少[16]。一般嵌套基因编码区都是包含于对侧已知基因的编码序列内,如福氏2a痢疾杆菌的setBA /pic[17]、大肠杆菌的ins5B/ins5A[18]和荧光假单孢菌的Pfl01_0939/cosA基因对[19],我们的研究结果发现的3个嵌套基因均符合这样的基因排列方式。嵌套基因的存在增加了基因组结构的复杂性,常规的基因预测算法和标准对判别多个核苷酸重叠的基因有效性差,嵌套基因根本无法通过这种方法进行预测。本研究结果表明蛋白质基因组学是在蛋白水平对嵌套基因进行实验室验证的非常有效方式。
本研究对新基因的功能预测结果显示大多数基因编码产物没有发现特定功能的结构域。文献报道原核生物的基因重叠结构往往与基因表达的调节机制有关,嵌套基因的功能往往与其宿主基因的功能有关联[20]。因此,探讨新基因的生物学功能有待于今后的进一步研究。
[1] Liu Y, Hu L, Pan L. Prevalence of plasmid-mediated quinolone resistance determinants in association with β-lactamases, 16S rRNA methylase genes and integrons amongst clinical isolates of Shigella flexneri[J]. J Med Microbiol, 2012, 61(pt8): 1174-1176. DOI: 10.1099/jmm.0.042580-0
[2] Jin Q, Yuan Z, Xu J, et al. Genome sequence ofShigellaflexneri2a: insights into pathogenicity through comparison with genomes ofEscherichiacoliK12 and O157[J]. Nucleic Acids Res, 2002, 30(20): 4432-4441. DOI: 10.1093/nar/gkf566
[3] Muller SA, Findeiβ S, Pernitasch SR, et al. Identification of new protein coding sequences and signal peptidase cleavage sites ofHelicobacterpyloristrain 26695 by proteogenomics[J]. J Proteomics, 2013, 86(6): 27-42. DOI: 10.1016/j.jprot.2013.04.036
[4] Armengaud J, Hartmann EM, Bland C. Proteogenomics for environmental microbiology[J]. Proteomics, 2013, 13(18/19): 2731-2742. DOI: 10.1002/pmic.201200576
[5] Castellana N, Bafna V. Proteogenomics to discover the full coding content of genomes: a computational perspective[J]. J Proteomics, 2010 73(11), 2124-2135. DOI: 10.1016/j.jprot.2010.06.007
[6] Suzuki T, Maeda T, Grant S, et al. Confirmation of fructans biosynthesized in vitro from [1-13C]glucose in asparagus tissues using MALDI-TOF MS and ESI-MS[J]. J Plant Phsiol, 2013, 170(80):715-722. DOI: 10.1016/j.jplph.2012.12.005
[7] Zhao L, Liu L, Leng W, et al. A proteogenomic analysis ofShigellaflexneriusing 2D LC-MALDI TOF/TOF[J]. BMC genomics, 2011, 12: 528. DOI: 10.1186/1471-2164-12-528
[8] Zhu L, Zhao G, Stein R, et al. The proteome ofShigellaflexneri2a 2457T grown at 30 and 37 ℃[J]. Mol Cell Proteom, 2010, 9(6): 1209-2020. DOI: 10.1074/mcp.M900446-MCP200
[9] Zhang K, Wang LH, Chi H, et al. Proteogenomics: Improving genomes annotation by proteomics[J]. Prog Biochem Biophys, 2013, 40(4): 297-308. (in Chinese)
张昆, 王乐珩, 迟浩, 等. 蛋白质基因组学: 运用蛋白质组技术注释基因组[J]. 生物化学与生物物理进展, 2013, 40(4): 297-308.
[10] Bodnar WM, Blackburn RK, Krise JM, et al. Exploiting the complementary nature of LC/MALDI/MS/MS and LC/ESI/MS/MS for increased proteome coverage[J]. J Am Soc Mass Spectrom, 2003, 14(9): 971-979. DOI: 10.1016/s1044-0305(03)00209-5
[11] Medzihradszky KF, Leffler H, Baldwin MA, et al. Protein identification by in-gel digestion, high-performance liquid chromatography, and mass spectrometry: peptide analysis by complementary ionization techniques[J]. J Am Soc Mass Spectrom, 2001, 12(2): 215-221. DOI: 10.1016/S1044-0305(00)00214-2
[12] Ansong C, Purvine SO, Adkins JN, et al. Proteogenomics: needs and roles to be filled by proteomics in genome annotation[J]. Brief Funct Genomic Proteomic, 2008, 7(1): 50-62. DOI: 10.1093/bfgp/eln010
[13] Ishino Y, Okada H, Ikeuchi M, et al. Mass spectrometry-based prokaryote gene annotation[J]. Proteomics, 2007, 7(22): 4053-4065. DOI:10.1002/pmic.200700080
[14] Jaffe JD, Berg HC. Church GM: Proteogenomic mapping as a complementary method to perform genome annotation[J]. Proteomics, 2004, 4(1): 59-77. DOI:10.1002/pmic.200300511
[15] Payne SH, Huang ST. Pieper R: A proteogenomic update toYersinia: enhancing genome annotation[J]. BMC Genomics 2010, 11: 460. DOI: 10.1186/1471-2164-11-460
[16] Johnson ZI, Chisholm SW. Properties of overlapping genes are conserved across microbial genomes[J]. Genome Res, 2004, 14(11): 2268-2272. DOI: 10.1101/gr.2433104
[17] Al-Hasani K, Rajakumar K, Bulach D, et al. Genetic organization of the she pathogenicity island inShigellaflexneri2a[J]. Microb Pathog, 2001, 30(1): 1-8. DOI: 10.1006/mpat.2000.0404
[18] Delaye L, Deluna A, Lazcano A, et al. The origin of a novel gene through overprinting inEscherichiacoli[J]. BMC Evol Biol, 2008, 8: 31. DOI: 10.1186/1471-2148-8-31
[19] Silby MW, Levy SB. Overlapping protein-encoding genes inPseudomonasfluorescensPf0-1[J]. PLoS Genet 2008, 4(6): e1000094. DOI: 10.1371/journal.pgen.1000094
[20] Jaworski DM, Beem-Miller M, Lluri G, et al. Potential regulatory relationship between the nested gene DDC8 and its host gene tissue inhibitor of metalloproteinase-2[J]. Physiol Genomics, 2007, 28(2): 168-178. DOI: 10.1152/physiolgenomics.00160.2006
Proteogenomics analysis ofShigellaby combined multidimensional liquid chromatography tandem mass spectrometry
ZHAO Li-na, LI Wei-wei, HE Bao-ling, HU Fen, WANG Yang, YU Yuan, GAO Shuang
(CollegeofLifeSciences,NorthChinaUniversityofScienceandTechnology,Tangshan063000,China)
To apply proteomics method based on the combined multidimensional liquid chromatography mass spectrometry to the genome annotation ofS.flexneri, bacterial proteins ofS.flexneri2a str. 301 (Sf2a301) were digested with trypsin, and peptides were separated by using two-dimensional liquid chromatography, and subsequently identified by using MALDI-TOF/TOF and ESI-MS/MS. Spectra data were searched respectively with MASCOT and SEQUEST against all possible six-frame translation database generated from whole genome sequences ofS.flexnerito confirm and complement the genome annotation ofSf2a301. The research showed that proteome coverage could be greatly improved under the combination analysis of multi-dimensional liquid chromatography mass spectrometry. A total of 1 231 proteins ofSf2a301 were unambiguously identified in this research, involved in 20 groups of 22 functional groups in COGs. Meanwhile, 306 hypothetical proteins were validated. Nine novel genes were discovered. Furthermore, novel genes were confirmed by RT-PCR or Northern blot experiment. Most of novel genes were overlapping genes, three even nested within the coding region of other known genes. Compared to any single tandem mass spectrometry, combined multidimensional liquid chromatography mass spectrometry can better validate and complement the genome annotation ofS.flexneri. The updated database could provide more targets for those interested inShigellato perform functional studies.
Shigellaflexneri; MALDI; ESI; proteogenomics; genome annotation
10.3969/j.issn.1002-2694.2016.012.005
国家自然科学基金(No. 81302323);河北省高等学校科学技术研究项目(No. QN20131059);华北理工大学培育基金项目(No. GP201518);华北理工大学博士科研启动基金联合资助
华北理工大学生命科学学院,唐山 063000
R378.25
A
1002-2694(2016)12-1064-06
2016-06-15;
2016-09-14