丁安明,李凌,屈旭,孙亭亭,陈雅琼,宗鹏,李尊强,龚达平,孙玉合
1.中国农业科学院烟草研究所,烟草行业烟草基因资源利用重点实验室,青岛 266100;2.大理州烟草公司弥渡县公司,大理 675600;3.牡丹江烟草科学研究所,牡丹江 157011
典型的 PPR(Pentatricopeptide repeats)蛋白包含2~27个串联重复的含有35个氨基酸残基的PPR或PPR相关结构域; 在其序列N端一般含有长度可变、不保守的细胞器定位序列; 部分序列 C端还含有1~3个非 PPR 结构域-E、E-E+或 E-E+-DYW[1~3]。PPR基因家族在植物特别是陆生植物中广泛存在[1],其在植物生长发育过程中发挥着广泛而且至关重要的作用,例如参与线粒体和叶绿体基因转录后加工(包括 RNA编辑、剪接、剪切、翻译和降解等)、调控细胞质雄性不育相关基因的表达、参与调控胚胎形成和植物生长发育等[2,4~6]。
第一个PPR基因由 Manthey等[7]在酿酒酵母(Saccharomyces cerevisiaeL.)中发现; 第一个植物PPR基因为玉米(Zea maysL.)crp1[8]。随后,大量PPR基因通过其突变体被鉴定出来。2000年,Small和Peeters[9]在对拟南芥(Arabidopsis thalianaL.)进行全基因组分析时发现,具有 PPR结构特点的基因组成一个基因家族,并将其命名为PPR基因家族以方便对其进行描述。之后,该研究组对拟南芥 PPR基因家族进行了系统分析,预测和鉴定了拟南芥基因组441个PPR编码基因,并研究了其组织结构、亚细胞定位和表达特点等[1]。当前,在植物中鉴定基因家族的方法主要有分子生物学和生物信息学两种。随着多个真核生物基因组计划和基因注释工作的完成,生物信息学策略虽然存在假阳性较高的缺点,但利用其对基因家族成员进行功能鉴定和预测,对分子生物学实验具有重要的指导意义。目前,已经对超过 18个已完成测序的植物物种进行了全基因组PPR基因家族分析[10],其中含有PPR基因数目最多的陆生植物是大豆(Glycine maxL.),有629个; 最少的是蒺藜状苜蓿(Medicago truncatulaL.),有365个(苔藓植物除外)。此外,研究发现PPR基因家族的一大特点是其在原核生物中不存在,相对于其他真核生物,在陆生植物中的数目尤为巨大,例如拟南芥和水稻(Oryza sativaL.)分别含有450和477个成员,而人(Homo sapiensL.)、线虫(Caenorhab diti selegansL.)和果蝇(DrosophilaL.)则分别只有6、2和2个成员[1]。PPR结构域在植物之间是高度保守的,均为35个氨基酸的重复基序,基序内高度保守的氨基酸残基使每一个 PPR结构域形成一对 α-螺旋[9],这为利用生物信息学手段进行该家族的同源预测提供了依据。
番茄(Solanum lycopersicumL.)不仅是重要的蔬菜,也是分子生物学研究的模式植物,具有很高的经济价值和抗癌等药用价值。2012年,番茄基因组测序计划完成[11],为PPR基因家族的全基因组生物信息学分析奠定了基础。迄今,笔者尚未见有关番茄PPR基因家族成员的研究报道。鉴于PPR基因家族的重要生理功能,将其从番茄基因组鉴定出来,可为PPR基因的克隆和研究其对番茄的生长发育调控等提供参考。
在番茄基因组数据库ITAG(ftp://ftp.solgenomics.net/tomato_genome)下载已测序完成的番茄基因组序列、预测蛋白质序列(共 34727条)及基因注释信息。在网站 ftp://ftp.sgn.cornell.edu/unigene_builds/Tomato.seq下载番茄转录组数据库。
在 Pfam26.0[12](http://pfam.sanger.ac.uk/)下载 PPR种子序列(PF01535),利用隐马尔科夫模型(profile hidden Markov models,profile HMMs)软件 HMMER 3.0[13]检索番茄基因组功能注释的34727条蛋白质序列。共得到483条候选序列。利用以拟南芥PPR基因家族的 P(PPR)、L、L2、S、E、E+和 DYW 7个保守结构域定义的HMMER矩阵(HMMER matrices,由Small Ian教授提供)对483条序列进行结构域检索,并人工逐条序列进行结构分析和分类。Hmmsearch的E值设置< e-10。
PPR蛋白通常含有2~27个PPR相关结构域,且不包含 7个结构域之外的结构域。因此,对结构分析中只含有一个PPR结构域的序列和含有其他结构域的序列进行检查。在NCBI进行Blastp分析,获得相应 PPR序列的相似序列,在番茄基因组(http://solgenomics.net/gbrowse/bin/gbrowse/ITAG2.3_genomic/)中截取相应基因区域约 10 kb核酸序列,利用 SoftBerry FGENESH+(http://linux1.softberry.com/berry.phtml/)软件进行基于序列相似性的基因结构预测。最后,只含有一个 P结构域的序列被去除,对含有其他结构域的序列进行了修改。
根据序列结构分析的结果,将番茄PPR基因家族7个保守结构域的全部序列分别经ClustalW[14]比对后,利用HMMER 3.0的hmmbuild程序构建各个结构域的 HMMER矩阵,在此基础上,利用hmmemit程序获得各结构域的保守序列。
鉴定的番茄PPR蛋白序列利用ClustalW进行序列比对,默认参数设置。然后利用 MEGA 5[15]构建邻接树(NJ),设置Bootstrap为500次重复。
根据PPR编码基因在ITAG上的物理位置,利用 Genomepixelizer[16]软件将其定位在番茄 12条染色体上,并绘制图谱。
利用信号肽序列预测程序Predotar[17]和TargetP[18]分别对番茄471条PPR蛋白序列进行N端信号肽预测。
利用Blastx程序将番茄转录组数据库与预测的PPR蛋白序列进行比对,E值设置为< e-30,获得PPR基因家族的表达信息。
利用AgBase v2.00[19](http://agbase.msstate.edu/index.html)的相应程序对番茄 PPR蛋白进行GO分析。首先,利用Goanna对番茄PPR蛋白进行Blastp分析,数据库选择 Uniprot; 然后,利用 Goanna2ga程序将产生的比对结果转换为基因关联文件(gene association file); 其次,利用Goslim Viewer产生蛋白功能注释概要; 最后,将所得数据拷贝到Excel作图。
本研究在番茄 34727条蛋白序列中鉴定了 483条PPR蛋白候选序列。在对其进行蛋白结构分析和读码框分析后,11条序列被鉴定只含有一个P结构域,最终被去除; 12条包含其他结构域的序列被修改; 2条序列(03g063370和03g063380)合并为一条序列。因此,本研究共在番茄基因组中鉴定了 471条PPR蛋白序列。
序列结构分析表明,番茄 PPR基因家族分为 P和 PLS两个亚家族,其中 P亚家族有 233条序列,PLS亚家族有238条。PLS亚家族又分成PLS、E、E+和DYW四类,分别有13、83、54和88条序列。所有蛋白序列及其结构见附表1。
利用番茄各结构域的序列及PF01535的PPR序列,获得了各结构域的保守序列,并对 PPR相关序列进行了比较(图1)。
PPR相关结构域比较结果表明,PF01535的保守序列与番茄P、L、S和L2结构域高度相似,其与番茄P结构域相比只包含6个非保守氨基酸残基的变化; PPR相关结构域均包含一对α-螺旋[9],高度保守的氨基酸残基有利于该结构的形成。从图1还可以看出,P与S结构域较L和L2保守性更高,因此,在进行结构域分析时,二者会产生大量重叠。为解决这一问题,根据 PPR蛋白的类型、结构域排列方式和序列匹配得分,对每条序列进行了人工分析。
本研究中,番茄50.5%的PPR蛋白以P-L-S串联重复为组织方式,且其94.5% 序列C端均含有非PPR结构域。保守序列分析表明,番茄E、E+和DYW结构域分别含有76、31和95个氨基酸残基(图2),分别存在于225、142和88条PPR序列中。
通常PPR蛋白包含2~27个串联重复的PPR结构域或PPR相关结构域,平均每条PPR序列含有12个该类结构域[1]。在番茄中,共在 471条 PPR蛋白中鉴定了5600个PPR相关结构域,平均每条序列含有11.9个。
本研究鉴定的番茄471条PPR蛋白序列所构建的系统进化树如图2所示。P亚家族和PLS亚家族分别在进化树两端聚集成簇。PLS亚家族又分成 4个分支,分别为PLS亚家族的PLS、E、E+和DYW四类。
图1 番茄PPR蛋白7个结构域的保守序列及PPR相关序列比较
番茄平均每条染色体含有40个PPR基因,但整个基因家族在各个染色体上的数目差异较大,其中,第Ⅰ、Ⅱ和Ⅲ号染色体含有的PPR基因数目显著多于平均值; 第Ⅴ、Ⅷ、Ⅹ和Ⅻ号染色体上的基因数目只有约 20个,例如在第Ⅻ号染色体上含有 18个成员,而在Ⅰ号染色体上有69个(表1)。每个亚类型成员数目的分布差异也很大,例如E+亚类型在第Ⅹ号染色体上含有 1个成员,而在第Ⅱ号染色体上有10个; DYW亚类型在第Ⅷ和Ⅻ号染色体上含有3个成员,而在第Ⅰ和Ⅲ号染色体上分别有14和12个。
与番茄抗病基因[20]相比,PPR编码基因多不明显成簇存在。事实上,在很多染色体内部,该基因家族成员也密集集中于某些染色体区域,该现象在第Ⅰ、Ⅱ、Ⅲ和Ⅺ号染色体上尤为明显(图3)。
图2 番茄PPR基因家族的进化分析
表1 番茄12条染色体上PPR编码基因的数目
图3 PPR基因在番茄12条染色体上的分布
如图4所示,利用Predotar程序预测,约60%的PPR蛋白定位于线粒体或叶绿体,利用TargetP程序预测得到了相似的结果。P亚家族和PLS亚家族的E、E+定位于线粒体序列数远多于定位于叶绿体的序列数; PLS则刚好相反; DYW定位于线粒体和叶绿体的序列数目相当。此外,PLS亚家族中,除DYW外,未检测到信号肽的序列数目显著多于P亚家族。
通过Blastx比对,为471个PPR编码基因的433个找到了EST证据。未能找到EST表达证据的序列可能尚未被研究或者已进化为假基因。
对番茄PPR基因进行GO分析,以了解其在番茄生长发育过程中的作用(图5)。在分子功能上,约70%的PPR基因具有 RNA结合活性,少数具有DNA结合活性。在生物过程类别中,PPR基因主要参与包含碱基复合体的催化过程、有机体发育过程、代谢和细胞学过程; 部分PPR基因还参与了胁迫反应、胚胎发育、授粉和生长过程等。在细胞组成类别中,大多数PPR基因(66%)是线粒体或叶绿体组分。
随着多个物种基因组计划的完成,从全基因组层面鉴定和研究基因家族的分类、序列特点、进化特征和功能预测等已成为生物学领域所关注的重要问题。PPR基因家族在植物生长发育过程中发挥着至关重要的作用,是当前生物学研究的热点。2012年,番茄基因组计划完成,使其全基因组 PPR编码基因的鉴定成为可能。本研究预测番茄基因组可能含有471个PPR编码基因,但这一数目只是初步预测的结果,可能随着PPR基因的克隆和基因组注释工作的完善而变化。
图4 利用Predotar程序预测PPR基因家族的亚细胞定位
图5 番茄PPR基因的GO分析
与其他植物一样,番茄PPR基因家族分为P和PLS两个亚家族,PLS亚家族又分为PLS、E、E+和DYW 四类。两个亚家族成员各占序列数目的约一半。PPR蛋白的各个结构域在植物之间高度保守。系统进化分析显示,不同类型的PPR基因分别聚集成簇。研究发现,PPR基因家族在维管植物中数目得到巨大扩增,且PLS亚家族为陆生植物特有[1,10]。由此,人们推测 PPR基因家族可能在进化到陆生植物或者维管植物时发生了大规模复制扩增; PLS亚家族可能由P亚家族突变起源[1],其序列C端非PPR结构域的获得和扩增可能是功能进化的需要,例如适应植物中 RNA编辑或剪切位点的增加[26]。PPR编码基因的一大结构特点大多无内含子结构,例如拟南芥和水稻PPR基因家族约80%的序列无内含子结构; 相反,低等植物苔藓基因组约80%的PPR基因是含有内含子的[1,2]。本研究中,番茄约 60%的PPR基因无内含子。研究认为,PPR基因家族起源于反转录转座事件,即祖先PPR基因(有内含子)转录并被加工为成熟RNA后经反转录成为双链DNA(无内含子),插入基因组形成无内含子的拷贝; 重复发生的反转录转座形成了庞大的基因家族,并丢失了内含子[27,28]。因此,PPR基因家族与成簇存在的抗病基因家族不同,在染色体上无明显的簇集现象。
每个PPR结构域可形成一对反向平行的α-螺旋,多个PPR结构域通过形成超螺旋结构结合RNA,参与线粒体或叶绿体RNA加工过程[9,29]。通过计算机程序预测和表达PPR基因编码区或可能的信号区与绿色荧光蛋白基因(GFP)的融合蛋白发现,拟南芥大部分 PPR蛋白定位在线粒体或叶绿体[1]。本研究利用Predotar和TargetP将番茄约60%的PPR序列定位在线粒体或叶绿体; 3%的序列有信号序列,但定位不明确。确切的亚细胞定位还需进一步表达番茄PPR基因与GFP基因的嵌合蛋白进行验证,但不排除定位于其他亚细胞结构的可能性。例如,在拟南芥中就发现 PPR蛋白 GRP23定位于细胞核,与RNA聚合酶II作用,调控转录[30]。经序列比对发现,番茄Solyc01g103160与GRP23相似度为56%,但二者 N端信号序列差异较大,信号肽预测软件将Solyc01g103160定位于线粒体,二者功能是否相似,有待于对其进行克隆和进一步功能分析确定。另外,有 38%的序列未检测到信号序列,可能与预测软件本身的可靠性和基因功能注释的准确性有关,需要进一步完善。目前鉴定的绝大多数PPR蛋白均参与RNA加工,如编辑、剪切等。GO分析发现,番茄66%的PPR蛋白是线粒体或叶绿体组分; 70%的PPR蛋白具有RNA结合活性,少量具有DNA结合活性,参与核酸加工过程。
附表1见www.chinagene.cn。
[1]Lurin C,Andres C,Aubourg S,Bellaoui M,Bitton F,Bruyere C,Caboche M,Debast C,Gualberto J,Hoffmann B,Lecharny A,Le Ret M,Martin-Magniette ML,Mireau H,Peeters N,Renou JP,Szurek B,Taconnat L,Small I.Genome-wide analysis of Arabidopsis pentatricopeptide repeat proteins reveals their essential role in organelle biogenesis.Plant Cell,2004,16(8):2089–2103.
[2]Saha D,Prasda AM,Srinivasan R.Pentatricopeptide repeat proteins and their emerging roles in plants.Plant Physiol Biochem,2007,45(8):521–543.
[3]Schmitz-Lnneweber C,Small I.Pentatricopeptide repeat proteins:a socket set for organelle gene expression.Trends Plant Sci,2008,13(12):663–670.
[4]Wang Z,Zou Y,Li X,Zhang Q,Chen L,Wu H,Su D,Chen Y,Guo J,Luo D,Long Y,Zhong Y,Liu YG.Cytoplasmic male sterility of rice with boro II cytoplasm is caused by a cytotoxic peptide and is restored by two related PPR motif genes via distinct modes of mRNA silencing.Plant Cell,2006,18(3):676–687.
[5]徐相波,邱登林,孙永堂,王守经,孙桂芝,李新华.PPR基因家族的研究进展.遗传,2006,28(6):726–730.
[6]何鹏,陈海燕,俞嘉宁.PPR蛋白参与RNA编辑机制的研究进展.西北植物学报,2013,33(2):415–421.
[7]Manthey GM,McEwen JE.The product of the nuclear gene PET309 is required for translation of mature mRNA and stability or production of intron-containing RNAs derived from the mitochondrial COX1 locus of Saccharomyces cerevisiae.EMBO J,1995,14(16):4031–4043.
[8]Barkan A,Walker M,Nolasco M,Johnson D.A nuclear mutation in maize blocks the processing and translation of several chloroplast mRNAs and provides evidence for the differential translation of alternative mRNA forms.EMBO J,1994,13(13):3170–3181.
[9]Small ID,Peeters N.The PPR motif-a TPR-related motif prevalent in plant organellar proteins.Trends Biochem Sci,2000,25(2):46–47.
[10]Fujii S,Small I.The evolution of RNA editing and pentatricopeptide repeat genes.New Phytologist,2011,191(1):37–47.
[11]Tomato Genome Consortium.The tomato genome sequence provides insights into fleshy fruit evolution.Nature,2012,485(7400):635–641.
[12]Punta M,Coggill PC,Eberhardt RY,Mistry J,Tate J,Boursnell C,Pang N,Forslund K,Ceric G,Clements J,Heger A,Holm L,Sonnhammer ELL,Eddy SR,Bateman A,Finn RD.The Pfam protein families database.Nucleic Acids Res,2012,40(D1):D290–D301.
[13]Finn RD,Clements J,Eddy SR.HMMER web server:interactive sequence similarity searching.Nucleic Acids Res,2011,39(Web Server issue):W29–W37.
[14]Thompson JD,Higgins DG,Gibson TJ.CLUSTALW:improving the sensitivity of progressive multiple sequence alignment through sequence weighting,position-specific gap penalties and weight matrix choice.Nucleic Acids Res,1994,22(22):4673–4680.
[15]Tamura K,Peterson D,Peterson N,Stecher G,Nei M,and Kumar S.MEGA5:molecular evolutionary genetics analysis using maximum likelihood,evolutionary distance,and maximum parsimony methods.Mol Biol Evol,2011,28(10):2731–2739.
[16]Kozik A,Kochetkova E,Michelmore R.GenomePixelizer-a visualization program for comparative genomics within and between species.Bioinformatics,2002,18(2):335–336.
[17]Small I,Peeters N,Legeai F,Lurin C.Predotar:a tool for rapidly screening proteomes for N-terminal targeting sequences.Proteomics,2004,4(6):1581–1590.
[18]Emanuelsson O,Nielsen H,von Heijne G.ChloroP,a neural network-based method for predicting chloroplast transit peptides and their cleavage sites.Protein Sci,1999,8(5):978–984.
[19]McCarthy FM,Gresham CR,Buza TJ,Chouvarine P,Pillai LR,Kumar R,Ozkan S,Wang H,Manda P,Arick T,Bridges SM,Burgess SC.AgBase:supporting functional modeling in agricultural organisms.Nucleic Acids Res,2011,39(Database issue):D497–D506.
[20]Lozano R,Ponce O,Ramirez M,Mostajo N,Orjeda G.Genome-wide identification and mapping of NBS-encoding resistance genes inSolanumtuberosumgroup phureja.PLoS ONE,2012,7(4):e34775.
[21]Cui X,Wise RP,Schnable PS.Therf2nuclear restorer gene of malesterile T-cytoplasm maize.Science,1996,272(5266):1334-1336.
[22]Itabashi E,Iwata N,Fujii S,Kazama T,Toriyama K.The fertility restorer gene,Rf2,for Lead Rice-type cytoplasmic male sterility of rice encodes a mitochondrial glycine-rich protein.Plant J,2011,65(3):359–367.
[23]Fujii S,Toriyama K.Suppressed expression of Retrograde-Regulated Male Sterility restores pollen fertility in cytoplasmic male sterile rice plants.Proc Natl Acad Sci USA,2009,106(23):9513-9518.
[24]Bentolila S,Alfonso AA,Hanson MR.A pentatricopeptide repeat-containing gene restores fertility to cytoplasmic male-sterile plants.Proc Natl Acad Sci USA,2002,99(16):10887–10892.
[25]Jo YD,Kim YM,Park MN,Yoo JH,Park MK,Kim BD,Kang BC.Development and evaluation of broadly applicable markers for Restore-of-fertility in pepper.Mol Breed,2010,25(2):187–201.
[26]O’toole N,Hattori M,Andres C,Iida K,Lurin C,Schmitz-Linneweber C,Sugita M,Small I.On the expansion of the pentatricopeptide repeat gene family in plants.Mol Biol Evol,2008,25(6):1120–1128.
[27]Lecharny A,Boudet N,Gy I,Aubourg S,Kreis M.Introns in,introns out in plant gene families:a genomic approach of the dynamics of gene structure.J Struct Funct Genomics,2003,3(1-4):111–116.
[28]Anderson TM,Hutchison D,Vernon DM.A possible role for RNA-mediated gene duplication in the evolution of a huge plant superfamily.In:Meetings of American Society of Plant Biology.Orlando,USA,2004.
[29]Barkan A,Rojas M,Fujii S,Yap A,Chong YS,Bond CS,Small I.A combinatorial amino acid code for RNA recognitionby pentatricopeptiderepeat proteins.PLoS Genet,2012,8(8):e1002910.
[30]Ding YH,Liu NY,Tang ZS,Liu J,Yang WC.Arabidopsis GLUTAMINE-RICH PROTEIN23 is essential for early embryogenesis and encodes a novel nuclear PPR motif protein that interacts with RNA polymerase II subunit III.Plant Cell,2006,18(4):815–830.