张帅,王金朋,张宪,金殿川
(河北联合大学理学院,河北唐山 063009;河北联合大学生命科学学院,河北唐山 063009)
粒径的大小是农作物产量的一个主要决定性因素,也是人工培育和驯养的一个主要目标。多年来,科学家们一直致力于寻找调控粒径大小的关键基因,较早的研究指出GH3、GW2和QW5基因均与粒径呈负相关,即基因具有较高的表达水平,种子大小反而随之下降[1];最近Qifa Zhang等研究发现了两条GS5基因序列,该基因编码了丝氨酸羧肽酶(Serine Carboxypeptidase),并指出它是水稻粒径的一个正调节因子,即GS5的表达水平越高其粒径越大[2]。
近年来,有研究指出所有的植物基因组,包括禾本科植物基因组已被重复基因丰富,这些重复基因是由一连串的基因倍增(tandem duplications)、单个的基因倍增(single-gene duplications)、大范围的基因倍增(large-scale duplications)和全基因组倍增(whole-genome duplication)事件产生的[3-5]。禾本科植物的共同祖先大约在70个百万年前发生过一次全基因倍增,并且在此之后禾本科植物中的有些基因家族得到了扩增,如禾本科植物中的高粱,水稻,玉米,拟南芥等的全基因组倍增带来了C4基因家族的扩增[6,7];另外,基因倍增导致基因家族中的部分基因出现了新功能,如全基因组倍增使得花生(Arachis hypogaea)中的抗病基因在功能上得到创新[8]等。然而不同的重复基因在进化过程中常常有不同的命运,大部分的重复基因在进化过程中是会丢失的,植物中保留下来的一些具有功能的重复基因会产生大的基因家族[9]。调控水稻粒径大小相关的基因GS5的获得,将有利于提高水稻以及其它一些禾本科植物的产量,然而其它禾本科植物中是否存在这样的基因序列,其规模是怎样的?基因倍增对GS5蛋白酶家族扩增是否具有促进作用?GS5蛋白酶基因家族的基因具有什么样的进化遗传机制等,这些问题都尚未有过明确的解答。
本文将通过对多个禾本科植物中的GS5蛋白酶进行比较基因组学分析,阐明禾本科植物中GS5的进化遗传机制,并回答上述重要的遗传学问题,为研究禾本科植物如何提高其产率,提供重要的理论基础和材料来源。
五个禾本科植物(水稻:Oryza Sativa,高粱:Sorghum biocolor,玉米:Zea mays,二叶短柄草:Brachypodium distachyon,谷子:Setaria italica)的全基因组序列数据从公共数据库上下载获得(http://www.jgi.doe.gov/);水稻H94和Zhenshan97中的GS5基因的cDNA序列以及基因组序列[]2,从 NCBI(http://www.ncbi.nlm.nih.gov/)上下载得到。
将禾本科五个物种的蛋白质序列作为目标数据库,GS5蛋白酶序列作为查询数据库,利用现有的生物信息学分析程序BLAST进行比较分析,得到GS5蛋白酶与禾本科植物中任意基因间的相似性,根据序列间的打分、序列一致性、匹配期望值,确定基因间的同源性。为了在五个禾本科植物中鉴定出真实的GS5基因家族的成员,这里期望值(E-value)严格设定为1e-5,并且删除打分低于200的基因对,氨基酸序列一致性要求在50%以上,并且匹配序列的空位不超过序列长度的40%。
通过上述分析在五个禾本科物种中,一共获W得176个与GS5相关的基因,它们不均匀的分布在5个物种的基因组中,平均每个物种中包含约35个与调控粒径大小相关的基因,最多的是在二叶短柄草中其数目是45个,最少的是在水稻中仅仅有21个,每个物种可能包含的GS5的基因数量(如图1),这一数据结果显示在水稻基因组中,存在与调控粒径大小相关的基因可能不仅仅是当前发现的两个基因,还可能有其它更多的基因对水稻粒径起着调控作用,它们可能也不同程度的影响着粒径大小的发育;另外,在其他禾本科物种当中也存在调控粒径大小相关的基因。这里获得的GS5基因家族为生物学实验,以及进一步验证这些基因对禾本科粒径大小是否具有正调控作用提供了重要的材料来源。
图1 GS5在每个禾本科植物中的分布
先前的许多研究表明,物种基因组经历基因倍增事件之后,其基因组会产生大规模的变化,如基因组重排(Gene recombination)、基因倒位(Gene inversion)、基因丢失(Gene loss)等[10-11],一个重要的特征就是在物种基因组中有大量的重复基因出现,并且这些重复基因以不同规模排列在不同的染色体上,基于基因的同源性以及基因在染色体上的位置分布,若将任意两条染色体间的重复基因片段排列在二维平面图中,这些重复基因在图中将以连续的点构成线形,这一染色体间的共线性片段称为一个模块(Block),即共线性区域(Synteny)。
为了推断五个禾本科物种基因组中的重复基因,我们采取共线性的方法。根据BLAST提供的基因序列间的相似性,以及基因在染色体上的物理位置寻找共线性的区域。
对于每个共线性区域的打分采取的是一个动态规划的算法,给出blocks的分数:
其中u和v是在某个blocks中的两个基因对,u在v的前面出现。
对于出现一对blocks期望值以下面的方式进行估计:
其中N是由定义的共线性两个染色体的区域中匹配的基因对的个数,m是在鉴定的blocks中的基因对的个数,L1和L2是两个染色体区域各自的长度,l11和l22是两个临近共线性同源基因对之间的距离。
这里Perl语言编程结合集成共线性分析软件MCscan设定的评分方案是对每一对匹配基因对打分为,50 )最小值,失配罚分为-1,对任意同源基因对之间的距离设定为最大1000bp;最后将得分在>300,并且共线性区域的期望值E_value<1×10-10作为重要的分界标准,确定物种中由基因倍增产生的重复基因对(Paralogs),以及两物种之间的直系同源基因对(Orthlogs)。在每个禾本科植物基因组中发现约有10%的基因是由基因倍增产生的重复基因。
为了推断GS5基因家族与基因倍增事件的相关性,这里将GS5基因家族的176个基因在禾本科五个物种的共线性区域中进行搜索,寻找这些基因是否处于基因的共线位置。在共线性数据文件中发现GS5基因家族的176个成员中有54(~30.7%)处于共线性区域,有31(~17.6%)是由一连串的基因重复产生。这一研究结果显示,在物种进化过程中基因倍增可能对GS5基因家族的扩增有促进作用。五个禾本科植物基因组共线性示意图(如图2)。
图2 五个禾本科植物系统发育关系及共线性示意图
图2.A 5个禾本科物种的系统发育树,5个禾本科物种共有一个多倍体祖先物种;B图中黑色的横线表示的是5个物种中共线的DNA片段,横线上不同颜色的圆柱是每个物种中不同的基因,相同颜色的圆柱表示同源基因,无填充颜色的圆柱表示基因丢失,绿色曲线表示的是基因重复,黑色的矩形表示基因插入。
构建物种或者基因进化树是推断物种或者基因亲缘关系远近的一种距离度量,对于一个物种或者某一类物种来说,其分子变异的速率(即一个核苷酸或者氨基酸位点的变化速度)是恒定的,根据这一理论,我们可以从构建的系统进化树中发现某基因在其进化过程中进化速率的快慢。
为了推断GS5基因家族成员之间的进化关系,这里应用临近距离法、极大似然法以及最小进化法等几个方法构建其系统进化树,应用本地集成的软件MEGA,PHYLIP,PHYML对GS5基因家族的蛋白质序列以及CDS序列进行构树,并且对构建的基因树进行置换检验1000次,评估构建系统发育树的稳定性,最后将最为稳定的基因树作为其真实的树型,用来对GS5基因家族作进化分析。
图3 禾本科GS5基因家族的系统发育树
图3中棕色代表二叶短柄草中的GS5基因,红色代表水稻中的GS5基因,绿色代表高粱中的GS5基因,深蓝色代表玉米中的GS5基因,浅蓝色代表谷子中的GS5基因。
从基因树的拓扑结构上可以发现:在基因树中有5中不同颜色的三角存在,这表明在五个禾本科植物中都存在GS5相关的基因序列;在树的同一节的分支上有不同颜色的三角,这表明这些GS5基因是由于物种的分化而分离的一组直系同源基因;在树中处于同一节点的不同分支上有的颜色相同,这表明这些基因一些是由全基因倍增而分离的处在同一物种中的旁系同源基因对,另外结合共线性数据分析结果发现,这些基因中的一些重复基因在染色体上是紧挨着的基因簇,如:二叶短柄草的三号染色体上的三个基因Bradl3g34610.4,Bradl3g34610.1,Bradl3g34610.1;GS5基因树上处于同一节点的几个分支的长度不尽相同,这表明这些基因的进化速率不一致,有的基因分支长度明显长于其它基因分支长度,这将使得这一基因很快变异为新的基因序列,可能会带来基因出现新的功能来支撑物种生存。
GS5作为正调控水稻粒径大小的基因,对于水稻的产率具有十分重要的作用。本文通过对水稻中调控谷粒粒径大小的基因GS5与禾本科植物全基因组序列进行比较分析,在五个禾本科植物中确定了GS5基因家族成员;并对基因倍增与GS5基因家族进化的相关性进行了分析,发现基因倍增有利于GS5基因家族成员的扩增;系统发育分析发现其家族具有不同的进化速率。这一研究结果为发现调控禾本科粒径大小的基因提供了材料来源,在一定程度上可以节省资源和时间。那么,是什么因素导致GS5中某些基因变异速率较快,是否会进一步导致基因新的功能的出现,这将是今后进一步验证的问题。
[1]王凤梅.水稻功能基因组学研究[J].生物技术通报,2007,1:10-13.
[2]Li Y.B,Fan C.C et al.Natural variation in GS5 plays an important role in regulating grain size and yield in rice[J].Nature,2011.
[3]Ghaemmaghami,S.,Huh,W.K.,Bower,K.,Howson,R.W.,Belle,A.,Dephoure,N.,O'Shea,E.K.& Weissman,J.S.(2003)Global analysis of protein expression in yeast,Nature.425,737-41.
[4]Yu,J.Wang,J.Lin,W.Li,W.Zhang,B.Hu,W.,et al.(2005)The Genomes of Oryza sativa:a history of duplications,PLoS Biol.3,e38.
[5]Wang,X.,Shi,X.,Li,Z.,Zhu,Q.,Kong,L.,Tang,W.,Ge,S.& Luo,J.(2006)Statistical inference of chromosomal homology based on gene colinearity and applications to Arabidopsis and rice,BMC Bioinformatics.7,447.
[6]Paterson,A.H.,Bowers,J.E.,Bruggmann,et al.(2009)The Sorghum bicolor genome and the diversification of grasses,Nature.457,551-6.
[7]Wang,X.,Gowik,U.,Tang,H.,Bowers,J.E.,Westhoff,P.& Paterson,A.H.(2009)Comparative genomic analysis of C4 photosynthetic pathway evolution in grasses,Genome Biol.10,R68.
[8]Milind B.Ratnaparkhe,X.W.,Jingping Li,Rosana O.Compton,Lisa K.Rainville,Cornelia Lemke,Changsoo Kim,Haibao Tang,Andrew H.Paterson.(2011)Comparative analysis of peanut NBS‐ LRR gene clusters suggests evolutionary innovation among duplicated domains and erosion of gene microsynteny,New Phytologist.192,164-178.
[9]Wang,X.,Shi,X.,Hao,B.,Ge,S.& Luo,J.(2005)Duplication and DNA segmental loss in the rice genome:implications for diploidization,New Phytol.165,937-46.
[10]Paterson A H,Bowers J E,et al.Ancient polyploidization predating divergence of the cereals and its consequences for comparative genomics[C].Proc Natl Acad Sci U S A,2004,101(26):9903-8.
[11]Wang X,Shi X,et al.Duplication and DNA segmental loss in the rice genome:implications for diploidization[J].New Phytol,2005,165(3):937-46.