唐 珍,郭冬梅
木质素单体合成基因的分子进化分析
唐 珍,郭冬梅*
(川北医学院生物化学教研室,四川南充637000)
近年来,人们对基因所受的净化选择压力强度与基因在代谢途径或调控网络中所处的位置之间是否具有显著相关性进行了激烈争论.为解决这一争论,本研究通过挖掘6个十字花目物种的全基因组序列库,获得了它们所拥有的全部10个参与木质素单体合成的基因家族成员.在此基础上,分别对每一基因家族进行分子进化分析.结果表明,参与木质单体合成的但基因所受到的净化选择压力强度与其在代谢途径中所处的位置之间无相关性.本研究通过合理的取样、可靠的分析方法以及理想的代谢途径获得了可靠的研究结果,并为解决解决以上争议提供了有力的依据.
木质素单体合成途径;基因家族;分子进化;净化选择
基因在进化过程中所受的选择压力有3种类型,即净化选择(非同义突变对基因适合度有害)、中性选择(非同义突变对适合度没有影响)和正选择(非同义突变对适合度有利)[1-2].分子进化研究的方法之一即检测基因所受的选择压力,进而探讨基因进化与功能之间的关系.最初的分子进化研究对象主要是单个基因或基因家族,之后转向为整个代谢途径或调控网络.在这些研究中,关于基因所受到的自然选择压力强度与基因在代谢或者调控网络中所处的位置是否具有相关性,引起人们激烈的争论,研究者通过对不同代谢途径或调控网络进行研究后得出截然不同的结论.有研究结果表明二者之间存在显著的相关性,即位于代谢途径上游或者调控网络中心的基因受到更强烈的净化选择作用,而位于其他位置的基因则受到更为松弛的选择压力[3-6];然而,最近有对参与花器官发育调控网络的所有基因家族分子进化的研究,研究认为调控网络的拓扑结构并不能对基因的进化速率产生影响,能对其产生影响的是基因本身所行使的功能,即基因在调控网络中的位置与基因所受到的选择压力无关[7].这2种截然不同的观点到底是因为研究对象不同,即不同的代谢途径或者调控网络可能有不同的进化模式,还是由于某些研究中所采用的分析方法不当造成的呢?要解决这一问题,需要对更多的代谢途径进行研究.
木质素是维管植物的重要组成部分,具有重要的生物学功能.它主要分布于植物细胞的次生细胞壁,为植物的向上生长提供机械支撑,参与植物中水分和溶质的运输以及植物的防御过程,在植物对环境的适应中扮演重要角色[8-9].木质素由木质素单体聚合而成,木质素单体合成途径是苯丙烷类代谢途径的一个分支,另一分支是类黄酮合成途径[10].目前对木质素单体合成途径已有较深入的研究,特别是在模式植物拟南芥(Arabidopsis thaliana)中,参与该途径的所有基因都被克隆,且基因功能也有深入研究[11-12](图1),这为本研究提供了坚实的研究基础.
本研究拟对参与木质素单体合成途径的所有基因进行分子进化研究.利用植物全基因组数据库资源,以十字花目(Brassicales)中具有全基因组序列的6个物种为材料,通过同源搜索获得参与该途径的10个基因家族在6个物种中的直系同源成员信息.这10个家族包括:phenylalanine ammonialyase(PAL);cinnamate 4-hydroxylase(C4H);4-coumarate:CoA ligase(4Cl);p-hydroxycinnamoyl-CoA(HCT);caffeic acid/5-hydroxyconiferaldehyde O-methyltransferase(COMT);p-coumarate 3-hydroxylase(C3H);ferulate 5-hydroxylase(F5H);caffeoyl-CoA O-methyltransferase (CCoAOMT);cinnamoyl-CoA reductase(CCR); cinnamyl alcohol dehydrogenase(CAD).利用软件PAML分别对这10个基因家族进行选择检验,进而探讨以上基因在木质素单体合成途径中所处的位置与基因所受到的自然选择压力的相关性.
1.1 序列搜索及直系同源成员的确定 由于木质素合成途径的10个基因家族都是多拷贝基因家族,但是真正参与木质素单体合成途径的仅仅是其中的一个或少数几个成员[13].本研究根据J.Rase等[11]的工作,并结合有关这些基因的功能研究结果[14-17],从 NCBI获得 Arabidopsis thaliana中所有真正参与木质素单体合成途径的基因家族成员信息,即所谓的bona fide成员.分别以每一个成员的核苷酸序列为模板,利用BLAST对植物全基因组数据库(http://www.phytozome.net/)中十字花目的其他5个物种(即Arabidopsis lyrata,Capsella rubella,Brassica rapa,Thellungiella halophila,Carica papaya)进行同源搜索.在参考已有的相关基因家族的系统发育研究结果基础[13-18],重新构建这10个基因家族在以上6个物种中的系统发育关系.根据重建的系统发育研究结果,就可以初步确定6个物种中所有真正参与木质素单体合成途径的bona fide成员,即10个基因家族成员在6个物种中各自的直系同源成员.序列分析中,序列比对采用BioEdit软件[19],系统发育重建采用PhyML软件[20].
1.2 选择分析 最大似然法检测基因所受的自然选择压力,使用PAML中的 codeml模块分析软件[21].本研究分别对以上10个基因矩阵进行位点模型分析和枝模型(Free ratio branch model)分析.位点模型假定不同位点可以受到不同的选择压力,而系统树上所有的枝则受到相同的选择压力,主要参数设置为Model=0;NSsites=0、1、2、3、7、8.模型M0/M3、M1a/M2a和M7/M8利用LRT进行两两比较,再通过卡方检验比较不同模型之间是否有显著差异[22].枝模型假定系统树上不同枝可以受到不同的选择压力,而所有位点受到相同的选择压力,主要参数设置为Model=1;NSites=0[23].
2.1 基因拷贝数目及序列特征 在本研究所涉及的6个物种中,10个基因家族的基因拷贝数目变异情况见表1,其中PAL和4CL的拷贝数目最多,为3~6个.基因成员数目最多的物种是Brassica rapa,为2~6个,这可能与该物种近期发生过全基因组的3倍化有关[24].另外,除个别基因在个别物种中有3个成员外,剩下8个基因(除了 PAL和4CL外)在其他5个物种(除Brassica rapa外)中的成员数目基本为1~2个.两条序列间的变异程度可以用系统发育树中的枝长来度量,枝长代表了每一个密码子的核苷酸替代数目.所有的枝长之和就是树长,可以用它来衡量一个序列矩阵的整体变异程度[25-26].本研究所涉及的 10个基因矩阵,除CCoAOMT外(树长为0.56),其余9个基因矩阵的树长都在2~10的范围内(表2).
2.2 选择检验结果 位点模型的检验结果显示所有基因在M0模型(所有位点以及所有枝都受到相同的选择压力)下的ω值变异范围是0.02~0.15 (表2).通过对不同模型的似然值ln L进行卡方检验,结果为:1)M0与M3差异显著,表明不同位点受到的选择压力是有差异的;2)M1a(中性选择模型)与M2a(正选择模型)差异不显著,表明M2a模型未能检测到正选择位点;3)M7/M8是M1a/M2a的改良模型,相对于M2a,M8更容易检测到正选择位点,其中在5个基因(C4H,C3H,F5H,COMT,CAD)中,这2个模型差异显著.有关正选择位点的贝叶斯分析中,仅2个基因(C3H和CAD)有唯一正选择位点,其贝叶斯后验概率(P)大于0.95(表2).枝模型检验的结果显示,除COMT的基因树上有1个枝的ω值大于1外,其余所有基因树上的所有枝的ω值都小于1(表2).
表1 不同物种中的基因拷贝数目Table 1 Gene copy numbers in different species
表2 选择检验结果Table 2 Results of selection test
在用PAML进行选择检验时,序列矩阵的变异程度(可以用树长来度量)对于检验结果的可靠性有重要影响.一般说来,中等变异程度的序列矩阵(1<树长<10)所得结果最为可靠.若序列间相似性太高(树长<1),很难检测到正选择位点;反之,若序列变异太大(树长>10),则所检测到的正选择位点属于假阳性的可能性增加[25-26].在本研究中,除CCoAOMT矩阵的树长为0.56外,其余9个基因家族矩阵的树长都在2~10的范围内(表2).此外,当单独增加CCoAOMT的物种取样,使树长增加到6.7,选择检验分析的结果仍无显著变化(结果未显示).这表明本研究所涉及的基因家族矩阵都属于中等变异程度,因此选择检验结果的可靠性较高.
此外,能否准确鉴定矩阵中成员间的同源关系类型,即它们彼此属于直系还是旁系同源,这也会对检验结果的可靠性产生重要影响.本研究挑选十字花目的6个物种为研究对象,可以确保准确鉴定基因间是否属于直系同源.首先,该研究所挑选的6个物种都具有全基因组序列,这确保了在搜索基因家族成员时不会漏掉相关成员信息.其次,参与木质单体合成途径的所有基因在拟南芥中都做了详尽的功能研究,因此容易确定参与木质素合成途径的成员.在本研究中,以拟南芥所有木质单体基因为模板,通过同源搜索获得了其他5个物种中同源序列.再对每一个基因家族进行系统发育重建,根据系统发育关系的结果,就可以比较准确地判断哪些成员是拟南芥中成员的直系同源基因.这样就获得了其他5个物种中可能参与木质素合成途径的成员信息.因此,在本研究所涉及的10个基因矩阵中,来源于6个物种的成员应该都属于直系同源成员.以上合理的取样和理想的代谢途径这2个研究前提为随后探讨该代谢途径中基因的选择压力与位置之间的关系这一科学问题提供了保障.
从理论上看,对于代谢途径或者调控网络的最终产物而言,有人推测位于上游或中心位置的基因将会比下游或边缘位置的基因产生更重要的影响,因此前者应该受到更强烈的自然选择作用[3].有一些具体的研究结果支持这一理论[3-6].然而,当人们对更多的代谢途径或者调控网络进行研究后,却发现在某些调控网络中,基因所受到的选择压力与基因在调控网络中的位置无关,而可能与基因本身所行使的功能相关[7].本研究的选择分析结果表明,参与木质素单体合成途径的10个基因中,除了2个位点检测到正选择外,其余所有位点主要受到强烈的净化选择的作用(ω值变异范围是0.02~0.15)(表2).而除COMT的基因树上有1个枝的ω值大于1外,其余所有基因树上的所有枝的ω值都小于1(表2),表明这些枝也都受到了净化选择作用.此外,基因所受到的净化选择强度与基因在代谢途径中所处的位置无相关性.比如,位于代谢途径第一位的PAL基因和位于分支位点的4CL基因的ω值并没有小于其他基因(图1和表2),表明PAL和4CL所受到的选择压力并没有比其它基因更大.此外,基因所受到的选择压力与基因家族拷贝数目之间也无显著相关性,比如PAL和4CL拥有最多的基因拷贝数目,但并没有表现出受到强烈或者更松弛的选择压力(表1和2).也许,不同的代谢途径或者调控网络可能具有不同的进化模式,这也是生物多样性的体现.要解决这一争论,需要对更多的代谢途径或调控网络进行详尽的分子进化研究.在本研究中,取样是合理的(一个目内不同物种,并且都具有全基因组序列),分析方法是可靠的(序列变异适中),所挑选的代谢途径是理想的(参与木质单体合成途径的基因都已被清晰鉴定),因此研究结果具有很高的可信度.而以前的研究很难同时满足以上3个条件.
致谢 川北医学院科研发展计划项目(CBY13-A-ZP04和CBY15-A-YB27)对本文给予了资助,谨致谢意.
[1]YANG Z H,NIELSEN R,GOLDMAN N,et al.Codon-substitution models for heterogeneous selection pressure at amino acid sites[J].Genetics,2000,155(1):431-449.
[2]MIYATA T,YASUNAGA T.Molecular evolution of messenger RNA:a method for estimating evolutionary rates of synonymous and amino acid substitutions from homologous nucleotide sequences and its application[J].J Molecular Evolution,1980,16(1):23-36.
[3]OLSON-MANNING C F,WAGNER M R,MITCHELL-OLDS T.Adaptive evolution:evaluating empirical support for theoretical predictions[J].Nature Reviews Genetics,2012,13(12):867-877.
[4]MONTANUCCI L,LAAYOUNI H,DALL’OLIO G M,et al.Molecular evolution and network-level analysis of the n-glycosylation metabolic pathway across primates[J].Molecular Biology and Evolution,2011,28(1):813-823.
[5]RAMSAY H,RIESEBERG L H,RITLAND K.The correlation of evolutionary rate with pathway position in plant terpenoid biosynthesis[J].Molecular Biology and Evolution,2009,26(5):1045-1053.
[6]YANG Y H,ZHANG F M,GE S.Evolutionary rate patterns of the Gibberellin pathway genes[J].BMC Evolutionary Biology,2009,9(1):1-11.
[7]DAVILA-VELDERRAIN J,SERVIN-MARQUEZ A,ALVAREZ-BUYLLA E R.Molecular evolution constraints in the floral organ specification gene regulatory network module across 18 angiosperm genomes[J].Molecular Biology and Evolution,2014,31(3):560-573.
[8]VANHOLME R,MORREEL K,DARRAH C,et al.Metabolic engineering of novel lignin in biomass crops[J].New Phytologist,2012,196(4):978-1000.
[9]BOERJAN W,RALPH J,BAUCHER M.Lignin biosynthesis[J].Annual Review of Plant Biology,2003,54:519-546.
[10]TOHGE T,WATANABE M,HOEFGEN R,et al.The evolution of phenylpropanoid metabolism in the green lineage[J].Crit Rev Biochem Mol Biol,2013,48(2):123-152.
[11]RAES J,ROHDE A,CHRISTENSEN J H,et al.Genome-wide characterization of the lignification toolbox in Arabidopsis[J].Plant Physiology,2003,133:1051-1071.
[12]VANHOLME R,STORME V,VANHOLME B,et al.A systems biology view of responses to lignin biosynthesis perturbations in Arabidopsis[J].Plant Cell,2012,24(9):3506-3529.
[13]HAMBERGER B,ELLIS M,FRIEDMANN M,et al.Genome-wide analyses of phenylpropanoid-related genes in Populus trichocarpa,Arabidopsis thaliana,and Oryza sativa:the Populus lignin toolbox and conservation and diversification of angiosperm gene families[J].Canadian Journal of Botany,2007,85(12):1182-1201.
[14]HUANG J L,GU M,LAI Z B,et al.Functional analysis of the Arabidopsis PAL gene family in plant growth,development,and response to environmental stress[J].Plant Physiology,2010,153(4):1526-1538.
[15]ZHOU R,JACKSON L,SHADLE G,et al.Distinct cinnamoyl CoA reductases involved in parallel routes to lignin in Medicago truncatula[J].Proceedings of the National Academy of Sciences,2010,107(41):17803-17808.
[16]GUO D J,CHEN F,INOUE K,et al.Downregulation of caffeic acid 3-O-methyltransferase and caffeoyl CoA 3-O-methyltransferase in transgenic alfalfa:impacts on lignin structure and implications for the biosynthesis of G and S lignin[J].Plant Cell,2001,13(1):73-88.
[17]CHEN H C,SONG J,WILLIAMS C M,et al.Monolignol pathway 4-coumaric acid:coenzyme a ligases in populus trichocarpa:novel specificity,metabolic regulation,and simulation of coenzyme a ligation fluxes[J].Plant Physiology,2013,161(3): 1501-1516.
[18]WU Z H,GUI S T,WANG S Z,et al.Molecular evolution and functional characterisation of an ancient phenylalanine ammonia-lyase gene(NnPAL1)from Nelumbo nucifera:novel insight into the evolution of the PAL family in angiosperms[J].BMC Evolutionary Biology,2013,14(1):13680-13690.
[19]HALL T.BioEdit:a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT[J].Nucleic Acids Symposium Series,1999,41:95-98.
[20]GUINDON S,GASCUEL O.A simple,fast,and accurate algorithm to estimate large phylogenies by maximum likelihood[J].Systematic Biology,2003,52(5):696-704.
[21]YANG Z H.PAML 4:phylogenetic analysis by maximum likelihood[J].Molecular Biology and Evolution,2007,24(8):1586-1591.
[22]YANG Z H.Likelihood ratio tests for detecting positive selection and application to primate lysozyme evolution[J].Molecular Biology and Evolution,1998,15(5):568-573.
[23]YANG Z H.Inference of selection from multiple species alignments[J].Current Opinion in Genetics&Development,2002,12(6):688-694.
[24]WANG X,WANG H,WANG J,et al.The genome of the mesopolyploid crop species Brassica rapa[J].Nature Genetics,2011,43(10):1035-1157.
[25]ANISIMOVA M,BIELAWSKI J P,YANG Z H.Accuracy and power of the likelihood ratio test in detecting adaptive molecular evolution[J].Molecular Biology and Evolution,2001,18(8):1585-1592.
[26]ANISIMOVA M,BIELAWSKI J P,YANG Z H.Accuracy and power of Bayes prediction of amino acid sites under positive selection[J].Molecular Biology and Evolution,2002,19(6):950-958.
Molecular Evolution of Genes Involved in the Monolignol Biosynthesis Pathway
TANG Zhen,GUO Dongmei
(Department of Biochemistry,North Sichuan Medical College,Nanchong 637000,Sichuan)
In recent years,it is hotly debated whether there is a significant correlation between the strength of purifying selection and gene placement in its biochemical or regulatory network.In this study,all monolignol biosynthetic genes spanning ten families were recovered from 6 species with whole genome sequenced of Brassicales plants,and studies of molecular evolution of these genes were also conducted.Except PAL and 4CL have 3~6 copies in each species,gene copy number of the rest eight gene families is mainly 1~2.Results of selection test using PAML indicate that most sites of these genes are highly conserved and under purifying selection.However,there is no correlation between the strength of purifying selection and gene placement.
monolignol biosynthesis pathway;gene family;molecular evolution;purifying selection
Q3-3
A
1001-8395(2016)05-0760-05
10.3969/j.issn.1001-8395.2016.05.025
(编辑 周 俊)
2015-09-20
四川省教育厅自然科学重点基金(15ZA0213)和四川省科技厅应用基础研究项目(2013JY0072)
*通信作者简介:郭冬梅(1983—),女,讲师,主要从事基因家族进化的研究,E-mail:dongmeiguo@nsmc.edu.cn