田郎 译
(中国热带农业科学院橡胶研究所,海南儋州 571700)
森林覆盖了地球陆地表面的30%(大约38亿hm2)。广袤的森林不仅蕴含着丰富的生物多样性,而且也给人类带来众多的利益和好处,如清洁的空气和水,木材,纤维,以及燃料等。据估计,全世界的工业原料中略四分之一均来源于森林资源。各种树体高大且生命周期极为漫长的森林乔木其庞大的野生种群几乎遍及世界的各个大陆,而且它们在不同于一年生草本植物的选择压下一直生存繁衍至今。这些木本物种在生长发育过程中广泛涉及到与季节变化相适应的次生生长,信号转导,水分及养分长距离分配输送,营养物储藏,以及代谢物再分配等。不仅如此,这些多年生木本物种还需要在不断变化的物理及生物胁迫下于固定地点生存繁衍数达百年以上,这也使得它们与众多生命周期短的植物明显有所不同。总之,林木物种这些有别于其它生物的特点,尤其是它们高大的树体及漫长的营养生长期给人们研究其生物学特性的细胞及分子学机制带来了巨大的困难和挑战。为了在了解较为深入的木本模式植物中开展和加强此方面的研究,我们对黑三角叶杨,也即毛果杨(Populus trichocarpaTorr.&Gray)进行了全基因组序列测定,并将其与其它已测序的植物基因组进行比较分析。我们选择毛果杨作为基因组测序的模式植物,一方面是因为该物种基因组大小适中,同时也因为其生长迅速,实验操控较易,并已具备一系列可资利用的遗传学工具。杨属植物表型各异,通过种间杂交有助于开展一系列与生长速度,植株高度,木材性质,以及纸质相关的重要经济性状的遗传作图。迄今为止,杨树中已有很多数量性状基因座被作图定位,并已初步建立外源基因的遗传转化体系。在适宜的条件下,杨树经4~6a的营养生长即可进行有性繁殖,通过新品种的选育和推广可以有效地促进杨树种植业的可持续发展。最后,鉴于杨树生长迅速,通过对植株的木质素纤维素成分进行热化学或生化转换,有望为人类提供宝贵的可再生能源,进而也有效地减少大气温室气体的排放。
本研究以黑三角叶杨(毛果杨)的一个雌性单株,即“Nisqually 1”为材料,采用全基因组鸟枪法测序及组装策略进行基因组序列测定。测序显示,大约760万个末端测序片断的Q20(或以上)总读长为4 200Mb,平均每个约553pb。这些片段随后被组装进2 447个较大的序列骨架中。之后,根据这些序列骨架并结合遗传及物理图谱最终获得该物种覆盖区域达410Mb的全基因组序列草图。根据序列骨架的覆盖深度(约7.5倍)及非细胞器随机序列的总数,杨属基因组的大小估计约为485±10Mb(±SD),这与过去用细胞遗传学方法估计的大小(约550Mb)基本一致。此外,几乎所有推定的蛋白质编码区均得到与其匹配的杨属cDNA 序列的证实,而已知的杨属cDNA 序列中95%以上也都能与这些蛋白质编码基因相匹配。细胞遗传学证据显示,大约75Mb未组装的基因组序列与该基因组大约30%的异染色质含量基本相符。同时,采用荧光染料4′,6′-二脒基-2-苯基吲哚对前期及中期染色体进行染色观察的结果也证实,杨属基因组的常染色质含量平均为(69.5±0.3)%,其中,连锁群Ⅰ(LGⅠ)所含常染色质的比例[(66.4±1.1%)]显著低于其它18条染色体[(69.7±0.03)%,P ≤0.05]。相比之下,拟南芥的染色体大约含有93% 的常染色质。未组装的随机序列源自细胞器DNA 变异体(包括新近的核转位),高度重复的基因组DNA,冗余的单倍型片段(因广泛的序列多态性及等位异型分离所得),以及模板DNA 污染物(如用于模板制备的叶片及根组织中的内生菌)。相应于叶绿体及线粒体基因组的末端读序分别被组装进157 和803kb 的环形基因组。对于已组装的410Mb骨架序列,我们随后将其锚定到序列标记遗传图上。本研究利用356个微卫星标记成功地将155个序列骨架(335Mb)定位到19个染色体连锁群。这些作图微卫星标记中的绝大多数(91%)与组装序列存在共线性。在实现序列重建的该19个染色体中,最小的染色体,即LGIX 79厘摩(cM)为两个序列骨架(12.5Mb)所覆盖,而最大的染色体,即LGI(265cM)则为21个序列骨架(35.5Mb)所覆盖。此外,我们还利用雌株无性系Nisqually-1的细菌人工染色体(BAC)文库(大约9.5倍基因组覆盖率)构建了基于BAC指纹重叠群的物理图谱,并将2 460个BAC重叠群标定在了相应的染色体上,同时各成对的BAC末端读序也被有效地用于基因组序列的大规模组装拼接。结合遗传和物理图谱,410Mb已组装的序列中将近385Mb被定位到各染色体连锁群上。象拟南芥属(Arabidopsis)这类主要行自花授粉的物种或生态型其等位多态性水平通常较低。与其相比,杨属物种大都雌雄异株,行专性异交。这种强制性异交习性,加上风媒传粉及风传羽毛种子,使得它们在遗传上高度杂合并呈现出广泛的个体内遗传多样性,同时种群之间也存在高水平的基因流。本研究中,我们在杂合的Nisqually-1基因组中共鉴定出1 241 251 个单核苷酸多态性(SNPs)或小插入/缺失多态性(indels)位点,其频率约为每千碱基对2.6个。这些多态性位点中的绝大多数(83%)出现在该基因组的非编码区(表1)。外显子中的indels或SNPs可分别导致移码或产生无义终止密码子,这意味着这些基因的无效等位基因有可能出现在其单倍型组合之中。当然,有些多态性只是因序列组装而产生的人工假象,尽管采用严格的SNP鉴定标准已最大程度地降低了此类错误的发生。
表1 Nisqually-1基因组中单核苷酸多态性(SNPs)及插入/缺失多态性(indels)的来源及频率。
本研究中,我们采用一系列基于从头预测、同源性以及表达序列标签(EST)的基因识别法在杨属核基因组中初步推定出一个包括45 555个基因位点的蛋白质编码基因参考集。此外,有101个叶绿体基因及52个线粒体基因也分别被注释。为了帮助基因的注释,我们还对来自Nisqually-1全长富集cDNA 文库的4 664个全长序列进行了GeneCalling分析。基因预测之前,首先鉴定并掩蔽重复序列,同时去除该参考基因集中的转座元件。鉴于目前我们所构建的仅是杨属基因组序列的草图,故该参考基因集有望在今后得以进一步修正和完善。
大约89%的预测基因与国家生物技术信息中心(NCBI)的非冗余(NR)蛋白集同源期望值(E)≤1×10-8,其中60%具有高度同源性,它们涵盖了同源基因及NR 蛋白质匹配长度的75%。在预测出的杨属基因中将近12%(5 248)与拟南芥基因无相似性(E≤1×10-3),而拟南芥基因中则仅有9%(2 321)与预测的杨属基因不存在相似性。与拟南芥无相似性的5 248个杨属基因中有1 883个在人工阅读收集的杨属EST 数据集中找到其表达的证据,这些表达基因中有274 个在NR 数据库中未搜索到匹配序列(E≥1×10-3)。全基因组寡核苷酸微阵列分析进一步提供了所有预测基因基于不同组织特异性表达的证据。就来自节、节间、幼嫩叶片及成熟叶片组织的合并样本而言,该参考基因集的表达比例为53%。此外,有20%首次被注释并且不包括在该参考集内的基因也检测到了杂交信号,这表明杨属基因组中可能还存在4 000个其它基因或基因片段。通过双向BLAST 最佳匹配搜索,我们在杨属和拟南芥属中鉴定出了13 019对直系同源基因,这些同源基因对的序列一致性平均达到93%,其中11 654对基因的序列一致性超过基因长度的90%,仅有156对同源基因的序列一致性在50%以下。到2006年6 月1 日,大约有10%的基因(4 378)已得到人工验证和确认。
杨属与拟南芥属之间的进化分歧大约发生在1亿~1.2亿年之前。通过对杨属基因组的分析,我们成功地检测到了发生年代相对更近的一次全基因组复制事件,该次复制事件几乎影响到了杨属基因组的92%。在杨属基因组中,我们共鉴定出了将近8 000对年代相近的旁系同源基因(不包括串联或局部重复)。之后,我们根据4重简并密码位(第3 密码位)上发生的颠换型替代(4DTV)估测累积的核苷酸分歧度,并以此推算重复基因的相对年代。结果显示,经多重替换校正后的4DTV 峰值明显出现于0.0916±0.0004之处,而这正意味着着重复基因的一次爆发性产生。对来自杨属和柳属(源自柳属EST)的1 825对直系同源基因进行比较的结果也表明,该两属植物共同经历了这次全基因组复制事件。此外,柳属和杨属相似的核型及遗传图谱的共线性也明显支持这一结论,即两属物种经历过同一次大规模基因组复制事件。
如果我们仅仅利用十字花科中观察到的同义替换率或者是根据拟南芥与水稻种系分化的同义率建立杨属进化的分子钟,则据此我们将得出这样的结论,即杨属中观察到的这次基因组复制事件其发生年代非常之晚,正如Sterk所报道的那样,距今大约仅800万~1300 万年。然而,化石记录显示,杨属与柳属的进化分歧发生在6 000~6 500万年之前。因此,杨属分子钟的速率应当大约仅为拟南芥属分子钟的六分之一(即6千万~6.5千万年除以800万~1300万年)。事实上,在杨属叶绿体及线粒体基因组中也曾发现过性质上类似的分子钟速率减慢的现象。由于杨树是一种生命周期极为漫长并可行营养繁殖的物种,这有可能使其为多个世代提供配子。一个单一的杨树基因型可作为无性系在人工培植下存留数千年之久,因此我们建议从这样一些非常古老的个体反复提供“古代配子”,由此将有可能解释序列进化速度显著下降的原因。由于分子钟速率减慢,杨树基因组因此与祖先的真蔷薇类基因组更相类似。
为了检验6 000万~6 500万年前基因的爆发性产生是否缘于一次单独的全基因组复制事件,或者是缘自多次几乎同步但又独立发生的复制事件,我们参考Hokamp等的算法对杨属基因组中保留的同线性区段进行了鉴定。结果显示,在4DTV 大约0.09处检测到的最大的同线性板块涵盖了765对旁系同源基因。在本次复制事件中产生的同线性板块总共包含了32 577个基因,而其中一半又包含在长于142个旁系同源基因对的同线性区段之中。当将同样的算法应用于随机洗牌的基因时,重复区段所含基因数通常少于8~9个,这表明这些重复基因的产生缘自一次单独的全基因组复制事件,我们将其成为“杨柳科”复制事件。
由于本次“杨柳科”复制事件的发生,几乎使得每一个杨属基因组的作图区段内都含有一个在基因组其它区域也对应存在的旁系同源区段。分析显示,经全基因组复制之后的所有染色体连锁群中,有两组各含4个连锁群的染色体(第一组包括连锁群II、V、VII及XIV,第二组包括连锁群I、XI、IV 及IX)均可通过其端部同源区段的依次相连而形成明显的风铃状图案。此外,有几个染色体似乎经历过轻微的重组交换。再者,连锁群I似乎是染色体多次重排(涉及到三次大的染色体串联融合)的结果。以上结果表明,杨属物种祖先的染色体基数为10。经全基因组复制产生的各重复染色体在历经其后的基因组重构及二倍体化过程之后最终演变形成该物种目前所具有的染色体连锁群,其中包括4对几乎完全旁系同源的染色体(连锁群VI、VIII、X、XII、XIII、XV、XVI、XVIII及XIX);2组各含4条且每条都含有一个末端易位的染色体(连锁群I、II、IV、V、VII、IX、XI及XIV);以及2 条分别与连锁群I及VII最末端(一端)同源的染色体(连锁群III及XVII)。多个杨属物种遗传图谱间的共线性表明,基因组重构发生在现代杨属物种演化形成之前。
从旁系同源基因对的4DTV 值分布还可看出,它们大部分都落入峰值为0.364±0.001 的4DTV 值区间内,这显然是杨属基因组经历过的另一次更为古老的大规模复制事件所留下的痕迹。这次复制事件大约覆盖了杨属基因组的59%,而这些双拷贝区段包含了基因组大约16%的基因。由于这次复制事件发生在前,故之后所发生的杨柳科复制事件重叠在其上,这也使得杨属基因组的每一个区域有可能被4个这样的区段所覆盖。与此相似,拟南芥属基因组在发生十字花科特有的“α”复制事件之前,也曾经历过一次更为古老的“β”复制事件。
我们下一步要问的是拟南芥属“β”复制事件与杨属4DTV 大约0.36这次复制事件是否是:(1)在二者最后一个共同的真蔷薇类祖先发生进化分歧后各自独立发生的全基因组复制事件,或者(2)为二者共同经历过的一次发生在某一祖先物种中的复制事件(即发生在真蔷薇I类和II类分化之前)。该两个假设对于杨属和拟南芥属之间同源性的解释和判定具有非常大的影响。在第一种情况下,一个物种的每1个基因组区段与另一个物种的4个区段同源;而在第二种情况下,每1个区段仅与另一个物种的2个区段同源。我们通过对分别取自杨属和拟南芥属以及取自二者之间的同源基因对间相对距离的比较对这些假设进行过验证,大体上接受以上第二种假设,不过我们并不能否认第一种假设。我们仅能得出这样的结论,即杨属该次基因组复制发生在非常靠近真蔷薇I类和II类发生种系分化的年代,并略为支持这是该两属植物共同经历过的一次复制事件。这种时间上的巧合无疑增加了该次复制事件与真蔷薇类植物(或许核心真双子叶植物)在演化早期迅速发生多样化之间存在因果联系的可能性。我们将这次杨属/拟南芥属复制事件称为真蔷薇”复制事件。需要强调指出的是,杨柳科复制事件与拟南芥属基因组中观察到的该次“真蔷薇”复制事件并无任何关联,也即它们是各自独立发生的两次全基因组复制事件。
尽管杨属的蛋白质编码基因大大地多于拟南芥属,但两个基因组在蛋白质库(Prints,Prosite,Pfam,ProDom,以及SMART)中所反映出的结构域的相对频率却基本相似。不过,就大多数两属共有的结构域而言,杨属与拟南芥属的比率为1.4∶1至1.8∶1。不过在杨属中,一些与抗病及抗虫性,分生组织发育,以及代谢物及养分运输有关的基因及基因结构域呈现出明显高的异常值。例如,就抗病及抗虫性而言,杨属和拟南芥属中富亮氨酸重复的比数为1 271∶527,NB-ARC 结构域为302∶141,奇异果甜蛋白为55∶24;就分生组织发育而言,两属NAC转录因子的比数为157∶100;就代谢物及养分运输而言,二者寡肽转运蛋白包括依赖质子的寡肽转运蛋白(POT)及寡肽转运蛋白(OPT)家族的比数为129∶61,钾转运蛋白为30∶13。
与拟南芥属相比,杨属中的有些结构域明显偏低。例如,拟南芥属中的F 框结构域就为杨属的两倍(624∶303),而F 框结构域与基于泛素-26S蛋白酶体途径的蛋白质降解代谢有着直接的关联。很多泛素结合结构域也同样如此,如杨属和拟南芥属中Ulp1蛋白酶家族及C 端催化结构域的比数仅为10∶63。此外,该两属中的环指结构域又几乎相等(503∶407),这表明两种植物的蛋白质降解代谢途径存在一定程度的分歧。
为了鉴定来自共同的真蔷薇类祖先的保守基因,结合采用多种方法(包括核苷酸分歧度,序列同线性,以及双向最佳BLAST 匹配分析)对杨属和拟南芥属基因集进行了比较。真蔷薇类祖先的基因组至少含有11 666个蛋白质编码基因,同时还含有一些数量尚不确定的其它基因,这些基因或者在该两个或一个种系中被丢失,或者未能检测到其同源性。这些基因实际上就是每一个完整植物基因组中通常由1至4个成员构成的基因家族的祖先,它们在杨属和拟南芥属中各占28 257和17 521个。基因家族列表可从网站www.phytozome.net获取。该两个基因组中那些不能用真蔷薇类植物基因进行预测的序列通常是一些不完整的基因片段或者很难对其加以归类,而且我们也不能确切地推断这些基因的种间同源性。它们中包括杨属和(或)拟南芥属中尚未被鉴定或者快速进化的基因,以及一些未被很好预测的基因。
根据一系列可公开获取的RNA 检测算法(包 括 tRNAScan-SE,INFERNAL, 以 及snoScan),我们在杨属中鉴定出了817个假定的RNAs;22个U1,26个U2,6个U4,23个U5,以及11 个U6剪接体snRNAs(细胞核小RNAs);339个假定的C/D 框snoRNAs(核仁小RNAs);以及88个假定的H/ACA 框snoRNAs。所有57个可能的反密码子tRNAs也都被发现。此外,还检测出了1个硒代半胱氨酸tRNA,并有2个可能的抑制型tRNA(反密码子与终止密码子结合)被鉴定。杨属中的tRNA 基因几乎为拟南芥属的1.3 倍之多。相比拟南芥属而言,杨属中tRNA 的拷贝数与预测基因中氨基酸的存在呈显著正相关。分析结果显示,杨属与拟南芥属中snRNAs数的比率也达到1.3 到1.0,不过,杨属中U1、U2以及U5 丰度均明显超高而U4 丰度偏低。此外,在拟南芥中不曾检测到U14。当然,杨属中的SnRNAs及snoRNAs目前并未得到实验上的证实。
在杨属中我们共鉴定出了169个代表21个家族的microRNA(miRNA,微小RNA)基因。在拟南芥属中,该21个家族仅包含91个miRNA基因,这意味着它们在杨属中扩张了1.9倍。所有21个miRNA 家族的调控靶标在拟南芥和杨属中似乎都具有保守性。与miRNA 基因本身相似,在杨属中预测出的这些miRNA 的靶基因的数量(147个)较之拟南芥属(89)也扩张了1.65倍。同样,杨属中那些介导RNA 干扰(RNAi)的基因(21个)其丰度也明显高于拟南芥属(11个)两属中AGO1类蛋白基因数分别为7 和3;RNA解旋酶为2和1;HEN 蛋白为2和1;HYL1类似物(双链RNA 结合蛋白)为9和5。
基于Smith-Waterman算法(E≤10-25)我们在杨属中共鉴定出1 518个含有2个或多个基因的串联重复序列。这些序列的基因总数为4 839个,而串联重复区段的总长也达47.9Mb,占杨属基因组的15.6%。按照同一鉴定标准,拟南芥属中共检测出1 366 个串联重复区段,其总长为32.4Mb,占整个基因组的27%。就单个串联重复序列中的基因数而言,通常远不止2个,这样的重复序列在杨属和拟南芥属中分别有958和805个。与杨属相比,拟南芥属中存在大量含有6个或更多个基因的串联重复序列。因此,拟南芥属中的串联重复相对杨属显得更为常见。导致这一状况的部分原因可能是来自全基因组鸟枪法测序的串连重复难以被组装,尤其当串联重复基因具有高度保守性时更是如此。当然,也仰或是杨属基因组重排的速率要慢于拟南芥属,这与我们的观察结果相符,即杨属的染色体重排比之拟南芥属要少,而且核苷酸取代速率也更慢。
在某些情况下,该两个物种中的基因均高度重复,而且有些串联重复在杨属与拟南芥属分开之前即已存在。在杨属单个这样的序列中,串联重复的最高次数达24 次,该序列中含有与S-位点特异性糖蛋白高度同源的基因。拟南芥属中同样鉴定出这类以串联重复存在的基因,其1号染色体上还发现一个重复14次的最大串联重复区段。利用InterPro数据库,我们在该两个物种串联重复基因中鉴定出的最常见的结构域是一个丝氨酸/苏氨酸蛋白激酶活性部位(IPR008271)结构域。两物种共有的其它结构域还有富亮氨酸重复(IPR007090,最初来自抗病串联重复基因),三角状五肽重复RNA 结合蛋白(IPR002885),以及尿苷二磷酸(UDP)-葡糖醛酸基/UDP-葡糖基转移酶结构域(IPR002213)。
相比之下,有些基因在一个物种基因组中以串联重复高度扩张,而在另一个物种中则并不如此。例如,在拟南芥属中最常见的串联重复基因之一是F-框基因,总共有342个同类基因存在于其串联重复序列中,最大的串联重复区段含有24个F-框基因。但杨属的串联重复序列仅含有37个F-框基因,且最大的重复区段仅含3个此类基因。
在杨属中,来自19个不同组织EST 文库的66个“杨柳科事件”重复基因对(占总的2.3%)中有20个基因对呈现差异表达(每文库在EST 频率上出现显著偏差)。而18个“真蔷薇事件”重复基因对(占总的2.7%)中也有11 个基因对在每文库的EST 频率上存在显著差异。许多在一个或多个取样文库中丰度超高的重复基因对涉及到蛋白质之间的互作(如膜联蛋白)或蛋白质折叠(如亲环蛋)。在最佳BLAST 匹配分析中,成对的真蔷薇基因集相对表现出更大程度的分化。以上结果均支持某些杨属重复基因对存在功能表达分化的假设。
为了进一步检验重复基因间在基因表达上的差异,我们对涉及45 555个杨属预测基因的全基因组寡核苷酸微阵列数据进行了深入分析。结果显示,来自杨柳科复制事件的重复基因对其差异表达性(平均为5%)明显低于来自真蔷薇复制事件的重复基因对(平均11%),这再次表明保留下来的旁系同源基因对在功能上仍处于不断分化过程之中,而源自真蔷薇复制事件的重复基因对则已累积了更多的功能表达差异。这种差异也能够体现在基因的绝对表达水平上,而且可能在两次重复事件之间有序变化。此外我们还发现,在木材形成器官中差异表达更为明显。在节和节间两种器官中,源自真蔷薇复制事件的重复基因中分别有近14%和13%(2 632个基因对)出现差异表达,而在根及幼嫩叶片中仅有8%或以下存在表达差异。
杨属是一个具有高度多态性的植物类群,甚至在同一植株体内也存在大量单核苷酸多态性位点(SNPs)(表1)。非同义与同义替换率的比值(ω=dN/dS)常被用作衡量个体内等位基因所受选择限制程度的指标。分析结果显示,所有基因的dN 总平均值为0.0014,dS 值为0.0035,总的ω 值为0.40,这表明杨属基因组中的大多数编码区更多的是受到纯化选择。对于大多数有着密切关联的旁系同源基因而言,ω 与4DTV 距离之间存在显著负相关(r=-0.034,P=0.028),这与新近重复基因因功能冗余性而存在较高水平非同义多态性的预期也相一致。与此类似,那些具有新近串联重复的基因(4DTV ≤0.2)其ω 也显著高于那些不存在任何新近串联重复的基因(Wilcoxon秩和检验,Z=8.65,P≤0.0001)。
从串联重复基因得出的结果明显符合重复基因加速进化的预期。不过,就来自全基因组复制事件的旁系同源基因对而言所得结果与该预期并不相符,而来自于杨柳科及真蔷薇复制事件的旁系同源基因其非同义替换率实际上也低于那些不存在相应旁系同源序列的基因。得出这种相反结论的一个可能原因是,一些明显的单拷贝基因由于快速形成的假基因而呈现出超高丰度。然而,实际情况似乎并不如此,我们以基因大小,同义替换率,以及最小遗传距离为协变量,以ω 为反应变量对关系最为密切的旁系同源基因进行方差分析,其结果也证实了这一点。因此,那些不存在任何来自杨柳科及真蔷薇复制事件的旁系同源物的基因所受选择限制的程度相对较低,而保留有来自全基因组复制事件的旁系同源物的基因则显然受到较强的纯化选择。Chapman 等最近提出了一个功能缓冲的概念用以解释拟南芥和稻属中源自全基因组复制的旁系同源物其突变检出率出现类似下降的原因。杨属物种的营养繁殖习性或许也能强化重复基因中核苷酸序列的保守性,因为重复基因间的互补效应可使因有害体细胞突变积累导致的基因功能丧失降低到最小程度。
几个基因家族的扩张对于杨属物种的进化起到了十分重要的作用。
5.3.1 木质素纤维素壁的形成 由维管形成层活动引起的次生木质部的周年发育是木本植物最为显著的生物学特性之一。我们在杨属中共鉴定出大约20个直接参与或与纤维素生物合成有关的拟南芥基因或基因家族的直系同源物。拟南芥基因组中含有78个纤维素合成相关基因,与之相比,杨属基因组含有93个这样的基因。拟南芥基因组中存在6类共10个已知参与纤维素微纤丝生物合成的CesA(纤维素合成酶)编码基因,而杨属基因组含有18个CesA 基因,其中包括CesA7及CesA8 同系物的重复复制。拟南芥CesA4、CesA7以及CesA8 基因的杨属同系物在木质部发育及应拉木形成期间协同表达。此外,有一对CesA 基因似乎仅出现在杨属基因组中,而拟南芥属中未发现其任何同系物。许多其它类型的纤维素生物合成相关基因,如KOR、SuSY、COBRA、FRA2均以重复对的形式出现在杨属基因组中,而在拟南芥中则仅有单个复制。例如,COBRA 是纤维素生物发生过程中的一种调节因子,它在拟南芥属中为单复制基因,但在杨属中则有4个复制基因。
杨属中所有已确认的半纤维索生物合成基因大体上均与拟南芥属相似。不过,与拟南芥属相比,杨属基因组含有更多编码α-L-岩藻糖苷酶的基因,而编码α-L-岩藻糖基转移酶的基因则相对较少,这与杨属的木葡聚糖海藻糖含量低于拟南芥属也相一致。木质素为细胞壁中含量仅次于纤维索的第二大组成成分,它是由木质素单体(羟基肉桂醇)构成的一种极为复杂的多聚物。细胞产生的木质素逐渐沉积到次生壁的纤维素/半纤维素微纤丝间并与之结合从而使其硬化加厚。通过与已知的拟南芥属苯丙烷类及木质素基因进行序列比对,我们鉴定出了整套34个杨属苯丙烷类及木质素生物合成基因。编码这些酶的杨属基因家族其数量通常多于拟南芥属(分别为34 和18个)。唯一的一个例外是肉桂醇脱氢酶(CAD),该酶在杨属中为单基因编码,而在拟南芥属中则被两个基因所编码。CAD 在火炬松中也仅被单基因编码。杨属两个与木质素相关的C4H 基因在木质素形成相关组织中呈现出强烈的协同表达效应,而3个C3H 基因则明显呈现互斥性表达模式。
5.3.2 次生代谢 杨属植物能产生大量非结构性的富碳次生代谢物,而且这些代谢产物在丰度,胁迫诱导性,以及在对植株生长及寄主-害虫互作的影响上均存在广泛的变异。莽草酸-苯丙烷类来源的酚酯,酚苷,以及缩合单宁及其黄酮类前体是这些次生代谢物中含量最为丰富的的种类,仅酚苷和缩合单宁即占到叶片干重的35%,而且杨属植株的芽、树皮及根也都富含这两种物质。
类黄酮生物合成基因在拟南芥属中已得到详尽注释。除了类黄酮合成酶之外,几乎所有这些基因都为单拷贝基因。相比之下,杨属中除查耳酮异构酶,类黄酮3′-羟化酶,以及黄烷酮3-羟化酶之外,其余皆为多个基因所编码。例如,控制类黄酮生物合成关键步骤的查耳酮合成酶基因其数量在杨属至少已扩增到了6个。再者,杨属基因组还含有黄酮合成酶II(细胞色素登录号CYP98B)及类黄酮3′,5′-羟化酶(CYP75A12及CYP75A13)两个基因,但该两个基因在拟南芥属中皆缺如。此外,杨属基因组含有三个无色花色素还原酶编码基因,此酶催化缩合单宁前体2,3-反式-黄烷-3-醇的形成,但拟南芥属中缺乏该立体构型的前体物。拟南芥基因组中还鉴定出了32个涉及次生代谢的萜类合成酶(TPS)基因,与此相比,杨属基因组至少含有47个TPS基因,这表明杨属植物普遍都有合成萜类次生代谢物的能力。
拟南芥基因组中已有大量类苯基丙烷类似途径的酶被注释,编码CAD(肉桂醇脱氢酶)的基因家族即是其中之一。杨属除了涉及木质素生物合成的单个CAD 基因之外,还鉴定出了几个其它进化支的CAD 类似物(CADL)基因,其中的大多数又属于一个较大并含有多功能乙醇脱氢酶相关酶类的亚家族。基因组比较分析清楚地表明,杨属CADL 基因家族存在选择性扩张和保留。例如,杨属基因组含有7个CADL编码基因(Poptr-CADL1~PoptrCADL7),它们与拟南芥中明显具有苯甲醇脱氢酶活性的BAD1 及BAD2 基因密切相关。BAD1 及BAD2 已知可为病原体所诱导,这表明该组杨属基因,同时包括杨属SAD(即芥子醇脱氢酶,一种早先已被鉴定为对芥子醛具有特异性催化功能的CAD 酶)基因可能涉及到杨属植株对病原体的化学防御。
5.3.3 病害抗性 多年生植物在其生长发育过程中随时都有遭受病菌及植食动物侵害的可能,而漫长的世代间隔周期使得这类植物在进化速度上也难以与病原微生物及害虫相比拟。除了利用加厚的细胞壁及合成的次生代谢物作为抵御微生物和害虫的第一道防线之外,植物还进化出了各种病害抗性(R)基因以对抗病菌的侵袭。
已鉴定出的最大一类R 基因所编码的产物为含有一个核苷酸结合部位(NBS)及羧端富亮氨酸重复区(LRR)的胞内蛋白质。NBS类R 基因家族也是杨属中最大的一类抗病基因,其中包括399个成员,几乎为拟南芥属的两倍之多。NBS家族还可进一步区分为多个具有不同结构域组成的亚家族,其中包括64个TIR-NBS-LRR 基因,10个截短的TIR-NBS基因(缺少LRR),233 个非TIR-NBS-LRR基因,以及17个先前在拟南芥属中未被发现但同样含有TIR 及NBS的罕见基因(即含有TNLT,TNLN,或TCNL 结构域的基因)(表2)。5类编码TNL 蛋白质的抗病基因均含有一个预测的N 端核定位信号。杨属中非TIR-NBS-LRR基因的数量也多于拟南芥属(分别为209和57 个)。在拟南芥属中未被发现的40个非TIR-NBS 基因各都带有一个N 末端BED DNA-结合锌指结构域,而稻属Xa1 基因中也发现有这种结构域。这些发现表明,杨属中发生了结构域选配。杨属中的大多数NBS-LRR(大约65%)以单个或串联重复的形式存在,而这些基因间成对遗传距离的分布则表明,该家族近期曾发生过基因扩张。更确切地说,相较于55%的胞外LRR 受体类似物激酶基因,仅10%的NBS-LRR 基因与真蔷薇及杨柳科这两次全基因组复制事件有关。
已被鉴定为R 基因新成员的几个保守的信号组件,如RAR1,EDS1,PAD4,以及NPR1在杨属中均含有多个相应的同系物。例如,在水杨酸生物合成上游起着重要作用的PAD4基因,以及NPR1基因,一种参与水杨酸下游应答的重要调控因子在杨属中即分别具有2个和5个拷贝。拟南芥中几乎所有已知控制病害抗性信号传导的基因在杨属中均存在其假定的直系同源物。杨属中的β-1,3-葡聚糖酶及几丁质酶基因数量也多于拟南芥属(分别为131和73个)。总的来说,杨属中R 基因及其信号组件之间存在明显的结构及遗传多样性,这表明,与基因组的其它部分有所不同,种群的同期多样化选择在杨属抗病基因的进化中起着十分重要的作用。这种多样化也说明,借助R 基因介导的信号传导提高对生物攻击免疫应答及其检测的能力对于生命周期长达数十年的杨属植物可能终生都至关重要。
表2 杨属、拟南芥属及稻属中编码相似植物R 蛋白基因的数量
5.3.4 膜转运蛋白 杨属植物在其漫长的生长发育过程中必须借助一系列膜转运蛋白才能有效地实现年际、季节乃至昼夜间的代谢转变及碳氮营养物质的调动分配。相对拟南芥属而言,杨属基因组中编码转运蛋白的基因家族成员在总体上明显有所扩张(杨属和拟南芥属中分别为1 722及959个)。杨属中,包括编码三磷酸腺苷结合盒蛋白(ABC 转运蛋白,226 个基因),主要易化子超家族蛋白(MFS蛋白,187个基因),药物/代谢物转运蛋白(108个基因),氨基酸/生长素透性酶(95个基因),以及寡肽转运蛋白(POT 蛋白,90个基因)在内的5个基因家族所占转运蛋白基因总数的比例达40%以上。杨属中几个大的基因家族,如编码POT(为拟南芥属的4.3倍),谷氨酸门控离子通道(3.7 倍),钾吸收透性酶(2.3倍),以及ABC 转运蛋白(1.9倍)的家族均出现了数量上的扩张。我们在杨属中还鉴定出了一个由5个假定的水通道蛋白构成且拟南芥中所不存在的亚基因家族。此外,杨属基因组还含有7个以前仅在真菌中发现过的跨膜受体基因,以及2个被鉴定为菌根特异性磷酸盐转运蛋白的基因,这说明菌根共生在该长寿物种的矿质营养上具有重要作用。膜转运蛋白数量的扩张对于杨属植物适应养分有限的森林土壤,水分及代谢物的长距离运输和储藏,次生代谢物的分泌和移动,以及调节病原体产生的次生代谢物或其它有毒化合物无疑起到了巨大作用。
5.3.5 植物激素 生理及分子学研究均已证实了激素调节在植物发育过程中的重要性。生长素,赤霉素,细胞分裂素,以及乙烯应答在林木生物学上尤其令人关注。
很多情况下生长素应答都受生长素应答因子(ARF)转录因子所控制,该转录因子与相应的AUX/IAA 受体蛋白一起调节生长素应答靶基因。利用已知及预测的ARF 蛋白序列进行系统发生学研究的结果显示,杨属和拟南芥属ARF基因家族自它们的共同祖先发生分歧以来均各自独立发生了基因数量的扩张。杨属中达6个重复的ARF基因均编码在拟南芥中仅为单拷贝的ARF 基因的同系物,其中包括 ARF5(MONOPTEROS),这是生长素介导的信号传导及木质部发育所需的一种重要基因。此外,有5个拟南芥属ARF基因含有4个或更多个预测的杨属ARF基因旁系同源物。与ARF 基因有所不同,和拟南芥属相比,杨属中的AUX/IAA 基因并未发生明显扩张(分别为35和29个)。令人感兴趣的是,拟南芥属中有4个AUX/IAA 基因在杨属中不存在任何明显的直系同源物,这无疑显示出它们在拟南芥属中的功能特异性。
赤霉素(GAs)对木材及根系发育过程的的多个阶段都具有调节作用,其中包括木质部纤维的伸长。在所有赤霉素生物合成及信号传导基因中,杨属GA20-氧化酶家族是唯一一个在数量上大约两倍于拟南芥属的基因家族,这表明源自杨柳科复制事件的大多数重复基因已经被丢失。GA20-氧化酶能催化有活性的赤霉素GA1 及GA4的生成。补充较多的GA20-氧化酶基因对于杨属植物次生木质部及纤维细胞的发育可能具有重要意义。
细胞分裂素被认为除控制一般细胞的分裂之外也控制木材形成相关细胞的同一性及增殖。就编码与细胞分裂素内稳态相关的异戊烯转移酶(IPT)及细胞分裂素氧化酶的基因家族而言,家族成员的总数在杨属与拟南芥属之间大体相当,尽管IPT 亚家族似乎也存在种系特异性扩张。细胞分裂素信号传导途径主要借助双组分磷酸化系统进行信号传导。在该传导系统中,双组分杂合受体借助含组氨酸的磷酸传递中间体(HPt)实现磷酸基团从组氨酸激酶(即信号受体)到响应调节蛋白(RR)的转移,磷酸化的RR 则进一步参与其后的一系列级联反应。有分析显示,编码双组分信号受体的一个基因家族(如CKI1)其成员数量在杨属中明显扩张(杨属和拟南芥属中分别4个和1个)。与拟南芥属相比,杨属中编码最近刚鉴定出的假HPt及非典型RR 的基因家族也明显呈现超量表达(在杨属中分别增加2.5和4.0倍),而该两个基因家族均涉及细胞分裂素信号传导的负调控,看来这与杨属中细胞分裂素信号传导系统复杂性的增加是相一致的。
杨属和拟南芥属基因组所含三个与乙烯生物合成有关的酶的数量几乎相等,不过杨属中涉及乙烯感受及信号传导的基因的数量则明显较多。例如,杨属中含有7个预测的乙烯受体基因,而拟南芥属中只有2个;组成型三重反应激酶(仅在受体的下游起作用)在杨属中为4个基因所编码,而拟南芥属中仅被1个基因编码。
杨属中乙烯响应元件结合因子(ERF)蛋白(为AP2/ERF家族的一个亚家族)的数量也多于拟南芥属(分别为172和122个)。ERF转录因子数量的增加可能与木本植物有赖乙烯的一些特殊生理过程有关,例如应拉木形成以及休眠的确立。
毛果杨全基因组序列图谱的成功构建使我们得以有机会对对该物种进行初步的比较基因组学分析。杨属物种在历经全基因组复制,染色体重排,以及串联重复等一系列复杂事件之后方演化形成我们现在所观察到的基因组。杨属与拟南芥属在基因含量上的差异使得我们对导致它们之间在生活史上区别如此之大的可能的分子基础无疑有了更进一步的认识,尽管一些与基因含量无关的因子(如调节元件,miRNAs,翻译后修饰,或表观遗传修饰)也可能起着同样甚至更重要的作用。借助杨属基因组序列,研究者们现在不但能够了解到一些超出拟南芥属基因组范围之外的其它信息,而且还可根据杨属基因组序列的特点深入探索多年生植物木材形成,养分和水分运输,树冠发育,以及病害抗性的内在机制。同时,进一步开展杨属与其它不同植物间基因组的比较分析还将有效地促进这些物种基因组结构及基因家族进化的研究。业已知道,杨属植物的遗传及群体生物学特性使其种群内存在着大量的等位基因变异。由于杨属物种在繁殖上行专性异型杂交,故其所含隐性等位基因以杂合状态保留在基因组内。充分挖掘和利用杨属基因组序列所蕴含的各种信息资源将有助于我们从具有不同生态适应性的杨属野生群体中有效地鉴定、分离及利用各种优良、有用的等位变异。这些变异基因作为重要的分子资源在生物技术应用,可替代能源开发,以及减轻人为的环境破坏等方面都具有不可小视的作用。最后,杨属植物作为很多生态系统的关键物种其基因组图谱的构建及利用无疑会对所在整个生态体系的研究产生深远影响。
(全文译自SCIENCE,VOL313,15.SEPTEMBER,2006.)