陆地棉NCS1基因家族的全基因组成员鉴定及分析

2023-03-16 03:34季美君曹孜怡王翌婷陆静茹汪保华
浙江农业学报 2023年2期
关键词:碱基元件基因组

季美君,曹孜怡,王翌婷,陆静茹,汪保华

(南通大学 生命科学学院,江苏 南通 226019)

核碱基阳离子转运蛋白-1(nucleobase-cation-symport-1,NCS1)家族由2 500多个来自革兰氏阴性和革兰氏阳性细菌、古生菌、真菌和植物的序列成员组成,并且在其他生物体内几乎不存在。在细胞内,它利用质子或钠梯度来驱动嘌呤和嘧啶核苷酸碱基、核苷和相关化合物转运活动[1-3]。有12个跨膜的跨螺旋结构存在于NCS1蛋白质中[4],并且它们是通过质子或钠梯度驱动的共价机制来发挥功能的[1]。到目前为止,来自革兰氏阳性细菌液化微杆菌的钠偶联海因转运蛋白Mhp1决定了NCS1家族蛋白质的结构组织[5]。该转运蛋白为膜转运的交替通道机制和离子耦合机制提供了一个主要模型[6-7]。NCS1家族的蛋白质有419~635个氨基酸残基长度,并且其中一些已经证明在底物吸收中起作用,例如H+同向转运等。在底物特异性方面,这些蛋白质与NCS2家族的同向转运蛋白类似,说明这两个家族是来源于同一个超家族,即APC超家族[4]。真菌NCS1转运蛋白根据它们的主要氨基酸序列和特异性特征进一步分类为两个亚家族,即Fcy类和Fur类转运蛋白。

碱基是植物在生长发育及新陈代谢过程中起关键作用的物质之一。许多生物化学过程都依赖于核碱基的作用,例如核酸代谢、碳水化合物、糖蛋白和磷脂代谢以及许多次生代谢物(如细胞分裂素、可可碱和咖啡因)的生物合成等等[8-10]。碱基生物化学的特点是补救反应、从头合成和分解代谢途径之间复杂的相互作用。这种代谢的复杂性反映了在持续的DNA和RNA合成和回收、胚乳中的氮储存和萌发时的释放、氮的获得和长距离运输甚至是整个植物生活史中对碱基的广泛需求,例如,细胞分裂素和嘌呤生物碱的产生以及酰脲循环[11-12]。核碱基生物化学的另一个特征是高度的区室化,需要广泛的细胞内和细胞间运输。例如,在种子萌发和幼苗早期发育过程中,核碱基生化途径的基本相互作用,既需要代谢产物从胚乳到子叶的细胞间运输,也需要细胞器之间的细胞内运输。在拟南芥基因组得到了6个编码不同的核碱基转运蛋白的基因家族,体现了核碱基转运的程度和重要性[13]。其中有两个转运蛋白家族是植物所特有的,包括具有8个成员的脲苷通透酶(UPS)和具有21个成员的嘌呤通透酶 (PUP)[14-15]。在拟南芥中鉴定出了NCS1家族的唯一成员,即 Azga类转运蛋白家族,其主要功能是促进腺嘌呤、鸟嘌呤和尿嘧啶的运动[16]。在其他植物中也鉴定到了NCS1的家族成员,例如玉米和狗尾巴草等,并存在特有的溶质转运谱[17],表明在植物的生长发育过程中核碱基阳离子转运蛋白也起着十分重要的作用。

棉花是天然纤维作物和纺织工业原料的重要来源。其中广泛种植的是陆地棉(G.hirsutum),它具有产量高、适应性广、品质较好和纤维较长等特点。棉纤维主要是由纤维素构成的,所占比例约为 94%,主要包含碳、氢、氧三种元素。随着经济的不断发展,对棉纤维的品质要求也在不断提高。我们的前期研究中,通过RNA-seq和BSA-seq结果联合分析,发现基因Gh_D09G1347是控制纤维强度或纤维长度的候选基因,并且该基因属于NCS1基因家族。本研究利用生物信息学方法,对该家族基因开展多序列比对、染色体定位、进化树构建、Motif 预测和基因结构鉴定等方面研究,以期为陆地棉育种和纤维品质的发展提供理论基础。

1 材料与方法

1.1 陆地棉NCS1家族成员鉴定和序列分析

陆地棉基因组数据来自南京农业大学棉花研究所的数据库(http://mascotton.njau.edu.cn/Data.htm),从该网站上下载了CDS序列、全基因组序列和蛋白质序列。首先利用生物信息学方法进行了NCS1结构域筛选,所有鉴定出来的蛋白质再用Pfam (http://pfam.sanger.ac.uk/)[18]和SMART(http://smart.embl-heidelberg.de/)[19]验证结构域,在去除冗余之后从陆地棉基因组中鉴定出了编码NCS1蛋白质的4个基因。利用在线软件WoLF PSORT(https://www.genscript.com/wolf-psort.html)对该基因进行亚细胞定位预测。

1.2 NCS1家族染色体定位和共线性分析

NCS1家族成员的位置及结构等生物信息是通过利用陆地棉种的基因组gff3注释文件获得的。棉花NCS1家族基因在染色体上的位置信息是通过MapChart[20]软件分析并将其体现出来的。利用MCSCANX软件[21]对陆地棉的NCS1基因的重复和共线性进行测定和分析;对所有蛋白质序列进行BLAST比对,在全基因组中发现共线性基因,探讨基因家族中基因的双重关系,并用MCSCANX软件绘制。

1.3 NCS1的家族基因结构和蛋白保守基序分析

利用在线软件MEME(http://meme-suite.org/)[21]对NCS1进行保守基序分析,使用的具体参数如下:10为基序的最大值,其他参数均为原本的参数。利用在线软件GSDS(http://gsds.gao-lab.org/)分析NCS1家族基因外显子-内含子结构[22]。将已分析的序列比对结果文件、外显子-内含子结构文件以及保守结构域文件组合,利用TBtools将其可视化[23]。

1.4 NCS1家族系统发育树构建

为了分析NCS1进化的关系,从Ensembl(http://plants.ensembl.org/index.html)上获得了拟南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、番茄(Solanumlycopersicum)、高粱(Sorghumbicolor)、可可(Theobromacacao)、葡萄(Vitisvinifera)和玉米(Zeamays)的CDS序列、全基因组序列和蛋白质序列,利用下载的序列对这些物种的NCS1家族成员进行鉴定,利用HMMER3.0和BLASTP搜索并提取陆地棉的蛋白序列,利用MEGA 7.0[24]软件对蛋白序列进行多序列比对,进而用邻接法(NJ)构建系统发育树。利用在线软件Evolview (http://www.omicsclass.com/article/671)美化进化树。

1.5 NCS1家族成员的进化选择压力分析

本研究利用BLAST建库比对和Calculator工具,对陆地棉NCS1基因核苷酸的同义替换率(Ks)和非同义替换率(Ka)进行计算,获得数据,进而进行下一步分析。我们进行了Ka/Ks的比值的计算,以分析该基因在系统发育过程中受到了何种选择。在进化过程中,氨基酸可能会由于基因的非同义替换,即Ka,从而产生一些相应的变化,进而会带来蛋白质的构象和功能的改变,最终带来优势或者劣势自然选择的结果;而Ks是代表发生同义替换的SNP数。利用基因 Ka/Ks比率值,进行物种选择压力分析。

1.6 NCS1基因顺式作用元件的分析

下载了起始密码子上游1 500 bp的启动子序列,从而对NCS1所具备的潜在功能进行相关分析,具体方法是利用PlantCARE数据库(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)[25]识别出基因所具有的顺式作用元件并进行分析,经过筛选之后通过TBtools将其可视化。

1.7 候选基因的表达分析

取开花后17和21 d的棉纤维的RNA,逆转录为cDNA留存。对这4个候选基因都进行了表达验证,实验设计3次生物学重复和3次技术重复,棉花histidine3基因被标准化为内源基因。表1 列出了qRT-PCR引物的详细信息。

表1 qRT-PCR引物

2 结果与分析

2.1 棉花的NCS1家族成员的鉴定

通过已有陆地棉的基因组数据,将陆地棉的蛋白质序列进行隐马尔可夫模型(HMM)搜索,最终获得4条NCS1蛋白质序列,根据不同物种NCS1家族基因的数量分析,并进行了重新命名,结果发现四倍体陆地棉的NCS1家族数量均高于其他物种,如表2所示。

2.2 陆地棉NCS1家族染色体分布及共线性分析

表2 NCS1家族基因基本理化性质

对NCS1家族基因进行染色体定位(图1),结果表明陆地棉的4个NCS1基因仅分布在两条染色体上,并且主要分布在染色体的近末端。

为了解NCS1家族基因的进化关系,对四倍体陆地棉的NCS1家族基因进行共线性分析(图

图1 NCS1基因在陆地棉中的染色体分布Fig.1 Chromosomal distribution of NCS1 genes in upland cotton

2)。结果表明,A09和D09出现了加倍复制,并且不同亚族之间有更紧密的进化关系,NCS1家族基因在多倍化过程中出现了基因组的重新排列。

2.3 NCS1家族基因多序列比对及基因结构域分析

利用MEME软件分析了陆地棉NCS1蛋白的序列。共鉴定出10个保守基序,并用程序对这些保守基序进行了注释与系统发育树分析(图3),可以发现序列相似度高的都聚在一起。结果表明,陆地棉所鉴定出的4个NCS1家族的基因都含有motif1-10,表明同一个亚族中所有NCS1家族基因具有相似的基因结构和保守基序,这些结果可以有力地支持系统发育进化分类的可行性。

通过对陆地棉中的NCS1家族基因进行蛋白质序列比对(图4),结合SWISS-MODEL(https://swissmodel.expasy.org/)对蛋白序列的三维结构分析,可以发现有一些特殊结构位点存在于蛋白质序列上,在这些结构位点处可能包括了α螺旋、β折叠和无规则卷曲等一些特殊的结构元件。

灰线代表不同基因组内的共线关系,红线代表NCS1家族中的共线基因对The gray lines represent collinear relationships within different genomes, and the red lines represent collinear gene pairs in the NCS1 family图2 陆地棉NCS1家族基因的共线性分析Fig.2 The collinearity of NCS1 family genes in the upland cotton

图3 陆地棉NCS1蛋白的系统发育树、保守基序及基因结构Fig.3 Phylogenetic tree, conserved motif and gene structure of NCS1 protein in upland cotton

2.4 NCS1家族系统发育分析

为了解NCS1家族在物种中的进化关系,使用拟南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、玉米(Zeamays)、番茄(Solanumlycopersicum)、可可(Theobromacacao)、葡萄(Vitisvinifera)、高粱(Sorghumbicolor)和陆地棉(Gossypiumhirsutum)8个物种NCS1家族基因编码蛋白的氨基酸序列共同构建系统发育树,发现NCS1蛋白家族分为两个大组(图5)。其中陆地棉、番茄、可可、葡萄和拟南芥属于同一组,而水稻、高粱和玉米在同一组内。进一步分析发现陆地棉和可可属于同一个亚组,说明这两个物种之间亲缘关系更近;玉米和高粱也属于同一亚族,这两个物种间亲缘关系也较近。总体来看,系统发育分析表明,各物种NCS1家族基因被分为两组,同一分支的进化程度相近,亲缘性高,不同亚群中的基因数目不等,也表明了物种进化过程中导致NCS1基因发生明显分化。

图4 陆地棉NCS1基因的蛋白质序列比对Fig.4 Alignment of protein sequences of NCS1 gene in upland cotton

2.5 陆地棉NCS1基因家族选择进化压力分析

在遗传学中,Ka/Ks通常表示两个蛋白编码基因的非同义替换率(Ka)和同义替换率(Ks)之间的比例;该比值是作为判断是否有选择压力作用于该蛋白质的编码基因的有力依据。本研究利用KaKs_Calculator2.0 软件对鉴定出的陆地棉中的NCS1家族基因进行Ka/Ks分析,结果发现这些基因对应的Ka/Ks值都小于1,且其中一个Ka/Ks比值远小于1(表3),说明在进化过程NCS1基因主要受到了纯化选择。

Gh,陆地棉;Tc,可可;Vv,葡萄;Sl,番茄;AT,拟南芥;Os,水稻;Sb,高粱;Zm,玉米。Gh, upland cotton; Tc, cocoa; Vv, grape; Sl, tomato; AT, Arabidopsis; Os, rice; Sb, sorghum; Zm, maize.图5 NCS1基因家族成员的系统发育树Fig.5 Phylogenetic tree of NCS1 gene family members

2.6 陆地棉NCS1启动子序列的顺式作用元件分析

为进一步分析NCS1家族可能存在的一些功能,我们提取了陆地棉NCS1基因起始密码子上游1 500 bp 序列进行顺式作用元件的分析(图6)。结果显示了38种非生物胁迫响应元件,陆地棉NCS1基因家族除了存在大量的基本元件CAAT-box和TATA-box外,还存在G-Box和WRE3元件这些参与光响应顺式作用调节元件,其中WRE3是与光响应模块部分MYB结合并参与光反应的元件。MYB参与植物苯丙烷类次生代谢途径的调节,WUN-motif 为植物内应激反应元件,ARE是厌氧诱导所必需的顺式作用调控元件。通过以上元件在植物中的调控反应可知,多数顺式元件参与光反应,由此我们判断棉花发育过程中NCS1家族基因受到光照影响较为明显。

表2 陆地棉NCS1基因家族核苷酸替换率

2.7 表达验证分析

为了进一步验证NCS1基因家族在棉花发育过程中的影响,在17和21 d这两个时期做了qRT-PCR分析。分析结果显示,所有基因在17 d的表达量都显著高于21 d的表达量。

3 讨论

在原核生物和真核生物中,核碱基转运蛋白介导了嘌呤和嘧啶类药物的摄取,而这些药物则是广泛应用于治疗不同的疾病或作为抗病毒的药物[26]。有研究表明,NAT/NCS2(核碱基抗坏血酸转运蛋白或核碱基阳离子转运蛋白家族2)和NCS1家族对于嘌呤和嘧啶具有高度特异性[27]。NCS1蛋白在细菌中还未有严格的系统发育分析,而最近发现的对于植物NCS1蛋白质的研究似乎更多,尽管依然未有较为广泛或全面的系统发育分析[28]。在真菌中的NCS1蛋白被分为两个亚家族,即Fcy和Fur家族,而最近发现的植物NCS1蛋白质似乎更接近于Fur家族,但是缺乏更广泛的系统发育分析。它们的功能特性分别为,Fcy类转运蛋白是高亲和力的H+共转运体,对胞嘧啶、腺嘌呤、鸟嘌呤、次黄嘌呤或吡哆醇具有特异性,而Fur类转运蛋白也是高亲和力的H+共转运体,与Fcy类转运蛋白具有完全不同且不重叠的特异性,其不仅对尿囊素、尿嘧啶、尿苷、硫胺素、烟酰胺核糖苷具有特异性,对尿酸、黄嘌呤也具有特异性。特别的是,少数具有功能特征的植物NCS1转运蛋白与真菌Fur类转运蛋白更相似,表达出与Fcy和Fur蛋白重叠的特异性特征,它们具有可以同时运输尿囊素、鸟嘌呤、腺嘌呤和尿嘧啶的功能[1]。NCS1是一种转运蛋白,其在植物的生长发育过程中的独特溶质转运特异性和基因表达模式被广泛研究[29]。

图6 陆地棉NCS1基因家族顺式作用元件分析Fig.6 Cis-acting element analysis of upland cotton NCS1 gene family

****表示在0.000 1水平上差异显著。**** indicated significant difference at 0.000 1 level.图7 候选基因的相对表达分析Fig.7 Relative expression analysis of candidate genes

本研究通过鉴定分析发现,陆地棉中的NCS1基因家族成员数量明显高于其他植物,如在水稻中只有一个。陆地棉中的基因是以成对的方式出现的,说明它们之间同源性高,可能存在相似的功能。系统发育分析发现,陆地棉的NCS1基因与双子叶植物如可可、番茄等亲缘关系较近,属于同一亚族,与单子叶植物如水稻玉米等的亲缘关系较远,由此可以看出NCS1基因在不同物种的进化中发生了分化。

通过对NCS1基因启动子区域的顺式作用元件分析发现,大量的植物激素响应元件存在于陆地棉中。例如,ABRE作为一种调节种子、芽休眠的顺式作用元件,可以与转录因子结合,促进或抑制脱落酸诱导基因的表达,并且在拟南芥中已证实该元件与植物的抗逆性有关,具有增强植物抗逆性等功能[30]。其他与逆境相关的还包括参与MeJA应答的CGTCA-Motif、参与低温应答的LTR、参与水杨酸应答的TCA-element以及参与防御和胁迫的TC-Rich等。由A-T碱基对所组成的顺式作用元件TATA-Box,一般在基因转录起始位点的上游发现较多,可以与调控蛋白相结合,从而达到调节转录的效果。其中,G-Box是光响应的顺式作用元件,它参与了果树开花期的调控,开花期受到光照的影响较大。在表达验证中发现,所有基因在纤维发育后期都呈现下降趋势,说明这些基因在纤维发育过程中起着重要的调控作用,或可能影响到其纤维品质的发育。因此,NCS1家族在棉花的生长发育过程中起着十分重要的作用,具体作用机理有待进一步研究。

本研究首次从全基因组水平中鉴定到4个陆地棉NCS1基因。这些基因在苹果中被鉴定出具有转运有毒的鸟嘌呤衍生物-6 TG的功能[28]在植物中碱基生物代谢包括从头合成、补救和分解代谢过程,这些代谢过程中的复杂性体现了碱基在植物生长发育中的重要性。在拟南芥的研究中发现,AtNCS1有一个不同于典型的FCY2和FUR4曲线的溶质运输曲线。为了深入探究AtNCS1的溶质曲线是否能代表植物NCS1特性,研究了一种能够输入和利用外源嘌呤的自由生活的单细胞生物体莱茵衣藻来验证[31]。研究表明,莱茵衣藻 NCS1(CrNCS1)是一种腺嘌呤、鸟嘌呤、尿嘧啶、含有高亲和力的腺嘌呤和尿嘧啶的转运蛋白,并且具有与拟南芥NCS1类似的溶质运输曲线。两种植物NCS1(CrNCS1和AtNCS1)的溶质转运和结合特征具有广泛的溶质转运特征,并且是在NCS1蛋白质的真菌FCY2和FUR4亚家族中观察到了特殊的功能。其中植物的NCS1与真菌FCY2成员一样,NCS1运输腺嘌呤、鸟嘌呤,与FCY2不同,它不运输次黄嘌呤或5-氟胞嘧啶。以上都表明了AtNCS1具有溶质转运的特性,陆地棉中也可能存在这些相应的功能[28]。通过对陆地棉的4个NCS1基因进一步详细的分析,为后续研究NCS1基因家族和改良陆地棉的遗传特性具有关键的作用和重要意义。

猜你喜欢
碱基元件基因组
牛参考基因组中发现被忽视基因
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
QFN元件的返工指南
在新兴产业看小元件如何发挥大作用
宝马i3高电压元件介绍(上)
基因组DNA甲基化及组蛋白甲基化
Cu4簇合物“元件组装”合成及其结构与电催化作用