任延靖, 邵登魁
(1.青海大学农林科学院,青海省蔬菜遗传与生理重点实验室, 西宁 810016;2.青海大学,三江源生态和高原农牧业国家重点实验室, 西宁 810016)
芜菁(Brassicarapassp.rapaL. 2 n=2 x=20),又称为蔓菁、盘菜等,是我国及东亚广泛种植的一种重要的十字花科叶用和根用蔬菜,也是我国最早人工种植的蔬菜之一,同时也作为重要的药用和饲料用作物,能够广泛生长于海拔3 500 m以上的高原地区[1],其富含芥子油苷[2-4]、膳食酚类[4]、膳食纤维、维生素C以及生物活性物质[5],是一类营养丰富且全面的作物,其研究方向主要集中在抗缺氧等相关的药用价值、以花青素为代表的色素调控、重金属富集以及单倍体再生体系的构建等。
在芜菁的药用价值方面,Tang等[6]比较了芜菁的功能活性物质以及抗疲劳的作用,结果表明,在小鼠负重游泳模型中,芜菁多糖具有良好的抗疲劳作用;Chu等[7]在人体试食实验结合低氧耐受测试中,进一步验证了西藏芜菁提高健康人群低氧耐受的功效,同时筛选出其抗氧化活性优良的化合物:反式/顺式-对香豆酸葡萄糖苷,发现该化合物能够增强物理缺氧条件下的细胞的活力并减少细胞凋亡;Li等[8]进一步研究了对香豆酸葡萄糖苷在预防缺氧性肺水肿和缺氧性脑水肿的功效,证实了其在预防缺氧性肺水肿和缺氧性脑水肿中的重要作用并阐明其调控机制;王文宁[9]分析了芜菁营养成分及其对改善小鼠肠道菌群的作用,发现芜菁可以促进小鼠肠道内双歧杆菌、乳酸杆菌、肠杆菌的增殖,抑制肠球菌、产气荚膜梭菌的增殖,对肠道菌群具有调节作用,这些研究结果显示芜菁资源具有良好的应用前景,但是目前对于芜菁基因组的探究还鲜见报道。
基因组包括细胞核基因组和细胞质基因组,细胞质基因组又包含叶绿体、线粒体等小细胞器中分离出的DNA,被子植物完整的叶绿体基因组通常包含4个部分:一个大的单拷贝区域(LSC)、一个小的单拷贝区域(SSC)和两个位于LSC和SSC之间的倒置重复区(IR)、IRa和IRb,最终形成一个典型的四方圆环[10],与核基因组相比,从母本遗传的叶绿体基因组在基因含量和基因组结构上高度保守,通常叶绿体基因组的长度在120~160 kb之间,特异基因的数量在110~130个之间[11]。在光合作用中,叶绿体基因组基因在淀粉、氨基酸、脂肪酸和色素的生物合成中起着至关重要的作用[12]。近年来,高通量技术的快速发展,解析了越来越多的植物的叶绿体基因组[11,13]。
本研究中,针对芜菁叶绿体基因组进行了组装,结果显示芜菁叶绿体呈环状双链,共有132个基因,进一步分析了芜菁叶绿体的结构特征及亲缘关系,本研究结果为分析芜菁细胞质基因组、了解芜菁亲缘关系奠定良好的基础。
试验所用芜菁材料W 21于2020年3月播种于青海大学农林科学院试验温室中,待生长至65 d时,收集新鲜健康的叶片,用蒸馏水冲洗干净,然后迅速在液氮中冷冻,存于-80 ℃备用。
采用改良CTAB法[14]提取基因组DNA,DNA质检合格后,用机械打断的方法(超声波)将DNA片段化,然后对片段化的DNA进行纯化、末端修复、3′端加A以及连接测序接头[13],再用琼脂糖凝胶电泳进行片段大小选择,进行PCR扩增形成测序文库,建好的文库先进行文库质检,质检合格的文库用Illumina Hi Seq 2500进行测序。
对测序得到的原始数据进行数据过滤,去除其中的接头序列及低质量的片段,获得高质量的数据,将高质量的数据进行序列组装,利用MITObim软件[15]参考十字花科芸薹属芥菜的叶绿体基因组(NC_030450,https://www.ncbi.nlm.nih.gov/nuccore/NC_030450.1)的保守序列对芜菁的叶绿体基因组进行组装,得到局部的组装结果,以局部的组装序列进行延伸,最终获取完整的芜菁叶绿体基因组。得到的叶绿体组基因用DOGMA[16]和Mitofy[17]进行基因注释,注释结果通过CpGAVAS pipeline[18]进行验证,最终利用在线软件GDRAW(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)[19]进行作图。完整的叶绿体基因组序列提交至NCBI数据库,登录号MT 409177。
利用PHOBOS软件v 3.3.12[20]搜索芜菁叶绿体单核苷酸重复以上的Simple sequence repeat(SSR)位点,设置参数为:单核苷酸重复≥6,二核苷酸重复≥5,三核苷酸重复≥4,四核苷酸重复≥3,五核苷酸及六核苷酸重复≥1,所有的搜索结果最终通过人工验证[21]。
为了鉴定芜菁与其他十字花科蔬菜的亲缘关系,从NCBI数据库下载白菜(Brassicarapasubsp.pekinensis,NC_015139;Brassicarapa(field mustard,NC_040849);甘蓝(Brassicaoleraceavar.italicacultivar Maratython,MH 388765;Brassicaoleraceavar.italicacultivar Green Sprout,MH 388764;Brassicaoleraceavar.italicacultivar 2001 B,MN 649876)以及拟南芥(Arabidopsisthalianathale cress,NC_000932)的叶绿体基因组,采用MEGA软件对上述叶绿体基因组构建系统发育树,结合Du等[11]对82份十字花科作物的进化关系分析,鉴定芜菁与其他十字花科蔬菜之间的关系。
通过Illumina Hi Seq 2500测序平台,共获得8.38 Gb的高质量数据,其中Q 30为91.65%(表1),通过组装及可视化作图,发现芜菁叶绿体基因组呈双链环状,与姜黄[22]、紫薇[23]、木兰花[24]等高等植物相似,包含典型的4个部分:83 512 bp的大单拷贝区域(LSC)、17 683 bp的小单拷贝区域(SSC)及26 213 bp的两个反向重复序列(IRa和IRb)(图1,表2),组成一个序列全长为153 621 bp的完整的芜菁叶绿体基因组。
注:内侧基因顺时针转录,外侧基因逆时针转录,深灰色区域表示圈内对应的GC含量,浅色区域表示相对应的AT含量。
表1 芜菁基因组测序的数据评估统计
在芜菁叶绿体基因组中,共检测到132个基因,包括87个编码蛋白质的基因、37个转运RNA基因和8个核糖体RNA基因,在这132个基因中,有15个基因在IR区域呈现双拷贝,分别是ndhB、rrn4.5、rrn5、rrn16、rrn23、rps7、rps12、rpl2、rpl23、trnI-CAU、trnV-GAC、trnN-GUU、ycf1、ycf2和ycf15(表2和表3)。
表2 芜菁叶绿体基因组结构特征
表3 芜菁叶绿体基因组结构特征
对芜菁叶绿体基因组的碱基组成进行分析,发现CG含量占总碱基数的36.3%,G和C的含量分别为18.6%和17.8%,其中IR区域中的GC含量(43.2%)高于LSC区域(34.1%)和SSC区域(29.3%),相反,总的AT含量在SSC区域(71.9%)高于IR区域(57.7%),A和T的含量分别为31.4%和32.3%,该结果与其他十字花科蔬菜,如萝卜[25]、豆瓣菜[26]以及野白菜[11]等的叶绿体基因组GC含量相似(表4)。
表4 芜菁叶绿体基因组的碱基组成
重复序列又称为简单序列重复(SSR)或微卫星序列,广泛存在于基因组中,通常包含随机的1~6个核苷酸[25-28],一般用于分析群体遗传学[29-30]、进化关系[31]以及物种鉴别等。通过对芜菁叶绿体基因组的SSR分析,共发现13种类型的SSR,包括2种单核苷酸、2种二核苷酸、3种三核苷酸和6种四核苷酸类型重复(表5),A/T单核苷酸重复是最多的一类,占总SSR的96.90%,AT/TA二核苷酸重复占总SSR的2.02%,A/T单核苷酸重复在其他物种中也较为多见[11,32],说明短的A/T重复是叶绿体基因组的普遍特征[33],在芜菁叶绿体基因组中没有发现五核苷酸和六核苷酸重复的SSR,但在野白菜叶绿体基因组中检测到两个六核苷酸重复的SSR,这些结果表明,SSR参与了不同物种叶绿体基因组遗传多样性的鉴定。
表5 芜菁叶绿体基因组中SSR类型及数量
利用MEGA软件对NCBI数据库中发表的6个十字花科作物的与芜菁共同构建叶绿体基因组系统进化树,进化树显示将7类作物分为两大类,一类是拟南芥,另一类是不同白菜类变种和甘蓝类变种,其中芜菁与白菜类聚为一类,亲缘关系与白菜较近,与甘蓝类的亲缘关系较远(图2)。
注:所有的叶绿体基因组均下载于NCBI,登录号如下:白菜,NC_015139;野白菜,NC_040849;甘蓝,MH 388765;MH 388764;MN 649876;拟南芥NC_000932.
根据进化树的结果,比较芜菁和白菜的叶绿体基因组特征,发现两个基因组在4个区域处的连接序列(图3),结果表明连接处共有4个基因(rps19,ycf1,ndhF和trnH),其中rps19和trnH的长度相同,但是基因所在的位置略有差异,ycf1的两个拷贝在芜菁和白菜之间均有差异,位于IRb区域和SSC区域连接处的ycf1在芜菁和白菜中分别为1 029 bp和1 032 bp,芜菁中3 bp的缺失发生在IRb区域,位于IRa区域和SSC区域的ycf1在芜菁和白菜中分别为5 310 bp和5 313 bp。trnH基因在芜菁和白菜中分别位于LSC区域距离IRa区域2 bp和3 bp远的位置,Du等[11]分析了8个十字花科物种的区域连接处,也发现了4个基因,rps19,ycf1,ndhF和trnH,其中rps19基因在8个物种的长度相同,均为279 bp,说明rps19基因在十字花科物种中高度保守,ycf1和ndhF基因在长度和位置上均不同,说明ycf1和ndhF基因比较容易突变,本研究结果与这些结果类似,这些区域链接处序列的分析结果说明构建的芜菁叶绿体基因组是可靠的。
图3 芜菁和白菜叶绿体基因组的比对
本研究首次对芜菁叶绿体及基因组的序列结构进行了详细分析,构建了芜菁叶绿体基因组信息,同时分析序列的碱基组成、SSR以及区域连接处的基因,同时构建了系统发育进化树,为进一步深入了解细胞质基因组及芜菁研究奠定了良好的基础。