李 雪, 任玉玲, 赵 艳, 李幸儿, 孙胜男, 赵成周, 李 萍
(1.青海大学生态环境工程学院,青海 西宁 810016;2.青海大学医学院,青海 西宁 810163;3.青海大学藏医学院,青海 西宁 810016)
小檗属(Berberis)植物种类繁多,全世界有594种,主要分布于亚洲、南美洲、北美洲和欧洲,中国有近230种,是世界上小檗属物种多样性最丰富的国家[1]。小檗属植物是青藏高原主要浆果树种之一,果实中富含维生素C、有机酸等多种生物活性物质,具有解热和利尿的作用[2]。药用价值方面,小檗果实能够起到镇静和抗心律失常的作用,可用于治疗高血压、心律不齐和一些神经元疾病[3]。直穗小檗(B.dasystachyaMaxim.)是小檗科(Berberidaceae)小檗属植物,生长于海拔800~3 400 m的山地灌丛中。直穗小檗的根、茎、叶、花和果实中含有多种化合物[4-6],例如花青素、生物碱、黄酮类以及酚类化合物,已被用于治疗发烧、黄疸、风湿病、肾脏和胆结石等多种疾病[7]。小檗碱是小檗中最重要的功能化合物之一,是一种天然生物碱,具有许多药用价值,其抗氧化、抗增殖和抗炎作用已在细胞试验、动物模型和人体研究中得到广泛证实。Wu et al[8]研究了小檗碱对糖尿病大鼠肾损伤的影响和作用机制,结果表明,小檗碱显著降低了糖尿病大鼠的血糖、胰岛素、总胆固醇和甘油三酯水平。因此,分析直穗小檗叶绿体基因组结构特征,说明直穗小檗在小檗科植物中的系统发育位置,对小檗属物种资源鉴定和遗传多样性分析具有重要意义。
叶绿体是植物光合作用的主要场所,携带独特的遗传信息,遗传系统由封闭的环状DNA分子组成[9]。陆生植物叶绿体基因组长度为107~218 kb,具有典型的四分体结构,包括一段小单拷贝(small single copy,SSC)区、一段大单拷贝(large single copy,LSC)区,以及将这两段分开的两个反向重复区(inverted repeat, IR),即IRa和IRb[10]。近年来,高通量测序技术的出现促进了叶绿体基因组学的快速发展,NCBI基因组数据库中提供了近千种完整的叶绿体基因组序列,这些结果为研究物种进化关系发挥了重大作用[11]。叶绿体基因组结构和排列顺序比核基因组更保守[12],因此被广泛应用于物种鉴定和系统发育分析。在小檗属植物叶绿体基因组研究中,李述成等[13]分析了小檗属9个物种的叶绿体基因组结构特征,并构建系统发育树,为该属物种的分类提供了依据。Feng et al[14]对威宁小檗(B.weiningensis)进行了叶绿体基因组测序分析,丰富了该属物种的遗传数据信息。
本试验利用高通量测序技术,结合生物信息学方法获取直穗小檗完整叶绿体基因组序列,通过分析其基因组结构特征,对直穗小檗及其近缘类群进行系统进化分析,为直穗小檗的系统进化、遗传多样性研究以及资源保护提供数据基础。
直穗小檗新鲜叶片采自青海省循化撒拉族自治县清水乡孟达村(102°40′29″E,35°47′30″N)。经青海大学孙胜男副教授鉴定为小檗科小檗属直穗小檗。标本存放于青海大学生态环境工程学院,表型特征如图1所示。
1.2.1 DNA提取及叶绿体基因组测序 采用CTAB法[15]提取直穗小檗全基因组DNA,并使用1%琼脂糖凝胶电泳检测DNA的完整性。在质检合格后,使用超声粉碎仪将DNA切割为500 bp的片段,进行纯化、末端修复、3′端加A以及接头连接等处理,最后通过PCR扩增形成了测序文库。在文库质检合格后,使用Illumina Hiseq系统进行测序。
1.2.2 叶绿体基因组组装与注释 过滤测序得到的原始数据,去除接头序列及低质量的片段,保留高质量数据,参考其同源小檗属鲜黄小檗(B.diaphanaMaxim.)叶绿体基因组(GenBank登录号为MZ962404)的保守序列,利用SPAdes和Getorganelle软件对直穗小檗的叶绿体基因组进行组装[16]。得到的叶绿体组基因通过CPGAVAS2软件[17]进行编码基因注释。最后,利用在线注释软件Ogdraw(https://chlorobox. mpimp-golm. mpg. de/OGDraw. html)绘制叶绿体基因组环状结构图。对直穗小檗基因组序列进行组装注释,并将其上传至GenBank数据库(登录号为MZ983398)。
1.2.3 重复序列分析 利用MISA网站(https://webblast.ipk-gatersleben.de/misa/)搜索直穗小檗叶绿体基因组中的简单重复序列(simple sequence repeat,SSR),设置单核苷酸重复次数≥10,二核苷酸重复次数≥5,三核苷酸重复次数≥4,四核苷酸、五核苷酸和六核苷酸SSR重复次数≥3,分析直穗小檗叶绿体基因组SSR位点。
1.2.4 密码子偏好性分析 使用CodonW v1.4.2软件[18]对直穗小檗叶绿体基因组同义密码子的相对使用度(relatively synonymous codon usage, RSCU)进行分析统计。RSCU>1表示该密码子使用存在偏好性,RSCU<1表示该密码子使用率较低,RSCU=1表示该密码子使用无偏好性。
1.2.5 IR边界扩张和收缩分析 利用IRscope网站(https://irscope.shinyapps.io/irapp/)对直穗小檗及其近缘物种朝鲜小檗(B.koreana)、兰山草(Ranzaniajaponica)、鲜黄连(Plagiorhegmadubium)、粗毛淫羊藿(Epimediumacuminatum)、裸花草(Achlystriphylla)、云南八角莲(Dysosmaaurantiocaulis)以及伞花山荷叶(Diphylleiacymosa)叶绿体基因组4个区域边界的差异进行分析。
1.2.6 系统进化分析 从NCBI数据库下载31个小檗科植物叶绿体基因组,选择4个与小檗科亲缘关系较近的木通科(Lardizabalaceae)植物为外类群,利用MEGA 7.0软件的最大似然法(maximum likelihood,ML)构建系统发育树,自展值(bootstrap value)设为1 000[19]。
clean data中pair-end reads总数为12 380 854;clean data总碱基数为3 695 961 752 bp;质量值大于或等于20、30的碱基数所占的百分比分别为96.82%、92.01%。
直穗小檗叶绿体基因组的形状为闭合的双链环状分子,全长为167 036 bp。具有典型的四分体结构:包括37 400 bp的反向重复序列(inverted repeat sequence,IRs)、18 802 bp的SSC和73 434 bp的LSC。基因总GC含量38.16%,其中,IRs区的GC含量最高(40.85%),SSC区的GC含量最低(32.57%)(图2)。
图2 直穗小檗叶绿体基因组图谱Fig.2 Chloroplast genome map of B.dasystachya
小檗叶绿体完整基因组共编码144个功能基因,包含99个蛋白质编码基因、37个tRNA基因和8个rRNA基因。在这144个基因中有32个基因在IRs区域呈现双拷贝,分别为7个tRNA编码基因(trnV-GAC、trnR-ACG、trnN-GUU、trnL-CAA、trnI-GAU、trnI-CAU、trnA-UGC)、4个rRNA编码基因(rrn4.5、rrn5、rrn16、rrn23)以及21个蛋白编码基因(ycf1、ycf2、rps3、rps7、rps8、rps11、rps12、rps19、rpl2、rpl14、rpl16、rpl22、rpl23、rpl36、rpoA、psbB、psbH、psbN、psbT、ndhB、infA)(表1)。
表1 直穗小檗叶绿体基因组注释信息1)Table 1 Annotations of B.dasystachya chloroplast genome
直穗小檗叶绿体基因组编码的基因可根据功能划分为3类,分别是遗传系统基因、光合系统基因、其他基因和未知功能基因。与遗传相关的基因有83个,包括37个tRNA基因、8个rRNA基因、18个核糖体小亚基基因、15个核糖体大亚基基因和5个DNA依赖性RNA聚合酶基因。光合系统相关基因总共有50个,包括5个光系统Ⅰ基因、19个光系统Ⅱ基因、5个细胞色素b/f复合体基因、6个ATP合酶亚基、1个二磷酸核酮糖羧化酶大亚基因、12个NADH脱氢酶亚和2个转录起始因子。最后一类包括5个其他基因和6个未知功能基因(表1)。
在直穗小檗叶绿体全基因组编码的基因中,共有16个基因含有内含子,包括10个蛋白质编码基因(rps16、atpF、rpoC1、ycf3、clpP、petB、rpl2、rpl16、ndhA和ndhB)和6个tRNA基因(trnA-UGC、trnK-UUU、trnG-UCC、trnL-UAA、trnV-UAC和trnI-GAU)。直穗小檗叶绿体基因组中除ycf3(726和747 bp)和clpP(729和737 bp)含有2个内含子外,其余14个基因均含有1个内含子。内含子长度最长的为trnK-UUU(2 495 bp),最短的为trnG-UCC(58 bp)(表2)。
表2 直穗小檗叶绿体基因组内含子的长度和位置Table 2 Length and location of introns in B.dasystachya chloroplast genome
在直穗小檗叶绿体基因组序列中,共统计到了109个SSR,其中包括80个单核苷酸重复序列(73.4%)、10个二核苷酸重复序列(9.2%)、4个三核苷酸重复序列(3.7%)、7个四核苷酸重复序列(6.4%)和8个六核苷酸重复序列(7.3%),未发现五核苷酸重复的SSR。SSR基因序列碱基组成中,单核苷酸重复所占比例最高,且主要由A/T组成,其他重复序列也以A和T为主,表明直穗小檗叶绿体基因组SSR序列偏好A/T碱基(表3)。
表3 直穗小檗叶绿体基因组中SSR类型及数量Table 3 Types and number of SSR in B.dasystachya chloroplast genome
对直穗小檗密码子使用偏好性(表4)分析表明:RSCU>1的密码子有31个,其中以A/T碱基结尾的有29个;RSCU<1的有31个,其中以G/C碱基结尾的有28个;RSCU=1的密码子有2个。说明直穗小檗叶绿体基因组密码子更加偏好A/T碱基,与其基因组和蛋白编码基因较低的GC含量一致。
表4 直穗小檗叶绿体密码子偏好性分析1)Table 4 Codon usage bias of B.dasystachya chloroplast genome
为了探索IR区的扩张与收缩情况,将直穗小檗叶绿体基因组与小檗科内近缘属的叶绿体基因组进行比较(图3)。结果表明,8个小檗科植物叶绿体基因组长度为152 468(P.dubium)~169 224 bp(R.japonica),IR区域的长度为24 711(A.triphylla)~37 924 bp(R.japonica),LSC区域的长度为73 434(B.dasystachya)~87 080 bp(D.cymosa),SSC区域的长度为16 599(P.dubium)~20 698 bp(A.triphylla)。位于IR区边界及边界附近的基因主要有rpl22、rpl2、rps19、ycf1、ndhF、trnN、trnH。所分析的8个物种中,ndhF基因全部位于SSC区间,trnH基因全部位于LSC区间。朝鲜小檗SSC/IRb(junction of SSC/IRb, JSB)和SSC/IRa(junction of SSC/IRa, JSA)边界附近缺失1个ycf1基因。朝鲜小檗、直穗小檗和兰山草JSB边界均未注释到rps19基因,但都在LSC区间注释到了clpP基因。
图3 直穗小檗及近缘物种叶绿体基因组的4个连接边界Fig.3 Four junction sites of chloroplast genomes of B.dasystachya and related species
选择已发表的小檗科叶绿体基因组为内类群,与小檗科亲缘关系较近的4个木通科植物为外类群,构建ML系统发育树(图4)。发育树将所分析的植物分为2大支:一大支包括所有小檗科植物,另一大支为外类群木通科植物。小檗科这一大类分支又分为5个亚分支:山荷叶属(Diphylleia)、桃儿七属(Sinopodophyllum)、鬼臼属(Dysosma)以及裸花草属(Achlys)为一支,淫羊藿属(Epimedium)和鲜黄连属(Plagiorhegma)为一支,兰山草属(Ranzania)、山槐叶属(Bongardia)、红毛七属(Caulophyllum)、囊果草属(Leontice)为一支,小檗属(Berberis)和十大功劳属(Mahonia)聚为一支。
“*”代表直穗小檗。 所有的叶绿体基因组均下载于NCBI,登录号如下:伞花山荷叶(Diphylleia cymosa, NC_037908);日本山荷叶(Diphylleia grayi, NC_037901);桃儿七(Sinopodophyllum hexandrum, KT445939);南方山荷叶(Diphylleia sinensis, NC_037907);云南八角莲(Dysosma aurantiocaulis, NC_037902);西藏八角(Dysosma tsayuensis, NC_037904);川八角莲(Dysosma delavayi,NC_037899);八角莲(Dysosma versipellis, NC_037898);贵州八角莲(Dysosma majoensis, NC_037900);六角莲(Dysosma pleiantha, NC_037905);小八角莲(Dysosma difformis, NC_037906);裸花草(Achlys triphylla, NC_037726);三枝九叶草(Epimedium sagittatum, NC_029428);时珍淫羊藿(Epimedium lishihchenii, NC_029944);拟巫山淫羊霍(Epimedium pseudowushanense, NC_029945);粗毛淫羊藿(Epimedium acuminatum, NC_029941);长蕊淫羊藿(Epimedium dolichostemon, NC_029942);朝鲜淫羊藿(Epimedium koreanum, NC_029943);鲜黄连(Plagiorhegma dubium,NC_038103);兰山草(Ranzania japonica, NC_039677);山槐叶(Bongardia chrysogonum, NC_042220);红毛七(Caulophyllum robustum, NC_042221);囊果草(Leontice armeniaca, NC_042400);牡丹草(Gymnospermium microrrhynchum, NC_030061);南天竹(Nandina domestica, DQ923117.1);阿里山十大功劳(Mahonia oiwakensis,MN735221);阔叶十大功劳(Mahonia bealei, NC_022457);直穗小檗(Berberis dasystachya Maxim, MZ983398);朝鲜小檗(Berberis koreana, NC_030063);黄芦木(Berberis amurensis, NC_030062);威宁小檗(Berberis weiningensis, MW018363);三叶木通(Akebia trifoliata, KU204898);长萼木通(Archakebia apetala,MK468518);串果藤(Sinofranchetia chinensis, NC_041488);猫儿屎(Decaisnea insignis, NC_035941)。
叶绿体基因组在长期的进化过程中形成了高度保守的基因组结构。然而,由于过去几十年测序技术和成本的限制,叶绿体基因组研究进展缓慢。近年来,随着测序技术的不断完善和推广,植物叶绿体基因组研究已广泛应用于系统发育学、谱系地理学以及植物资源分类和鉴定等方面[20-21],是研究植物系统发育和进化的重要材料[22]。本研究利用高通量测序技术和生物信息学分析方法对直穗小檗叶绿体全基因组进行了分析,研究结果与大多数被子植物叶绿体基因组数据相符。直穗小檗叶绿体基因组呈现典型的环状四分体结构,全长167 036 bp,其中,LSC为73 434 bp,SSC为18 802 bp,IRs为37 400 bp。共编码144个功能基因(99个蛋白质编码基因、37个tRNA基因以及8个rRNA基因)。GC含量38.16%,这与威宁小檗[14]、科尔切斯淫羊藿(EpimediumpinnatumFisch)[23]以及阔叶十大功劳(Mahoniabealei)[24]的基因数据基本相同,IRs区的GC含量最高(40.85%),SSC区的GC含量最低(32.57%),GC含量越高,DNA密度越大,DNA序列越稳定[25]。
叶绿体基因组IR/SC边界位置的变化在不同物种间是普遍存在的现象,即使是同一科的物种也会有差异。本研究对小檗属8种植物的叶绿体基因组进行了IR边界分析,结果表明,朝鲜小檗JSB和JSA边界附近均缺失1个ycf1基因。ycf1是质体基因组中的第二大基因,对植物生存至关重要。ycf1跨越SSC和IR区域,在大多数植物中,SSC区域中的ycf1具有序列变异性[26]。ycf1存在于苔藓(Marchantiapolymorpha)[27]、烟草(Nicotianatabacum)[22]和牡丹(Marchantiapolymorpha)[26]等高等植物的叶绿体基因组中,但在水稻(Oryzasativa)、玉米(Zeamays)[28]以及兰花(Orchidaceae)[29]等单子叶植物的叶绿体基因组中缺失。因此,叶绿体基因组中的ycf1并不是被子植物的必需基因。推测叶绿体基因组中丢失的基因已经转移到了核基因组中,但目前尚未鉴定出核基因组中的ycf1同源物[30]。这些研究结果为小檗属植物进化关系研究提供了新的依据。
重复序列是重要的遗传标记,由于其母系遗传、稳定性高以及具有高等位基因多态性等特点,常被用于研究物种遗传多样性和进化关系[31]。本研究在直穗小檗叶绿体基因组中检测到109个SSR位点,其中大部分是由A/T碱基组成的单核苷酸重复序列,与桃儿七(Sinopodophyllumhexandrum)[32]和淫羊藿属(Epimedium)[33]等其他小檗科植物重复序列特征相似。此外,所有的SSR位点中,A/T、AT/TA、ATA/TAT/TTA等A/T重复类SSR占总数的90%,与大多数已报道的物种一致。研究表明,基因组中较低的GC含量有利于维持物种的热力学稳定性,GC含量通常与DNA的稳定性呈正比,GC含量越低,越容易产生更多的突变位点[34]。因此,这些重复序列为直穗小檗遗传多样性研究提供了可选用的分子标记。
直穗小檗叶绿体基因组含有31个高频密码子(RSCU>1),其中94%以A/T碱基结尾。这表明直穗小檗叶绿体基因组偏好使用以A或T碱基结尾的密码子。密码子使用偏好性在原核生物和真核生物中普遍存在,相关研究表明,密码子使用偏好性与多种生物学因素有关,包括基因组大小、基因表达水平、基因翻译起始信号、tRNA丰度等[35]。因此,密码子使用偏好性作为植物基因组的基本特征,为基因组生物学研究提供了重要信息。
本研究基于NCBI已公布的小檗科主要属的物种叶绿体基因组,以木通科的三叶木通、长萼木通、串果藤和猫儿屎为外群,构建了ML系统发育树,并分析了直穗小檗的进化地位和亲缘关系。结果表明,直穗小檗与朝鲜小檗、黄芦木以及威宁小檗的亲缘关系最近,同时与十大功劳属的阿里山十大功劳和阔叶十大功劳聚为一支,这与李述成等[13]的研究结果基本一致。在分类学上,小檗属和十大功劳属被认为是姐妹类群,这与小檗科植物的形态学研究结果基本一致。研究还发现,小檗属和十大功劳属的花粉形态具有较高的一致性,二者种子形态十分相似,均为长卵球形或多卵球形,长宽比接近,种皮纹饰均为网纹型[36]。因此,叶绿体全基因组序列分析在一定程度上支持了小檗科植物的系统发育关系。
综上所述,本研究成功获取了直穗小檗的完整叶绿体基因组序列,并对其进行了详细分析,包括基因组结构、重复序列、IR边界以及密码子偏好性等特征的解析。此外,通过构建系统发育树,揭示了直穗小檗与其他相关物种的亲缘关系。这些研究结果为深入研究直穗小檗的遗传资源、物种鉴定以及系统进化等提供了重要的理论依据。