王 馨,尹光耀,张志飞,陈 颖,刘珊瑚,满金辉,石 玥,黄钰莹,张晓芹,王晓晖,魏胜利
• 药材与资源 •
北柴胡特异DNA条形码筛选及种质资源鉴定
王 馨1,尹光耀1,张志飞1,陈 颖1,刘珊瑚1,满金辉1,石 玥1,黄钰莹1,张晓芹1,王晓晖2*,魏胜利1*
1. 北京中医药大学中药学院,北京 102488 2. 北京中医药大学中药研究院,北京 100029
基于北柴胡叶绿体基因组筛选特异性DNA条形码,并利用特异DNA条形码鉴定不同产地北柴胡种质资源。利用Illumina HiSeq X Ten平台对北柴胡进行叶绿体基因组测序,利用mVISTA软件和核酸多样性分析筛选特异性片段,基于特异性片段进一步分析不同产区北柴胡样品单倍型。不同产地3份北柴胡叶绿体基因组全长为155 557~155 959 bp,均呈现典型的环状四分体结构,均编码131个基因。、、、可以作为潜在的北柴胡种质资源鉴定的特异性DNA条形码。基于扩增效率,选择和对来自4省7个产地177份北柴胡样品进行序列分析,结果表明和分别有91和78个变异位点,分别鉴定到28、29个单倍型;两段序列联合分析形成40个单倍型(Hap1~Hap40),各单倍型的遗传距离为0~0.022。6个产地拥有特有单倍型,可以将不同产地的北柴胡种质资源进行区分。利用比较叶绿体基因组学筛选的特异DNA条形码和可以用于北柴胡种内种质资源鉴定,为后续鉴定北柴胡的产地来源、种质资源保护利用和育种等工作奠定基础。
北柴胡;叶绿体基因组;序列对比;种质资源;DNA条形码
柴胡具有疏散退热、疏肝解郁、升举阳气之功效,是最常用的大宗药材之一。《中国药典》2020年版[1]规定柴胡为伞形科柴胡属药用植物北柴胡DC.或狭叶柴胡(红柴胡)Willd.的干燥根。北柴胡是中药柴胡的主要来源,现代药理学作用研究表明其具有多种药理活性,如解热、镇静催眠、抗炎保肝、抗病毒、抗肿瘤和正向调节免疫等功能[2-8]。因此对北柴胡进行种质资源鉴别,对于北柴胡的质量控制、安全合理利用及开展相关的研究具有重要意义。
叶绿体是一种拥有自身遗传物质的多功能细胞器,叶绿体基因组与核基因组和线粒体基因组相比,依赖母系遗传,相对分子质量较小,基因组成和结构相对保守,叶绿体基因组包含的大量遗传信息被广泛应用于植物分子进化及系统发育的研究[9-10]。随着高通量测序技术和生物信息学的快速发展,多种植物的叶绿体基因组已经解析。目前柴胡属的北柴胡、紫花阔叶柴胡H. Wolff、竹叶柴胡Wall. ex DC.、红柴胡、长茎柴胡Wall. ex DC.等[11-15]物种的叶绿体基因组已有研究报道,但是种内叶绿体比较基因组学相关研究鲜有报道。
DNA条形码是有关物种鉴定的新技术,通过用标准化的、较短的DNA序列作为条形码,实现对物种进行快速、准确的鉴定[16],是传统性状鉴定和理化鉴定方法的有效补充。如能够鉴别大黄不同基原及混伪品[17];而、、、等条形码为柴胡属植物的分类鉴定与系统学研究提供了重要依据[18]。随着叶绿体基因组测序技术和叶绿体比较基因组学的发展,通过比较叶绿体基因组序列差异获得不同物种或不同基原的特异DNA条形码也变得切实可行,如利用叶绿体基因组及比较基因组学方法获得鉴定唐古特大黄、药用大黄和掌叶大黄的特异性条形码为、、、以及L[19]。基于叶绿体基因组测序和比较基因组学获得黄芩的突变位点最多的3个特异DNA条形码、、,利用3段叶绿体基因组DNA的联合分析对黄芩的野生居群展开研究,共发现29个变异位点,形成50个单倍型[20]。但是目前基于北柴胡叶绿体比较基因组学的特异DNA条形码研究还未见报道,因此本研究选取不同产地的3个北柴胡样品进行叶绿体测序,进行比较基因组学研究,筛选特异性DNA条形码,并利用筛选的特异DNA条形码对4省7产地177份北柴胡样品进行种质资源鉴定,为后续北柴胡种质筛选、质量控制及相关的研究奠定基础。
用于叶绿体全基因组测序的北柴胡样品分别采自辽宁省朝阳市、陕西省宝鸡市和河南省洛阳市(表1);用于种质资源鉴定的7个产地177份样品来源及单倍型分布如表2所示。所用样品经北京中医药大学魏胜利教授鉴定为北柴胡DC.。
GL-88B型涡旋器(海门市其林贝尔仪器制造有限公司);HH-S4A型电热恒温水浴锅(北京科伟永兴仪器有限公司);TGL-16型冷冻高速离心机(湘仪离心机仪器有限公司);NanoDrop one型超微量分光光度计(Thermo Fisher);JY300E型电泳仪(北京君意东方电泳设备有限公司);WD-9413B型凝胶成像仪(北京六一生物科技有限公司)。
表1 北柴胡叶绿体全基因组测序样品来源
Table 1 Source of chloroplast whole genome sequencing samples from B. chinense
名称采集地点经度(E)纬度(N)海拔/m 北柴胡1辽宁省朝阳市朝阳县台子镇孙丈子村120°16'46.44"41°40'91.13" 753 北柴胡2陕西省宝鸡市106°18'00.00"33°35'00.00" 813 北柴胡3河南省洛阳市嵩县车村镇龙池峰村112°43'44.68"34°63'04.10"1539
表2 7个产地177份北柴胡样品来源及单倍型分布
Table 2 Source and haplotype distribution of 177 samples of B. chinense from seven regions
编号样品来源单倍型类型(数量) HNLY1~HNLY28河南省洛阳市Hap1(11)、Hap2(11)、Hap3(3)、Hap4(1)、Hap5(1)、Hap6(1) HBQHD1~HBQHD23河北省秦皇岛市Hap7(9)、Hap8(9)、Hap9(2)、Hap10(2)、Hap11(1) SXLFHM1~SXLFHM53山西省临汾市侯马市Hap2(3)、Hap5(4)、Hap6(1)、Hap12(1)、Hap13(1)、Hap14(8)、Hap15(1)、Hap16(6)、Hap17(7)、Hap18(3)、Hap19(5)、Hap20(2)、Hap21(2)、Hap22(1)、Hap23(1)、Hap24(1)、Hap25(1)、Hap26(1)、Hap27(3)、Hap28(1) SXXZ1~SXXZ9山西省新绛县西庄村Hap17(2)、Hap24(1)、Hap29(1)、Hap30(1)、Hap31(2)、Hap32(1)、Hap33(1) SXGJ1~SXGJ4山西省新绛县古交村Hap17(1)、Hap27(1)、Hap30(1)、Hap34(1) SXBJ1~SXBJ18陕西省宝鸡市Hap1(1)、Hap2(1)、Hap5(1)、Hap12(2)、Hap19(1)、Hap30(2)、Hap31(1)、Hap32(2)、Hap34(1)、Hap35(3)、Hap36(1)、Hap37(1)、Hap38(1) SXSL1~SXSL42陕西省商洛市商州区代街村Hap1(22)、Hap2(16)、Hap5(1)、Hap14(1)、Hap39(1)、Hap40(1)
利用FastPure®Plant DNA Isolation Mini Kit(诺唯赞)提取植物总DNA,1.0%的琼脂糖凝胶电泳检测DNA质量,超微量分光光度计检测DNA浓度。检测合格的基因组总DNA构建插入片段长度约350 bp的文库,利用Illumina HiSeq X Ten平台进行序列读长为150 bp的双端测序,并对原始序列进行4步处理,分别是去除质量值连续≤20的碱基数达到40%的reads、去除含N的碱基数目总和达到10%的reads、去除adapter污染和去除duplication污染,得到高质量待分析序列(clean reads)。
使用NOVOPlasty将待分析序列组装成完整的叶绿体基因组,采用PGA软件进行组装结果进行注释(默认参数)。采用BWA将待分析序列比对北柴胡参考基因组(NC_046774)的叶绿体基因组序列,利用在线软件tRNAscan-SE(http://lowelab. ucsc.edu/tRNAscan-SE/)确定所有tRNA基因的边界,并通过CLC Sequence Viewer 8人工检查确保组装无误。利用Organellar Genome DRAW(https:// chlorobox.mpimp-golm.mpg.de/OGDraw. html)在线绘制叶绿体全基因组图谱。
利用REPuter(https://bibiserv.cebitec.uni-bielefeld. de/reputer)检测叶绿体全基因组序列中的分散重复序列,参数设置为最小重复序列长度为30 bp,重复序列间的相似度>90%。串联重复序列利用Tandem repeats finder软件(https://tandem.bu.edu/ trf/trf.html)进行检测,参数选择默认值。利用MISA软件(http://pgrc.ipk- gatersleben.de/misa/)检测简单重复序列位点类型与数目,对于单、二、三、四、五和六核苷酸重复序列,重复次数的最小值分别设置为10、5、4、3、3和3,2个SSR之间最小距离设置为100 bp。
利用mVISTA在线软件对测序获得3份叶绿体基因组进行全局比对分析,利用Dna SP 6软件检测3条叶绿体基因组的核苷酸多样性(nucleotide polymorphism,P)。
为利用高变区基因对不同产区的种质资源进行分析,以高变区基因为模板设计引物,对收集到的7个产区177份样品进行PCR扩增分析。PCR混合体系共50 μL,包括ddH2O 37 μL,10×Buffer 5 μL,dNTP 4 μL,引物-F 1 μL,引物-R 1 μL,DNA模板0.5 μL,0.1%BSA 1 μL,TaKaRa Taq 0.5 μL。扩增程序为93 ℃、3 min,50 ℃、2 min,30个循环(93 ℃、30 s,44.4或36.8 ℃、45 s,70 ℃、45 s),70 ℃、5 min,4 ℃保存,同时根据不同的引物设定不同的退火温度(表3)。通过1.0%的琼脂糖凝胶电泳和FastPure®Gel DNA Extraction Mini Kit(诺唯赞)对PCR产物进行纯化,纯化后的产物送北京六合华大公司进行双向测序。
利用DNAMAN和Chromas软件对测序结果进行核对和单倍型汇总。将汇总后的单倍型序列通过mafft软件进行比对。比对后的序列通过MEGA X软件计算单倍型间的遗传距离,构建邻接法系统进化树,设置bootstrap重复值为1000。
表3 北柴胡2个基因引物信息
Table 3 Primer information of two genes of B. chinense
基因名引物名称碱基序列退火温度/℃ petN_psbMpetN_psbM-F5’-AGGTACTACGAATTGATTGAGGAATC-3’44.4 petN_psbM-R5’-TTAATTTTAATTAATGTTTACTTCTG-3’ ndhF_rpl32ndhF_rpl32-F5’-AAAAAAAGTTTTTTTTCTTAATTAAT-3’36.8 ndhF_rpl32-R5’-TTTAAAATGAAGAGGTTACTCGTTG-3’
将北柴胡1、北柴胡2和北柴胡3的测序结果过滤去除低质量序列和接头序列等杂质,分别得到30 038 384条(4.50 Gb)、29 684 332条(4.45 Gb)和27 841 256条(4.18 Gb)clean reads。将3份北柴胡叶绿体全基因组组装拼接后均得到完整的环状四分体结构,序列总长度分别为155 557、155 959和155 959 bp。环状四分体结构由1个大单拷贝区(large single copy area,LSC)、1个小单拷贝区(small single copy region,SSC)和2个反向重复区(inverted repeat regions,IRA和IRB)组成,其中LSC长度分别为85 431、85 831、85 831 bp,SSC长度均为17 546 bp,IRs长度分别为26 290、26 291和26 291 bp(图1)。北柴胡2和北柴胡3的叶绿体全基因组序列及LSC、SSC和IRs的GC含量均相同,分别为37.68%、35.80%、31.48%和42.81%。北柴胡1的叶绿体全基因组序列及LSC、SSC和IRs的GC含量依次为37.69%、35.83%、31.43%和42.81%(表4)。
外圈基因逆时针转录,内圈基因顺时针转录;彩色条表示不同的功能组;内圈较深的灰色区域表示GC含量,而较浅的灰色对应于基因组的AT含量。LSC-大单拷贝区 SSC-小单拷贝区域 IRA和IRB-反向重复区
表4 3份北柴胡的叶绿体基因组特征概述
Table 4 Summary of chloroplast genome characteristics of three B. chinense
样本全基因组LSCSSCIRsCDS 长度/bp(G+C)/%长度/bp(G+C)/%长度/bp(G+C)/%长度/bp(G+C)/%长度/bp(G+C)/% 北柴胡1155 55737.6985 43135.8317 54631.4352 58042.8177 79338.20 北柴胡2155 95937.6885 83135.8017 54631.4852 58242.8177 79338.21 北柴胡3155 95937.6885 83135.8017 54631.4852 58242.8177 79338.21
3个不同产地的北柴胡叶绿体全基因组序列都注释了131个基因(表5),包括86个蛋白质编码基因、37个tRNA基因和8个rRNA基因。其中,SSC区含有11个蛋白质编码基因(、、、、、、、、、和)和1个tRNA();有17个基因分别在2个IR区出现1次,包含6个蛋白质编码基因(、、、、和),7个tRNA(、、、、、和)和4个rRNA(、、和);LSC区含有61个蛋白质编码基因和22个tRNA。此外,蛋白质编码基因和分别横跨LSC/IRb边界和SSC/IRA边界。含1个内含子的基因有16个(、、、、、、、、、、、、、、和),含2个内含子的基因有2个(和)。
表5 3份北柴胡叶绿体基因组的基因组成
Table 5 Gene composition of chloroplast genomes of three B. chinense
类别基因群基因名称 光合系统基因光系统IpsaA、psaB、psaC、psaI、psaJ 光系统IIpsbA、psbB、psbC、psbD、psbE、psbF、psbH、psbI、psbJ、psbK、psbL、psbM、psbN、psbT、psbZ NADH脱氢酶ndhA*、ndhB*(2)、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK 细胞色素b/f复合体petA、petB*、petD*、petG、petL、petN ATP合成酶atpA、atpB、atpE、atpF*、atpH、atpI 二磷酸核酮糖羧化酶大亚基rbcL 遗传系统基因核糖体蛋白大亚基rpl14、rpl16*、rpl2*(2)、rpl20、rpl22、rpl23(2)、rpl32、rpl33、rpl36 核糖体蛋白小亚基rps11、rps12、rps12*(2)、rps14、rps15、rps16*、rps18、rps19、rps2、rps3、rps4、rps7(2)、rps8 RNA聚合酶rpoA、rpoB、rpoC1*、rpoC2 核糖体RNArrn16(2)、rrn23(2)、rrn4.5(2)、rrn5(2) 转运RNAtrnA-UGC*(2)、trnC-GCA、trnD-GUC、trnE-UUC、trnF-GAA、trnG-GCC、trnG-UCC*、trnH-GUG、trnI-CAU(2)、trnI-GAU*(2)、trnK-UUU*、trnL-CAA(2)、trnL-UAA*、trnL-UAG、trnM-CAU、trnN-GUU(2)、trnP-UGG、trnQ-UUG、trnR-ACG(2)、trnR-UCU、trnS-GCU、trnS-GGA、trnS-UGA、trnT-GGU、trnT-UGU、trnV-GAC(2)、trnV-UAC*、trnW-CCA、trnY-GUA、trnfM-CAU 其他基因成熟酶matK 蛋白酶clpP** 胞膜蛋白cemA 乙酰辅酶A羧化酶accD 细胞色素C合成酶ccsA 翻译起始因子infA 未知功能基因假定叶绿体开放性阅读框ycf1、ycf2(2)、ycf3**、ycf4
*-含有1个内含子的基因**-含有2个内含子的基因 (2)-有2个拷贝的基因
*-genes with one intron**-genes with two introns (2)-genes with two copies
不同产地的北柴胡样品叶绿体全基因组序列中北柴胡1发现66条分散重复序列,北柴胡2和北柴胡3均发现75条分散重复序列。其中北柴胡2和北柴胡3包括29条正向重复(forward repeats)、12条反向重复(reverse repeats)、29条回文重复(palindromic repeats)和5条互补重复(complement repeats);北柴胡1包括30条正向重复、4条反向重复、28条回文重复和4条互补重复序列(图2)。同时检测到3份北柴胡样品中长度为9~49 bp、重复次数为2~4次的串联重复序列分别为37、38和38条。对不同产地北柴胡样品的叶绿体全基因组简单重复序列(SSR)的数量、类型及其在叶绿体基因组中的分布情况分析显示,SSRs主要分布于叶绿体基因组的LSC区(71.83%~72.31%)和非编码的基因间区序列中。编码基因序列总长度占叶绿体全基因组的49.88%~50.00%,而编码基因序列中分布的SSRs数量仅占其总数的15.38%~15.49%(表6、7)。
图2 3份北柴胡叶绿体基因组中重复序列的数量
为检测3份北柴胡叶绿体基因组的种内变异情况,以注释过的北柴胡样本叶绿体基因组(NC_046774)为参考,利用mVISTA在线软件将获得的其余3个叶绿体基因组进行全局对比(图3)。结果显示,叶绿体基因组序列中蛋白编码区域变异低于非编码区变异,且IRs区变异明显小于其他LSC区和SSC区。此外,绝大多数基因的相似度在90%以上,rRNA基因(、、、)高度保守没有变异。基因区、、、和基因间区、、、、、等基因有不同程度的变异。同时,对3份北柴胡样品的P进行分析显示种内变异度较小,P值范围为0~0.017 78,LSC、SSC和IRs区的平均P值分别为0.001 32、0.001 63和0.000 24,与mVISTA分析结果一致(图4)。基因区(0.008 89)和基因间区(0.006 67)、0.017 78)、(0.006 67)的P值较高。综上可知,北柴胡种内基因的保守程度很高,基因间区变异程度高于基因区,结合mVISTA和P结果,显示基因区和基因间区、、可作为潜在的分子高变区域。
表6 SSRs在3份北柴胡叶绿体基因组中的分布
Table 6 Distribution of SSRs in chloroplast genomes of three B. chinense
样本SSRs总量SSRs数量(占比/%) LSCIRsSSCCDS 北柴胡16547(72.31)17(26.15)1(1.54)10(15.38) 北柴胡27151(71.83)16(22.54)4(5.63)11(15.49) 北柴胡37151(71.83)16(22.54)4(5.63)11(15.49)
表7 3份北柴胡叶绿体基因组中SSRs种类及其数量
Table 7 Types and numbers of SSRs in chloroplast genomes of three B. chinense
样本SSRs总量核苷酸类型占比(数量) 单核苷酸/%二核苷酸/%三核苷酸/%四核苷酸/%五核苷酸/%六核苷酸/% 北柴胡16540(61.54)12(18.46)6(9.23)4(6.15)2(3.08)1(1.54) 北柴胡27149(69.01)10(14.08)7(9.86)5(7.04)// 北柴胡37149(69.01)10(14.08)7(9.86)5(7.04)//
根据(643 bp)、(656 bp)、(1102 bp)、(1220 bp)序列设计引物,进行PCR扩增,发现(643 bp)、(656 bp)扩增效率不高,、的扩增效率为100%,因此本研究选择、为北柴胡种内鉴定的特异DNA条形码,进行后续研究。以7个产地177份北柴胡样品总DNA为模板对筛选的2个叶绿体基因组高变区进行PCR扩增,并对测序结果进行分析。利用设计的引物进行PCR扩增,全部样品扩增到1000~2000 bp(图5),对PCR产物纯化后测序,与北柴胡1的序列对比可判断其为序列;利用设计的引物进行PCR扩增,全部样品扩增到1000~2000 bp(图6),对PCR产物纯化后测序,与北柴胡1的序列对比可判断其为序列。
图4 3份北柴胡叶绿体基因组核苷酸多样性
基因共检测到91个变异位点,共形成28个单倍型(图7)。其中位于249、396、576、612、837和926 bp的6个位点突变类型为插入;位于932~976 bp的45个位点突变类型为缺失,同时942~944 bp和950 bp伴有单点突变;其他40个位点为单点突变,分别位于219、228、303、327、331、362、401、403、428、445、485、536、578、581、607、620、621、626、628~631 bp、633、636、639、641~644、646、652、682、708、716、749、869、873、883、928、1013 bp。
M-Marker 1-HNLY10 (Hap3) 2-HBQHD1 (Hap7) 3-SXLFHM19 (Hap20) 4-SXXZ2 (Hap29) 5-SXGJ1 (Hap34) 6-SXBJ1 (Hap35) 7-SXSL7 (Hap39) 8-阴性对照,图6同
图6 北柴胡样品ndhF_rpl32序列PCR扩增
基因共检测到78个变异位点,共形成29个单倍型(图8)。其中位于255、256、280、331、749、794、803、807、950、1001bp的10个位点突变类型为插入,此外,749 bp位点也存在缺失突变和单点突变;位于258、750、775~780、819~827、853~856 bp的21个位点突变类型为缺失,同时853 bp伴有单点突变;其他47个位点为单点突变,分别位于132、134、167、178、179、184、207、223、224、262、279、286、317、318、343、353、356、423、449、462、472、478、482、518、570、574、577、594、647、656、713、741、742、790、796、809、839、874、876、877、886、960、1 011、1014、1015、1022和1044 bp。
对2基因联合分析共形成了40个单倍型(表2),占比最多分布最广的单倍型为Hap1,占全部样品的19.21%,其次是Hap2,占比为17.51%(图9),而特异的单倍型可作为该产地特有的种质资源加以扩繁,也可以作为鉴定北柴胡产地来源的DNA分子标签。河南省洛阳市的DNA分子标签为Hap3和Hap4,河北秦皇岛市的DNA分子标签为Hap7、Hap8、Hap9、Hap10和Hap11,山西省临汾市侯马市的DNA分子标签为Hap13、Hap15、Hap16、Hap18、Hap20、Hap21、Hap22、Hap23、Hap25、Hap26和Hap28,山西省新绛县西庄村的DNA分子标签为Hap29和Hap33,陕西省宝鸡市的DNA分子标签为Hap35、Hap36、Hap37和Hap38,陕西省商洛市商州区代街村的DNA分子标签为Hap39和Hap40。
*-核酸与Hap1相同 “-”-核酸缺失,图8同
*-nucleic acid is the same as Hap1 “-”-nucleic acid deletion, same as fig.8
图7基因的单倍型变异位点
Fig. 7 Haplotypes variation outliers ofgene
使用Mega X对2个基因联合分析的单倍型进行遗传距离分析,结果显示40个单倍型的遗传距离为0~0.022,平均遗传距离为0.010,表明北柴胡样品间亲缘关系差别不大。最大遗传距离0.022存在于Hap3和Hap20之间,亲缘关系最远;最小遗传距离为0.000存在于多个单倍型之间,分别在Hap6、Hap16、Hap17和Hap33之间,Hap14、Hap23和Hap24之间,Hap26和Hap27之间,Hap35和Hap38之间,亲缘关系最近。占比较多的Hap1和Hap2之间遗传距离为0.017,亲缘关系较远。结合表2中每个产地样品的单倍型发现,Hap35和Hap38为陕西省宝鸡市的特异单倍型,Hap16为山西省临汾市侯马市特异单倍型,Hap33为山西省新绛县西庄村特异单倍型。此外,陕西省宝鸡市的另2个特异单倍型Hap36和Hap37之间遗传距离为0.001,亲缘关系较近。山西省临汾市侯马市的另一特异单倍型Hap15和山西省新绛县西庄村的另一特异单倍型Hap29之间遗传距离为0.003,亲缘关系较近。河北省秦皇岛市的2个特异单倍型Hap7和Hap11之间遗传距离为0.001,亲缘关系较近。陕西省商洛市商州区代街村的特异单倍型Hap40和河南省洛阳市的特异单倍型Hap4之间遗传距离为0.002,亲缘关系较近。
对表2中每个产地的特异单倍型之间遗传距离分析发现,河南省洛阳市的特异单倍型Hap3与河北省秦皇岛市的特异单倍型Hap7之间遗传距离为0.021;Hap3与山西省临汾市侯马市特异单倍型Hap20之间遗传距离为0.022,亲缘关系最远。河南省洛阳市的另一特异单倍型Hap4与山西省新绛县西庄村的特异单倍型Hap29之间遗传距离为0.018;Hap7与Hap29之间的遗传距离为0.019;Hap20与Hap29之间的遗传距离为0.020,亲缘关系较远。Hap4与陕西省宝鸡市的特异单倍型Hap35之间遗传距离为0.019;Hap7与Hap35之间的遗传距离为0.020;Hap20与Hap35之间的遗传距离为0.021,亲缘关系较远。Hap4与陕西省商洛市商州区代街村的特异单倍型Hap39之间遗传距离为0.019;Hap7与Hap39之间遗传距离为0.020;Hap20与Hap39之间遗传距离为0.021;Hap29与陕西省商洛市商州区代街村的另一特异单倍型Hap40之间遗传距离为0.017;Hap35与Hap40之间遗传距离为0.017,亲缘关系较远。这些结果表明每个产地的特异单倍型之间的遗传距离较远。
图9 2个基因联合分析的单倍型占比图
将2个基因联合分析后的单倍型序列对比后构建NJ Tree,从而进一步分析各单倍型的亲缘关系。如图10所示,Hap1、Hap3、Hap14、Hap18、Hap19、Hap23、Hap24、Hap28、Hap35和Hap38聚在同一支上,其他单倍型聚为一支,同一支的单倍型之间亲缘关系较近。占比较多的Hap1和Hap2分别属于2个不同的单系分支,亲缘关系较远。
结合表2分析各产地的特异单倍型发现,部分单倍型之间亲缘关系较近,与遗传距离分析结果一致。陕西省宝鸡市的特异单倍型Hap35和Hap38聚为同一支,支持率为62%;陕西省宝鸡市的另2个特异单倍型Hap36和Hap37聚为同一支,支持率为98%;河北省秦皇岛市的2个特异单倍型Hap7和Hap11聚为同一支,支持率为96%;陕西省商洛市商州区代街村的特异单倍型Hap40和河南省洛阳市的特异单倍型Hap4聚为同一支,支持率为92%;山西省临汾市侯马市的特异单倍型Hap16与山西省新绛县西庄村的特异单倍型Hap33聚为同一支,支持率为23%;山西省临汾市侯马市的另一特异单倍型Hap15和山西省新绛县西庄村的另一特异单倍型Hap29聚为同一支,支持率为62%。
结合表2中每个产地的特异单倍型发现,与遗传距离分析结果一致,遗传距离较大的特异单倍型均不聚在同一支,亲缘关系较远。
图10 2个基因联合分析的单倍型NJ Tree
据报道北柴胡叶绿体基因组为典型的环状四分体结构,总长度为155 458~155 869 bp,GC含量为37.68%~37.70%,IR长度为52 596~52 620 bp,LSC长度为85 343~85 772 bp,SSC长度为17 495~17 505 bp;共包含129~133个基因,其中蛋白质编码基因为19~84个,tRNA基因为30~37个,rRNA基因为4-8个[11, 21-22]。北柴胡及其同属植物的分散重复序列为33~49条,串联重复序列为22~30条,简单重复序列为57~72条[21-22]。本研究所测的3个北柴胡叶绿体全基因组大小和结构与上述北柴胡研究结果基本相符。
目前已经有多篇文献报道[19, 23-25]利用叶绿体测序和比较基因组进行筛选高变区作为特异DNA条形码用于物种的鉴定,但是用筛选的特异DNA条形码验证的比较少。如通过比较叶绿体基因组学研究有学者推荐、、、、等叶绿体基因组高变区作为鉴定石豆兰属药用植物的特异DNA条形码[23];、、、、是通过叶绿体基因组学分析筛选的龙胆属植物鉴定的高变片段[24]。目前也有少量研究对叶绿体基因组高变区用于鉴定物种进行了验证,如基于叶绿体基因组筛选的秦艽的特异性DNA片段和2个高变区,能够用于长梗秦艽、全萼秦艽的鉴别[25];高变区、、、与能作为特异DNA条形码鉴定大黄药材3个基原[19]。但是也有相关报道证明利用叶绿体基因组测序获得特异DNA条形码后扩增效果不理想,如豆蔻属的特异性DNA片段扩增效果不理想,不适合豆蔻属的鉴定[26]。综合文献研究表明[25-26],在筛选高变区域后,需要经过实际扩增效率验证。近期已有学者通过比较基因组学分析柴胡属植物叶绿体基因组高变区为、、、、、为柴胡属种间高变区,但是没有相应的实验验证[22]。本研究基于mVISTA和Pi结果分析北柴胡叶绿体基因组的高变区,结果表明、、、是北柴胡种内的潜在DNA条形码,结合以前的文献[22]报道结果表明、既可以作为北柴胡种内特异性DNA片段也可以作为种间鉴定的DNA条形码。基于扩增效率,选择、用于后续北柴胡种质资源的鉴定。
DNA条形码技术在药用植物物种鉴定及种内资源鉴定方面起到重要的作用,具有简便、高效、客观等特点。目前DNA条形码技术也在柴胡属药用植物鉴定方面取得显著进展,如赵晴等[27]利用ITS序列鉴定了北柴胡、红柴胡、三岛柴胡的种子;曾伟萍[28]考察了DNA条形码候选序列、、、在柴胡属药用植物的鉴定能力,发现序列和序列可作为柴胡属药用植物鉴定的候选序列。但是目前关于北柴胡种内资源鉴别的研究比较少。本研究基于叶绿体高变区筛选的2条DNA条形码和对北柴胡的遗传多样性进行分析,发现了大量的变异位点和较全面的遗传信息。其中6个产地的特异单倍型作为该产地特有的种质资源,为后续鉴别不同产地北柴胡样品奠定基础;各单倍型之间遗传距离较小,北柴胡种内亲缘关系较近,但主流单倍型Hap1和Hap2之间亲缘关系相对较远,部分产地特异单倍型之间亲缘关系较远。因此本研究基于比较叶绿体基因组学筛选的北柴胡鉴定的特异性片段和可以有效鉴定北柴胡种质资源,为北柴胡种质资源保护和后续育种工作奠定基础。
利益冲突 所有作者均声明不存在利益冲突
[1] 中国药典[S]. 一部. 2020: 293.
[2] 孙世君. 柴胡的药理学分析以及临床应用 [J]. 中国医药指南, 2010, 8(29): 210-211.
[3] 金顺姬. 柴胡的药理作用及临床应用 [J]. 现代医药卫生, 2009, 25(7): 1074-1075.
[4] 王占一, 南极星. 北柴胡对对乙酰氨基酚所致小鼠急性肝损伤的保护作用 [J]. 中国药师, 2008, 11(7): 747-749.
[5] 胡继鹰, 许湘, 潘克英, 等. 保康北柴胡解热抗炎作用的药效学研究 [J]. 中医药学刊, 2005, 23(4): 631-632.
[6] 刘晓斌, 高燕, 刘永仙, 等. 北柴胡提取组分对小鼠淋巴细胞活性的影响 [J]. 细胞与分子免疫学杂志, 2002, 18(6): 600-601.
[7] 冯煦, 王鸣, 赵友谊, 等. 北柴胡茎叶总黄酮抗流感病毒的作用 [J]. 植物资源与环境学报, 2002, 11(4): 15-18.
[8] 安玉明, 接传胤, 祝世伟. 柴胡的研究进展 [J]. 人参研究, 2001, 13(1): 11-13.
[9] 杨小英, 刘畅, 曾宪法, 等. 八角枫及其亚种叶绿体基因组序列结构及系统发育分析 [J/OL]. 药学学报, 2022: [2022-07-18]. https://kns.cnki.net/kcms/ detail/11. 2163.R.20220716.1931.002.html.
[10] 李卓蔚, 邱迁, 郎佳琪, 等. 尖刀唇石斛和翅梗石斛叶绿体全基因组分析 [J]. 中草药, 2022, 53(16): 5159-5169.
[11] Zhang F, Zhao Z Y, Yuan Q J,. The complete chloroplast genome sequence ofDC. (Apiaceae) [J]., 2019, 4(2): 3665-3666.
[12] Wu Y, Zhang T Z, Qiu D Y,. Complete plastid genome of, an endemic herb plant in Western China [J]., 2018, 10(4): 635-637.
[13] Deng X D, Liu H Z, Yang Y H,. The first complete chloroplast genome sequence of the medicinal plant(Apiaceae) [J]., 2020, 5(2): 1836-1838.
[14] Zhang F, Yang Z, Wang Z,. The complete chloroplast genome sequence ofWilld. (Apiaceae) [J]., 2020, 5(2): 1998-1999.
[15] Yang L C, Xiong F, Xiao Y M,. The complete chloroplast genome ofvar., an annual herb endemic to China [J]., 2020, 5(1): 899-901.
[16] Hebert P D N, Cywinska A, Ball S L,. Biological identifications through DNA barcodes [J]., 2003, 270(1512): 313-321.
[17] 张晓芹, 刘春生, 闫兴丽, 等. 多基原药材大黄叶绿体基因序列分析及鉴定研究 [J]. 药学学报, 2013, 48(11): 1722-1728.
[18] 袁伯川. 柴胡属药用植物的分子鉴定及柴胡药材的质量考察 [D]. 北京: 北京中医药大学, 2017.
[19] 李冉郡, 武立伟, 辛天怡, 等. 大黄药材基原物种叶绿体基因组分析与特异DNA条形码开发 [J]. 药学学报, 2022, 57(5): 1495-1505.
[20] 姜丹. 黄岑道地性的遗传和化学物质基础研究 [D]. 北京: 北京中医药大学, 2018.
[21] 张明英, 张雨曲, 李依民, 等. 北柴胡、紫花阔叶柴胡叶绿体全基因组解析及柴胡属药用植物叶绿体基因组比较与系统发育分析 [J]. 药学学报, 2021, 56(2): 618-629.
[22] Li J, Xie D F, Guo X L,. Comparative analysis of the complete plastid genome of fivespecies and new insights into DNA barcoding and phylogenetic relationship [J]., 2020, 9(4): 543.
[23] 杨嘉鹏, 朱紫乐, 范雅娟, 等. 三种石豆兰属药用植物的叶绿体基因组比较分析及其在物种鉴定中的意义 [J]. 药学学报, 2020, 55(11): 2736-2745.
[24] 胡海粟, 张德全. 几种滇产龙胆属药用植物的DNA超级条形码研究 [J]. 中国中药杂志, 2021, 46(20): 5260-5269.
[25] 董博然, 赵志礼, 倪梁红, 等. 基于叶绿体基因组的长梗秦艽、全萼秦艽物种DNA分子标记与鉴定 [J]. 药学学报, 2021, 56(9): 2584-2591.
[26] 崔英贤. 药食两用药材砂仁、枸杞、山楂和姜基原植物叶绿体基因组结构解析 [D]. 北京: 北京协和医学院, 2020.
[27] 赵晴, 谢红波, 央拉, 等. 基于DNA条形码技术的北柴胡种子分子鉴定 [J]. 中国实验方剂学杂志, 2020, 26(14): 182-189.
[28] 曾伟萍. 柴胡属药用植物的条形码研究[D]. 广州: 南方医科大学, 2016.
Screening of specific DNA barcoding and identification of germplasm resources of
WANG Xin1, YIN Guang-yao1, ZHANG Zhi-fei1, CHEN Ying1, LIU Shan-hu1, MAN Jin-hui1, SHI Yue1, HUANG Yu-ying1, ZHANG Xiao-qin1, WANG Xiao-hui2, WEI Sheng-li1
1. School of ChineseMateria Medica, Beijing University of Chinese Medicine, Beijing 102488, China 2. Institute of Chinese Medicine, Beijing University of Chinese Medicine, Beijing 100029, China
To screen the specific DNA barcodes based on Beichaihu () chloroplast genome, so as to identify the plasm resource offrom different producing areas.The Illumina HiSeq X Ten platform was used to sequence the chloroplast genome of three samples of. Specific DNA barcodes was analyzed with mVISTA soft and nucleotide polymorphism analysis. The haplotype offrom different producing areas was identified with specific DNA barcodes.The total length of chloroplast genomes of three samples from different habitats was 155 557—155 959 bp, all of which had typical circular tetrad structure and coded 131 genes.,,andcan be used as specific DNA barcodes for identification of potential germplasm resources of. Based on amplification efficiency,andwere selected to analyse the sequence of 177 samples offrom seven places in four provinces. The results showed thatandhad 91 and 78 mutation loci, and 28 and 29 haplotypes were identified; The two sequences were analyzed together to form 40 haplotypes (Hap1—Hap40), and the genetic distance of each haplotype was 0—0.022. Six producing areas had unique haplotypes, which can distinguish the germplasm resources offrom different producing areas.The specific DNA barcodesand, identified bychloroplast genome analysis,could be used to demonstrate the genotypes of, which provides values for the identification ofproducing area, the protection and utilization of germplasm resources and breeding work.
DC.; chloroplast genome; sequence comparison; germplasm resources; DNA barcoding
R286.12
A
0253 - 2670(2023)17 - 5703 - 13
10.7501/j.issn.0253-2670.2023.17.023
2023-02-03
北京市科学技术委员会基金项目(Z201100005420005);北柴胡精准药材批次分子防伪技术研究项目(2020071720419)
王 馨(1999—),硕士,主要从事中药资源与分子生药学研究。Tel: 18813062869 E-mail: nz18813062869@163.com
王晓晖,副研究员,主要从事中药活性成分生物合成调控研究。Tel: 18810722975 E-mail: wangxhui2014@163.com
魏胜利,教授,博士生导师,主要从事中药资源研究。Tel: 13683336930 E-mail: wsl7491@126.com
[责任编辑 时圣明]