肖厚红 刘倩文 郭帅 覃仕扬 徐帆 曹刚 徐江 胡灏禹 陈士林
麻黄为麻黄科植物草麻黄Ephedra sinicaStapf、中麻黄E.intermediaSchrenk ex C.A.Mey.或木贼麻黄E.equisetinaBge.的干燥草质茎[1],是中国传统中药材,有发汗解表、宣肺平喘、利水消肿的功效,其发汗作用强被历代医家称为“发汗第一要药”,始载于东汉时期《神农本草经》列为中品,具有悠久的药用历史[2]。除了药用价值外,麻黄还用到膳食、保健品中,具有减肥和增强能量的作用[3];麻黄雌株种子成熟时的红色肉质苞片具有开发食品潜力[4];麻黄属植物还具有防风固沙保护生态环境的价值[5],也能作为一种优良牧草。九十年代以来,由于栖息地的破坏加上人为不受控制掠夺式的开采,麻黄野生资源急剧萎缩,在有关部门出台的政策推动和鼓励下[6],麻黄种植技术逐渐成熟,市场流通麻黄来源已逐渐由野生采集转变为人工种植。如今,麻黄药材掺伪、基原混杂问题日益突显。一方面,麻黄类生物碱是发挥药理作用的主要活性成分[7]为全球医药界所公认,但是不同基原的麻黄生物碱含量有明显差异[8],生物碱含量最高的是木贼麻黄E.equisetina,其次是草麻黄E.sinica和中麻黄E.intermedia[9],其功效和质量也有显著差异。另一方面,还存在多种非正品麻黄作为药用的现象[10],无法形成标准统一的药材市场,这些无疑对麻黄种植加工、工业生产和用药安全造成了严重的影响和隐患。
麻黄在全球大约有50种[11],中国境内现有12种,4变种[12]。虽然麻黄属植物包含了几十种,但所能观察到的形态特征差异并不明显,如果在没有繁殖器官的情况下,传统鉴别方法很难鉴定到种[13]。此外,麻黄属有超83%的物种是多倍体或具有多倍体细胞型[14],而且麻黄多倍体几乎都是由异源多倍体形成,这更加丰富了麻黄群体内遗传的多样性和复杂性。目前,麻黄栽培品已经成为麻黄药材的主要来源[15],由于其基原植物的多倍体细胞型和种间性状的不完全分离,存在许多杂合子特征[13],这导致了麻黄在种植过程中后代会出现性状分离鉴别不清的问题,造成药材品种混乱,从而影响了药材的质量,想要筛选优质遗传稳定的麻黄资源,进行大规模栽培非常困难。毫无疑问,准确鉴定不同麻黄品种,筛选稳定的遗传种质资源对中药麻黄育种和种质资源保护具有极其重要的意义,传统鉴定技术在不断发展,其主要原理是化学分析,例如薄层色谱和高效液相色谱[16]、超高效液相色谱结合实时飞行质谱[17]、近红外光谱和高光谱成像技术[18],为中药鉴定作出了重要的贡献,但面对近缘物种的鉴定还存在分辨率低,难以鉴别的尴尬处境,分子生物学鉴定在此展现出独到的一面。
DNA条形码是一种用于物种识别的强大分子工具,它使用生物体内一个或多个保守的标准DNA序列作为分子标记来鉴定物种[19],在中药材鉴定方面取得显著的成效,但对于多基原的中药种质资源涉及较少。麻黄具有复杂的遗传多样性以及基原混杂的问题存在[20],准确鉴别麻黄基原种还存在一定的挑战性。随着生物科学前沿技术不断地发展和创新,中医药研究已经进入“本草基因组学”时代[21]。近年来,测序技术的进步促进了本草植物基因组数据的快速增长,高通量测序(high-throughput sequencing)又名下一代测序(next generation sequencing,NGS)成本的大幅降低,加上更长的测序读取和更深的测序深度[22],为鉴定多基原中药材提供了新的指导方针和方法。Liu等[23]提出高通量全长多重DNA条形码,主要包括PCR扩增,ITS扩增子测序和数据分析,成功鉴定区别了一种多基原植物药材。这得于rDNA基因内部拷贝序列具有可变性,这些重复的DNA序列会发生变化,得到新的碱基序列,尤其在短的内部转录间隔区较为明显,ITS数据已被广泛应用于植物系统发育分析中。高通量测序技术可以通过测定DNA条形码片段在个体内不同拷贝之间的多态性位点碱基比例,分析体现个体遗传特征,进而比较研究个体—群体—物种的遗传背景差异。本文基于高通量测序,结合Sanger测序,对麻黄3个基原种的ITS2和psbA-trnH序列进行分析,探索麻黄特征位点的变异情况,并判断麻黄样本的内部杂合度,以期为鉴别麻黄药材基原和种质混杂问题提供解决方法。
采集麻黄基原植物样本12份,包括:草麻黄4份,其中1份来自北京中国医学科学院药用植物研究所,3份来自内蒙古;木贼麻黄4份,其中1份来自北京中国医学科学院药用植物研究所,1份来自新疆乌鲁木齐市,2份来自内蒙古清水河县;中麻黄4份,其中1份来自北京中国医学科学院药用植物研究所,3份来自青海民和县(表1)。所有材料均由中国中医科学院中药研究所胡灏禹博士鉴定为麻黄科植物草麻黄E.sinica、中麻黄E.intermedia和木贼麻黄E.equisetina的草质茎,以中国植物志(FRPS)分类学系统为参考依据。
表1 十二份麻黄样本信息
将麻黄样品草质茎用液氮研磨成粉末,使用植物基因组DNA试剂盒(天根生物科技有限公司,北京,中国)提取总DNA,用Qubite3检测DNA浓度。PCR扩增采用25 μL体系,其中包括12.5 μL PCR MasterMix(Aidlab生物技术有限公司,北京,中国)、8.5μL ddH2O、正反引物各1 μL(2.5μM,中国生工公司合成),2 μL DNA模板。用于扩增每个条形码区域的PCR引物和条件如表2所示。PCR产物均通过琼脂糖凝胶电泳检测,呈现单一亮度较好的条带。这些质检合格的PCR产物交中国北京睿博生物科技有限公司进行Sanger测序。使用Codoncode Aligner V5.1.5(CodonCode Co,USA)软件用于校准和拼接测序结果,并去除低质量序列和引物区域。使用MEGA 6.0软件进行Clustal W对齐和构建NJ(1000x)系统发育树以确定其生物来源。
表2 条形码区域的PCR引物和条件
根据高通量DNA条形码方法(图1)所示进行扩增、测序和分析。所有DNA样本用作ITS2的PCR扩增模板。使用不同的标记引物对每个扩增子进行扩增,并在常规引物的5′端连接几个保护碱基和标记碱基。ITS2扩增子使用Illumina Novaseq进行测序,测序服务由中国北京博奥汇玖生物科技有限公司提供。
图1 高通量DNA条形码方法流程图
所有测序结果均经过质量控制,用Burrows-Wheeler比对器最小精确匹配法(BWA-MEM)(V0.7.17)对12份麻黄样品的ITS2的扩增子序列进行比对。比对过程结束后,对测序结果进行统计分析。通过对每个分子标记的碱基比例进行统计分析,来判断杂合度。
麻黄为裸子植物门盖子植物纲麻黄目麻黄科麻黄属多年生草本状小灌木植物,没有真正的花被,4至8对膜质或肉质苞片包裹着胚珠,形成雌球花的结构[24]。比较来看(图2),中麻黄的茎段相对较粗和长,叶3裂,颜色灰白,具有显著的差异,容易分辨。草麻黄和木贼麻黄叶片的裂数都是2裂,木贼麻黄叶片颜色棕色,草麻黄叶片颜色灰白,差异不明显。虽然存在一些差异,如茎的粗细长短,横切面形状,但三者在面对庞大数量级混合的情况下,特别是在大量重要分类学特征缺失的药材和饮片中,依据形态特征难以鉴别。
图2 三种基原麻黄草质茎
草麻黄表面细槽纹不明显,节间长2.5~5.5厘米,直径约为2毫米;叶2裂,裂片锐三角形,先端急尖,茎横切面形成层类圆形。中麻黄草质茎粗壮,纵槽纹较细浅,直径1~2毫米,节间长3~6厘米;叶3裂,裂片钝三角形或窄三角披针形,茎横切面形成层类三角形。木贼麻黄小枝细,纵槽纹细浅不明显,直径约1毫米,节间长1~3.5厘米;叶2裂,裂片短三角形,先端钝,茎横切面形成层类圆形。结果见表3。
表3 三种基原麻黄的形状特征
Sanger双端测序12个样本共获得24条序列,得到ITS2序列平均长度为495bp,通过ITS2数据库(The ITS2 Database uni-wuerzburg.de)除去低质量序列以及引物区,获得麻黄ITS2序列长度为251 bp。使用MEGA分析结果显示,有7处变异位点,分别在87,172和245位点为A-G变异,221位点为C-T变异,223和248位点为G-A变异,233位点为G-T变异;可以分为两种基因型I2-i(87A-172A-221T-223G-233G-245A-248G)和I2-ii(87G-172G-221C-223A-233T-245G-248A),其中前者为草麻黄和中麻黄的基因型,后者为木贼麻黄的基因型。另外,通过从Genebank下载登录号为MF096959的序列,经过比对剪切后得到psbA-trnH序列长度为403 bp,碱基序列比对后发现存在一处碱基片段的插入和缺失,长度为12 bp,在9~20 bp(CAGGAAATCCAA)这段碱基序列,草麻黄和中麻黄都缺失了这段碱基序列,木贼麻黄插入了这段碱基序列,但通过构建NJ系统发育树(图3b)发现三种麻黄都处于一个分支上,说明碱基片段的插入和缺失不能鉴别3种基原麻黄。对应ITS2序列的变异位点,笔者发现峰图文件中存在嵌套峰(图3c),其中新疆木贼麻黄存在不同的嵌套峰,中麻黄和草麻黄没有发现嵌套峰,通过高通量测序统计碱基比证实了221处位点的嵌套峰是存在的。此外,基于ITS2序列的NJ系统发育树分析显示(图3a),木贼麻黄不与其他两种麻黄聚在一支,自己形成一个单独的分支。结果表明,ITS2序列的变异位点可以鉴定区分木贼麻黄,但不能区分草麻黄和中麻黄;而psbA-trnH序列分析发现,存在一段碱基序列的插入和缺失,但不能作为变异位点进行鉴别。
测序结果使用flash2和seqkit软件进行序列的拼接和分析,所有序列质量都符合标准(表4)测序结果,证实了嵌套峰的实际存在。结果也显示,除了Sanger测序得到的基因型外,还有其它不同的基因型。如图4所示,木贼麻黄和其它两种麻黄的主导单倍型不同,并且种内单倍型具有显著的差异,
表4 十二个样本ITS2 序列结果统计
图4 十二个样本ITS2 中不同基因型的频率
这一结果反映出木贼麻黄存在内部杂合性。草麻黄和中麻黄主导单倍型相同,同时说明了两者在分子层面的相似性,这也从正面反映了ITS2序列区别不了二者的一个因素。 此外,在所有分子标记中BJES 样品的非主导基因型的百分比和频次都显示最低,表明在12 份麻黄样品中,其杂合性最低。 笔者发现并统计了12 个样本中出现的嵌套峰(图5a),为了验证Sanger 测序Chromas文件中ITS2 序列出现的嵌套峰是否准确,对ITS2的扩增子进行高通量测序。 使用ITSx 和BWA 软件,进行序列剪切和比对,获得12 个麻黄样本的ITS2 序列平均长度为249 bp。 碱基分布的统计分析结果表明,BJES 在 ITS2 序列136 位点有嵌套峰,碱基比为 C ∶T=76 ∶24;BJEE 在 19、20 和 22位点有嵌套峰,碱基比为 C ∶T=60 ∶40,C ∶T=60 ∶40,A ∶G=51 ∶49;XJEE 在 22、158、179 和221 位点有嵌套峰,碱基比为 A ∶G=46 ∶53,C ∶T=53 ∶47,A ∶G=47 ∶53,C ∶T=51 ∶49;QSHEE在 19、20 和 22 位点有嵌套峰,碱基比为 C ∶T=84 ∶16,C ∶T=84 ∶16,A ∶G=59 ∶41。 麻黄样品中存在SNP,根据碱基存在的比例分为主要碱基和次要碱基(图5b),在后者的结果中的SNP 次级碱基占较大比例时,前者峰图文件中会呈现嵌套峰,当SNP 次级碱基所占比例较小时,则观察到单峰。XJEE 在221 位点是其中一个变异位点,同时存在嵌套峰,以T 碱基为优势碱基,C 碱基为次要碱基,其它木贼麻黄均以C 碱基为优势碱基。 BJES在136 位点有嵌套峰,但其他草麻黄第136 处位点并没有出现嵌套峰,排除了特异性。 另外在BJEE、XJEE 和QSHEE 三个地方的木贼麻黄发现不是变异位点的22 位点都有嵌套峰,次级碱基占比均大于20%,具有明显的特异性,这表明可以作为木贼麻黄鉴别新的特征性位点。
图5 麻黄嵌套峰统计及碱基比例统计矩阵饼图
DNA 条形码最早由加拿大动物学家赫伯特提出,并在国内外学者的积极探索和补充下逐步完善[25-27]。 生命条形码联合会结合先前研究的数据分析结果建议将叶绿体基因rbcL、matK、psbA-trnH和核基因 ITS 作为陆地植物的标准 DNA 条形码[28]。 作为一种经济高效、标准化的快速物种鉴定方法,DNA 条形码已广泛应用于几乎所有类型的生物体,广泛促进了现代中药鉴定的发展[29-30]。 全球药典基因组数据库中中药品种条码识别的成功建立和广泛应用( http:/ /www.gpgenome.com:8080)[31-32],可以快速方便地进行物种鉴定,成功地补充了传统鉴定方法如基原鉴定、性状鉴定、显微鉴定、理化鉴定,为中药材的物种鉴定带来了新的机遇[33]。
麻黄是中国非常重要的中药材及麻黄素的提取原料,其需求量一直在不断的增加,越来越需要人工栽培以满足临床用药的需求[34]。 麻黄人工栽培经历了十几年的发展,其形态特征相较于野生种有可能发生了变化,传统鉴定难以准确把握。 因此,对于准确鉴定麻黄基原物种尤为重要,分子生物学技术在此方面发挥了独有的优势。 DNA 条形码技术的原理归根结底在于DNA 序列的差异,DNA测序也就是核酸DNA 分子一级结构的测定,是分子鉴定一项必不可少的过程[35]。 基于高通量测序,结合Sanger 测序对麻黄样品进行测序和分析,可以补充麻黄种质资源的DNA 条形码应用。 此外,该方法可以评价麻黄的内部杂合度,筛选可靠的种质资源。 Sanger 测序得到的序列结果显示,ITS2 序列作为植物类药材鉴定的核心序列,可以鉴定区别木贼麻黄,但还不能鉴别草麻黄和中麻黄,这与庞晓慧等[36]所得的结果大致相同,对此笔者通过高通量测序得到的数据统计出二者主导单倍型相同,可能是导致草麻黄和中麻黄不能区分的进一步原因,并对麻黄的psbA-trnH 序列进行测序,作为植物叶绿体特有的序列,出现了碱基序列的缺失和插入,草麻黄和中麻黄二者相对于木贼麻黄插入了一段碱基序列,是否能体现麻黄种内和种间系统发育关系,现在还不得而知。
笔者认为Sanger 测序会掩盖多态性位点,如果多态性位点比例相对较低,则后者不能区分较低峰图的变异,并将其视为噪声干扰。 只有当SNP 碱基变异的比例相对较高时,它才能不被忽略并以套峰的形式显示出来。 假设碱基的SNP 变异较低,在这种情况下,一代测序结果不能区分一个低峰值的变化,并且不能判断出它是否是由噪声干扰而导致。只有碱基的峰度较高,在电泳中形成较强的荧光信号,才会以嵌套峰的形式表现出来[37-38]。 基于高通量技术,结合Sanger 测序,保障了序列结果的相对准确性,进一步验证了嵌套峰的真实存在,而不是其它干扰因素所致,同时得到了套峰具体的碱基比例,并且发现在同一个不是变异位点的三个不同地方的木贼麻黄都出现了嵌套峰并证实存在。 另外,笔者对麻黄种质的杂合度进行了考察和评价,想要获得稳定代际遗传的麻黄种质资源,应确保群体的低杂合度,并确认群体中单个植株的低变异性。 从高通量数据分析的得到的结果来看,来自北京中国医学科学院药用植物研究所的麻黄显示出低杂合度和巨大的育种潜力,无论是在单倍型统计还是基础SNP 位点。 尽管如此,仍然需要进一步鉴定和研究更多的个体样本,以确定麻黄中分子标记的多态性。 在一定程度上,该方法也为多个样品的异质性鉴定和筛选具有相似杂合拷贝变异或种间杂交的中药种质资源提供了参考。
本文基于高通量测序结合Sanger 测序,发现并证实了木贼麻黄ITS2 序列中221 变异位点存在嵌套峰,推测木贼麻黄可能是其它麻黄物种在长期的环境变化中演化而来,另外发现木贼麻黄ITS2 序列第22 位点的嵌套峰具有特异性,可作为鉴别木贼麻黄新的特征性位点。 最后,对麻黄SNP 内的拷贝变异特征进行了挖掘,这对筛选具有相似杂合子拷贝变异的中药种质资源具有重要意义。 DNA 条形码结合高通量技术,不仅可以应用于中药材掺伪和混杂的鉴别,还可以应用于中药材种质资源筛选,进而从源头上保证了种植品种的准确性,对促进中药材种质资源标准化具有重要意义。