夏茂甜,赵文植,沈伟祥,董章宏,辛雅萱,李卫英,辛培尧
(西南林业大学 国家林业和草原局西南风景园林工程技术研究中心/西南地区生物多样性保育国家林业和草原局重点实验室,云南 昆明 650224)
叶绿体是植物细胞中重要的质体之一,主要功能是参与光合作用,在植物进化历史中起着重要作用。叶绿体DNA(cpDNA)通常是1 个大小在107到218 kb 之间变化的环状DNA 序列,主要由1 个大的单拷贝(LSC)区、1 个小的单拷贝(SSC)区和2 个反向重复(IR)区组成[1]。20 世纪80 年代,烟草的叶绿体基因组结构首次被发现,到现在越来越多的植物叶绿体基因组被深度挖掘。叶绿体基因组在结构、基因数量和组成上高度保守,而且分子进化缓慢、重组率低,在植物进化、物种鉴定、群体遗传多样性及基因定位等方面有着重要的应用[2-3]。
密码子作为连接核酸和蛋白质的纽带,是核酸信息输出的重要环节[4]。有些密码子比其他密码子更频繁地用于mRNA 转录到蛋白质的翻译过程中,这种同义密码子的不平等使用被称为“密码子使用偏好”[5]。密码子使用偏好广泛存在于各种基因组中,其偏好程度在物种和相同基因组不同基因之间会有所差异[6]。同义密码子使用偏好是基因组中一个重要的进化特征,反映了物种或基因的起源、进化和突变方式,同时也是促进植物进化的重要力量,为生物进化、基因功能、外源基因表达、转基因和引物的设计等研究提供了重要信息[7-8]。影响密码子使用偏好的因素有很多,其中最主要的因素是突变压力和自然选择,除此之外,还与基因表达水平、同义替换率、GC 含量、tRNA 丰度、翻译起始位点等因素有关[6,9]。
锈毛莓(Rubus reflexusKer.)为悬钩子属(Rubus)植物,其果实鲜嫩多汁,营养丰富;根茎可入药,有抗菌消炎、止血镇痛的作用,特别在治疗肝脏损伤方面颇有疗效;茎皮、根皮也是提炼栲胶的重要来源[10]。目前对锈毛莓的研究主要集中在化学成分[10]、提取工艺的优化及抗氧化活性[11]、药理机制[12]等方面,而关于叶绿体基因组方面的研究尚未有报道。本研究对锈毛莓叶绿体基因组结构特征、密码子使用偏好和系统发育关系进行了分析,并结合系统发育树,对锈毛莓及近缘物种进行叶绿体基因组序列全长比较分析及高变区的筛选,其研究结果可为悬钩子属物种鉴定以及锈毛莓及悬钩子属遗传学研究打下一定基础。
以锈毛莓新鲜幼叶为试验材料,参照徐玉芬[13]的方法,对DNA 进行提取和检测,将质量符合要求的样品送至北京安诺优达基因科技有限公司进行文库构建,并利用Illumina NovaSeq 平台测序,使用GetOrganelle 软件对测序数据进行拼接及组装。锈毛莓叶绿体基因组的注释工作通过 Geneious 8.1.3.软件来完成,并将注释结果提交至蔷薇科叶绿体基因组数据库 (https://lcgdb.wordpress.com/category/rosaceae/),登录号:LAU10052。
通过在线网站OGDRAW(http://ogdraw.mpimpgolm.pg.de)绘制锈毛莓叶绿体全基因组图谱。利用Geneious 8.1.3.软件对注释好的锈毛莓叶绿体基因组的基本特征进行分析,计算锈毛莓叶绿体基因组的全长、总GC 含量,以及LSC、SSC 和IR 区的序列长度和GC 含量,统计注释出的基因数量、名称和种类,同时对有拷贝和内含子的基因进行标注。
根据注释结果,手工筛选出53 条CDS 序列,通过Codon W1.4.2 软件和在线CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)计算各CDS 中有效密码子数(ENC),密码子第1/ 第2/第3 位GC 含量(GC1/GC2/GC3)和总的GC(GCall)含量,各参数之间的相关性分析通过SPSS 完成。
参照Sueoka[14]提供的方法,在GC12(GC1和GC2的平均值)和GC3之间绘制中性图。
ENC-plot 分析能反映各基因密码子使用偏好与碱基成分之间的关系。以GC3(密码子第3 位的G和C 含量占基因碱基总数的比例)为横坐标,ENC为纵坐标作图,并添加ENC 值的标准曲线[5]。
PR2-plot 分析是为了研究密码子第3 位置4 个碱基的组成,以判断第3 位碱基间的突变是否会对密码子使用偏好造成影响。分别以G3/(G3+C3)和A3/(A3+T3)为横纵坐标进行作图。
以2 个路边青属(Geum)物种(Geum rupestre和Geum macrophyllum)作为外类群,选择锈毛莓(R.reflexus)和从NCBI 数据库中下载已发表的悬钩子属45 条叶绿体基因组序列,首先用MAFFT 软件对其进行序列比对并手工校正矩阵,再用IQ-Tree软件进行计算,通过最大似然法(ML)进行系统发育分析。
基于系统发育结果,选取与锈毛莓亲缘关系相近的15 个悬钩子属物种,以锈毛莓叶绿体基因组注释信息为参考序列,通过mVISTA 在线网站(https://genome.lbl.gov/vista/mvista/submit.shtml),选 择Shuffle-LAGAN 模式,进行叶绿体基因组差异分析。
为进一步了解悬钩子属叶绿体基因组之间的变异情况,以用于建树46 条的叶绿体基因组序列为数据,构建多序列矩阵,通过DnaSP6 软件对矩阵进行核苷酸多态性(Nucleotide diversity, Pi)分析,并筛选出Pi 最高的片段作为变异区。
锈毛莓叶绿体基因组具有高度保守的环状双链结构(图1),大小为156 247 bp,包括85 856 bp 的LSC 区、18 849 bp 的SSC 区 和25 771 bp 的(IR)区。GC 总含量为30.72%(LSC,35.1%;SSC,31.2%;IR,42.8%),共注释出129 个基因,包括85 个蛋白质编码基因、36 个tRNA 基因,8 个rRNA 基因,其中16 个基因有两个拷贝,9 个基因有内含子,其中rps12和ycf3基因有2 个内含子,ndhA、ndhB、petB、rpl2、rpl16、rps16、rpoC1基因有1 个内含子(表1)。
表1 锈毛莓叶绿体全基因组基因信息Table 1 Information of the annotated genes in the chloroplast genome of R. reflexus
图1 锈毛莓叶绿体基因组图谱Fig.1 The gene map of R. reflexus
各蛋白质编码基因密码子第1、第2 和第3 位GC 含量分别为46.49%、39.47%、29.09%,其大小顺序为GC1>GC2>GC3,大部分基因的GC1含量高于GC2和GC3含量,基因GCall含量为38.58%,说明密码子中A、U(T)含量相对较高(表2)。
对影响密码子使用偏好相关参数之间进行相关性分析(表3),密码子GC1和GC2之间有极显著相关性(P<0.01),ENC 与密码子GC2与 GC3之间极显著相关(P<0.01),密码子数(N)与密码子与GC1、GC2、GC3之间无相关性,说明序列长度对密码子使用偏好无影响。
表3 影响锈毛莓叶绿体基因组密码子使用偏好指标之间的相关性分析Table 3 Correlation analysis between indicators affecting the preference of chloroplast codon use in the chloroplast genome of R. reflexus
2.3.1 中性绘图分析 锈毛莓叶绿体基因组中GC3含量介于0.214~0.367 之间,GC12含量介于0.322~0.536 之间,GC 含量分布范围狭窄,相关性系数r为0.223,相关性较弱,线性回归系数(趋势线斜率)代表了突变压力,为 0.323 9<0.5,说明突变压力在锈毛莓叶绿体基因组中所占百分比不足50%,密码子使用偏好受自然选择的影响更大(图2)。
图2 中性绘图分析Fig.2 Neutrality plot analysis
2.3.2 ENC-plot 分析 少数基因沿着标准曲线分布或分布在曲线上,多数基因分布在曲线下方,说明大部分基因密码子具有很强的使用偏性(图3)。仅有突变压力决定密码子使用偏好时,基因才会全部位于曲线上。表明锈毛莓叶绿体基因组密码子使用偏好受到突变压力和自然选择的双重控制,但自然选择对其影响更大。
图3 ENC-plot 绘图分析Fig.3 ENC-plot analysis
2.3.3 PR2-plot 分析 各基因散布在4 个象限,大部分落在下方(图4)。说明锈毛莓叶绿体基因组中A/T 和G/C 的密码子使用偏好是不平衡的,且频率大小为G>C,T>A,表明突变压力和自然选择对密码子使用偏好都有影响,只是自然选择所占比重更大。
图4 PR2-plot 分析Fig.4 Analysis of PR2-plot
悬钩子属系统发育树被分为4 大分支,每个分支具有较高的自展值(Bootstrap, BS),较好区分了悬钩子属的组间关系(图5)。
图5 基于46 条悬钩子属叶绿体基因组序列的系统发育关系Fig.5 Phylogenetic relationship based on the 46 sequences in the chloroplast genome of Rubus
其 中(R.hybride)单 独 为 一 支,也 是 最先分化的一支,其次分化的是以燪叶悬钩子(R.parviaraliifolius)为代表的空心莓组(自展值100),共10 个种,紧接分化的是以蛇泡筋(R.cochinchinensis)为代表的木莓组(自展值100),共16 种,最后分化一支是以空心泡(R.glandulosopunctaus)为代表的空心莓组(自展值100),共18 种。其中蛇泡筋(R.cochinchinensisTratt)、粗叶悬钩子(R.alceifolius)、棕红悬钩子(R.rufus)、厚叶悬钩子(R.crassifolius)、高粱泡(R.lambertianus)和光滑高粱泡(R.lambertianusvar.glaber)聚为一支,与锈毛莓(R.reflexus)具有共同的祖先,两者互为姐妹群。锈毛莓(R.reflexus)与黄脉莓(R.xanthoneurus)、高粱泡(R.lambertianus)亲缘关系较近。
16 条悬钩子属植物叶绿体基因组序列相似度很高,尽管发现了几个不同的区域,但悬钩子属植物的叶绿体基因组在结构和进化是保守的,序列变异主要集中在保守非编码序列(CNS,conserved noncoding sequences),即基因间隔区,如accD-psal、atpE-trnV-UAC-ndhC、rpl32-trnL-UAG等(图6)。
图6 以锈毛莓叶绿体基因组为参照的16 条悬钩子属植物叶绿体基因组序列可视化对比Fig.6 Visualization and comparison of 16 sequences in the chloroplast genome of Rubus with R. reflexus chloroplast genome
46 条悬钩子属叶绿体基因组序列的核苷酸多态性(Pi)值范围在0~0.042 86 之间,平均Pi 值为0.009 1,以Pi 值0.03 为界,共筛选出6 个高变异区域,包括rps16-trnQ-UUG、petN-psbM、trnTUGU-trnL-UAA、petA-psbJ、rpl32-trnL-UAG、ycf1基因及基因间隔区,其中4 个位于LSC 区,2 个位于SSC 区(图7)。
图7 46 条悬钩子属叶绿体基因组序列核苷酸多态性(Pi)分析Fig.7 Nucleotide polymorphism analysis of 46 sequences in the chloroplast genome of Rubus
锈毛莓叶绿体基因组全长为156 247 bp,结构由LSC 区、SSC 区和一对IR 区组成,其基因组结构与已报道同为悬钩子属的高粱泡(R.lamberti-anus)[15](156 266 bp)和 菰 帽 悬 钩 子(R.pileatus)[13](156 464 bp)相似,均为四分体结构,大小相差在1 kb 之内,符合绝大多数植物叶绿体基因组大小为107 到218 kb 的结果[1]。GC 总含量为30.72%,其中IR 区GC 含量最高,作为分子进化的重要标志,IR 区具有高GC 含量,使得序列稳定且高度保守[16]。
密码子是蛋白质编码基因重要组成成分,在中心法则翻译过程中扮演着至关重要的角色,而对编码同一氨基酸的密码子(同义密码子)的使用特征研究也是近年来的研究热门。叶绿体基因组中GC含量是判断密码子使用偏好的重要特征[5]。锈毛莓叶绿体基因组中GC 总含量不高,密码子偏好使用以A/U 结尾的密码子,这与悬钩子属的高粱泡(R.lambertianusr)[15]、插 田 泡(R.coreanusi)和 光滑高粱泡(R.lambertianusvar.glaber)[17]密码子偏好模式一致,同时也符合双子叶植物基因组密码子偏好A/T(U)结尾的结果[18]。造成这种结果的原因可能是G/C 碱基氮原子数高于A/T 碱基,而富含A/T 的碱基在突变时会消耗的能量更多,所以产生了碱基的偏好性[19]。
解释密码子使用偏好最具代表性的理论之一是选择-突变-漂移[20]。本研究综合分析发现,突变压力和自然选择共同决定了锈毛莓叶绿体基因组密码子使用偏好,但自然选择占主导作用,这与杧 果(Mangifera indica)[21]、蒜 头 果(Malania oleifera)[22]、高粱泡(R.lambertianus)[15]等结果一致,表明不同物种决定密码子使用偏好模式的因素可能相同。密码子第3 位碱基使用频率大小为T>A,G>C,而澳洲坚果(Macadamia integrifolia)[5]和香花枇杷(Eriobotrya fragrans)[23]碱基的使用频率为G <C,与本研究结果不同,表明物种或不同的编码蛋白基因间密码子第3 位碱基使用频率会有所差别,进而造成密码子使用偏好也会有差异。
基于完整的叶绿体基因组序列构建系统发育树,各支的支持率比基于叶绿体基因组片段rpl20-rps12[24]和ndhF[25]序列构建的系统发育树高,更能准确、全面评估悬钩子属的系统进化关系,空心莓组位于系统发育树基部,说明原始程度高。从整个系统进化树来看,空心莓组的分支最多,其次是木莓组,空心莓组进化方向多,表现为多系进化,这与Alice[26]、张丽[25]、赵文植[15]等结果一致。在基于ndhF[25]序列的系统发育结果显示,棕红悬钩子(R.rufus)、光滑高粱泡(R.lambertianus var.glaber)与锈毛莓(R.reflexus)聚为一支且互为平行关系,由于ndhF序列信息位点有限,它们之间的系统关系并没有得到很好的解决,而本研究结果显示,棕红悬钩子(R.rufus)和光滑高粱泡(R.lambertianusvar.glaber)各自聚为一支,两者的共同祖先与锈毛莓亲缘关系密切,由此可见,质体基因组系统学能提高悬钩子属物种间的系统发育分辨率。另外空心莓组的掌叶悬钩子(R.pentagonus)和矮生莓组的梳齿悬钩子(R.pectinaris)镶嵌在木莓组中,这与徐玉芬[13]、赵文植[15]等结果一致,其原因可能是木莓组和矮生莓组由空心莓组进化而来。
对16 条悬钩子属叶绿体基因组序列比较分析发现,LSC 区、SSC 区的变异程度明显高于IR 区,表明IR 区保守性更好,而对46 条悬钩子属叶绿体基因组序列核苷酸多态性分析也进一步验证了这个结果,并筛选出6 个高变异区域,包括rps16-trnQUUG、petN-psbM、trnT-UGU-trnL-UAA、petApsbJ、rpl32-trnL-UAG及ycf1,这与徐玉芬[13]定位到的部分高变异区域一致。经矩阵检查后发现,rps16-trnQ-UUG、petN-psbM和trnT-UGU-trnLUAA高变异区域中存在较多的插入和倒位,这可能是导致其核苷酸多态性值偏高的主要原因,而petApsbJ、rpl32-trnL-UAG和ycf1高变异区域则并未发现这种现象,且这三个区域变异位点较多,因此可考虑将其作为鉴别悬钩子属内物种的DNA 条形码候选片段。此次筛选出的高变异区域可为快速、准确的鉴别悬钩子属物种提供更多的数据支撑。