颜 丽, 孔维杰, 杨雪莲, 吴永飞, 王 霞, 田山君
(贵州大学农学院, 贵阳 550025)
长叶竹柏(Nageiafleuryi)为罗汉松科、竹柏属,主要分布在中国、越南、柬埔寨等东南亚国家,在《中国植物红皮书》中被列为濒危植物。长叶竹柏果仁可用作食用油、工业用油原料[1]以及木材原料,也是治疗风湿病[2]和发烧[3]的中草药,是具有较高经济价值的珍稀树种。近年来,随着植物药用成分分离技术水平的提高,国内外学者对竹柏科植物进行了大量的研究,结果显示,该科植物含有二萜、二萜内酯、甾体、倍半萜、苯丙素、木脂素、三萜及双黄酮等成分[4-5]。目前,对竹柏科植物所含的二萜内酯以及双黄酮等成分进行了大量的生物活性研究,表明竹柏科植物具有抗肿瘤、抗病毒、抗氧化及抗炎活性功能[6]。
叶绿体主要是绿色植物进行光合作用的重要场所,在其他代谢途径中也起关键作用[7],具有半自主遗传性。叶绿体大多具有保守的环状四分体结构,但不同物种间会存在一定差异,主要表现为IR区域长度和方向的不同[8]。叶绿体研究技术发展迅速,现已应用于植物系统发育[9]和种群分析[10]等方向的研究,对杧果(Mangiferaindica)[11]、香花枇杷(Eriobotryafragrans)[12]、柳叶芹(Czernaevialaevigataturcz.)[13]、灯盏花(Erigeronbreviscapus)[14]、蒜头果(Malaniaoleifera)[15]、铁皮石斛(Dendrobiumcandidum)[16]、大花君子兰(Cliviaminiata)[17]、沙枣(Elaeagnusangustifolia)[18]和喜马红景天(Rhodiolahimalensis)[19]等的研究为植物的基因组学、种群分类及系统发育分析等提供了一定的理论依据。迄今为止,对长叶竹柏的相关研究主要是其化学成分、栽培引种及病虫害等方面,关于长叶竹柏的完整叶绿体基因组研究尚未见报道。本研究利用高通量测序对长叶竹柏叶绿体进行基因测序、组装和注释,分析其系统发育关系,旨在为鉴定该物种、丰富其叶绿体遗传信息、进一步探索其个体水平的遗传差异及遗传改良奠定理论基础。
长叶竹柏叶片来自贵州省植物园(26°37′20″N,106°43′29″E),将新鲜、无病虫害样本经液氮速冻后于-80 ℃冷藏保存。
1.2.1长叶竹柏DNA提取及测序
采用CTAB法[20],从150 mg新鲜叶片样本中提取全基因组DNA,送至惠通生物有限公司检测,DNA检测合格后将其打断生成300~500 bp的小片段,在序列末端修复、3′端加A、加测序接头,再经过纯化、琼脂糖凝胶电泳,PCR扩增等一系列操作构建好整个长叶竹柏的测序文库,经质检合格的文库,使用Illumina高通量测序平台Nova Seq6000进行测序。
1.2.2长叶竹柏叶绿体全基因组的组装、注释
测序数据采用SPAdes软件进行基因组拼接[21],使用已公布的近缘叶绿体数据与蛋白编码基因序列作为参考,利用Blastn与Exonerate软件将结果与参考基因组进行比对,确定序列组装。使用PRICE和MITObim软件[22]对目标序列进行延伸、合并及拼接,尽量减少Scaffold数目。迭代拼接的结果使用Bowtie2软件[23],将原始测序Reads进行回帖,挑出匹配成对的,利用软件SPAdes进行重拼接,直至完成环状基因组。然后利用PGA(Plastid Genome Annotator)软件[24]进行基因组注释,设置默认参数,完成注释。采用Chloroplot软件[21]绘制长叶竹柏叶绿体基因组图谱。
1.2.3长叶竹柏叶绿体密码子偏好性和简单重复序列分析
运用Codon W1.4.2软件[25]统计分析长叶竹柏叶绿体基因组密码子的偏好性RSCU(Relative Synonymous Codon Usage);利用MISA(MIcroSAtellite identification tool)提供的Perl程序[26]分析简单重复序列(Simple Sequence Repeat,SSR)位点,程序在Windows命令窗口运行。其中,设置单核苷酸最低重复次数为10,二核苷酸为5,三核苷酸、四核苷酸、五核苷酸、六核苷酸的均为4。
1.2.4长叶竹柏叶绿体基因组系统进化分析方法
从NCBI数据库下载与24个与长叶竹柏近缘物种的叶绿体全基因组序列,构建最大似然(ML)树。利用MAFFT7.037[27]和FFT-NS-2策略将24个不同物种完整叶绿体基因组中的共有蛋白编码基因与长叶竹柏的基因进行比对。运行Model-finder var1.6来选择最佳模型,并选择TVM++F+I+G4模型[28]。使用RAxML var8.2.9构建系统发育树,自举检测值设置1 000[29]。
本研究获得的长叶竹柏叶绿体基因组序列数据在NCBI(https://www.ncbi.nlm.nih.gov/)的GenBank中的登录号为OL435123[30]。该叶绿体基因组呈双螺旋环状结构(图1),大小为133 870 bp,因缺乏反向重复序列(IR)结构,所以它不属于典型的四分体结构。
图1 长叶竹柏叶绿体基因组环形图谱 Fig.1 Circularized map of the chloroplast genome of Nageia fleuryi
长叶竹柏叶绿体基因组编码119个基因(表1),包括蛋白编码基因(80个)、tRNA基因(35个)和rRNA基因(4个),其中,有11个基因(ndhF、ndhA、ndhB、rpl2、rpoC1、tRNA-Lys、tRNA-Gly、tRNA-Leu、tRNA-Val、tRNA-Ile、tRNA-Ala)含有1个内含子,2个基因(clpP和ycf3)含有2个内含子,rps12具有反式剪接。因基因功能各不相同,长叶竹柏叶绿体基因组可分为光合作用基因(43个)、自我复制基因(64个)、其他编码蛋白基因(8个)和未知功能基因(4个),占比分别为36%,54%,7%和3%。
表1 长叶竹柏叶绿体基因组注释信息Table 1 Gene annotation information of the chloroplast genome of Nageia fleuryi
真核生物基因组存在64个密码子,通常编码20种不同氨基酸和3个终止密码子,其中,编码同一氨基酸的不同密码子被使用的频率也不一样,被频繁使用的密码子是“偏好密码子”,而其他密码子则是“非偏好密码子”,这种现象被称为“密码子偏好性”。一般认为,密码子偏好性的成因是不同密码子对应的tRNA在细胞里的丰度不一样,tRNA丰度越高,对应的密码子的使用频率也会越高。偏好密码子分析结果(表2)表明,长叶竹柏叶绿体基因组共检测出44 623个密码子,编码亮氨酸(Leu)的密码子数量最多,为4 703个,占总密码子数的10.54%;色氨酸(Trp)的密码子数量最少,为629个,占总密码子数的1.41%。长叶竹柏叶绿体测序结果显示,密码子具有明显的偏好性,RSCU等于1的氨基酸有2个,分别为甲硫氨酸(Met)和色氨酸(Trp),RSCU大于1的密码子种类有28个,其中只有2个密码子的碱基以G结尾,其余所有密码子均以A/U结尾。
表2 长叶竹柏各氨基酸相对同义密码子使用度Table 2 The RSCU for amino acid of Nageia fleuryi
表3显示,长叶竹柏叶绿体基因组共49个SSR(包含单核苷酸、二核苷酸和三核苷酸)。其中,单核苷酸重复序列最多,共26个,主要有A(10个)、C(1个)、G(3个)和T(12个),共占53.06%;二核苷酸重复序列共22个,主要是AT(14个)、CA(1个)、TA(6个)和TC(1个)4种重复类型,占44.90%;三核苷酸最少,只有1个,为AAT,占2.04%。
图2 25个物种叶绿体基因组系统发育树 Fig.2 Phylogenetic tree based on chloroplast genomic of 25 species
表3 长叶竹柏叶绿体简单重复序列(SSR)信息Table 3 The SSR information for chloroplast of Nageia fleuryi
叶绿体基因组聚类分析对研究植物发育进化有重要意义。本研究选用日本粗榧(Cephalotaxusharringtonia)为外类群及24个罗汉松科物种,构建最大似然(ML)树。系统发育树(图2)显示,不同科的植物分布不同的进化分支,长叶竹柏与同为罗汉松科的23个物种构成一个单系类群。长叶竹柏与竹柏聚为一支,自展值为100,同为罗汉松科竹柏属,说明长叶竹柏与竹柏亲缘关系最为密切。此外,与其他属相比,非洲罗汉松属(Afrocarpus)和转叶罗汉松属(Retrophyllum)与竹柏属(Nageia)亲缘关系密切。
Ohyama等[32]和Shinozak等[33]首次测出地钱(MarchantiapolymorphaL.)和烟草(NicotianatabacumL.)叶绿体全基因组序列,为后续无数学者提供了新线索,解决了许多植物分类[34]、叶绿体基因数据库完善[35]及物种鉴别[36]等方面的关键问题。如张慧等[37]研究获得了完整的益母草属叶绿体基因组,系统发育树结果表明其与水苏属(Stachys)物种的亲缘关系较近;Zhou等[38]通过对大黄属(Rheum)的研究,开发了超级DNA条形码。可见,研究植物叶绿体基因组信息对生物进化分析、分类及开发利用具有重要的意义。
物种进化过程中,往往会出现一些基因组重排和叶绿体基因组基因丢失的少量事件。本研究发现,长叶竹柏叶绿体基因组在基因种类和结构上与大多数裸子植物(如罗汉松属[39]、松科[40]、柏科[41]等)的叶绿体基因组结构类似,都缺失IR区;Chen等[42]研究水杉叶绿体全基因组发现,由于水杉叶绿体基因组的一个大IR拷贝丢失,并且推测其IRA已丢失,但IRB已保留在水杉叶绿体基因组中。鲁华等[43]对华山松叶绿体基因组分析结果表明,南系华山松叶绿体基因组也缺乏反向重复区。此外,还有其他少数被子植物(如牻牛儿苗属植物[44],蒺藜苜蓿、鹰嘴豆、三叶草等豆科植物[45])也因丢失了一个反向重复(IR)区而不具有四分体结构,无法区分其大单拷贝区和小单拷贝区。一般情况下认为,反向重复序列大可起到稳定叶绿体基因组的作用[46],使之能应对大型的结构重排。因此,大反向重复序列损失的植物叶绿体基因组会发生一系列的多变问题,从而导致基因缺失或基因组重排的现象。另外,长叶竹柏及其他缺少IR区物种中的IRA和IRB是否同时缺失或缺失其中之一以及其中的结构变化引起的生物特异性等有待进一步研究探讨。
植物叶绿体DNA分子一般长120~170 kb[8],本研究中长叶竹柏叶绿体基因组大小为133 870 bp,属于一般长度范围内。叶绿体基因组通常含有100~120个编码基因,且大多蛋白编码基因占比较大,能达80%以上,tRNA、rRNA占比较少。长叶竹柏叶绿体共编码119个基因,其中蛋白编码基因有80个,约占总数的67%,相较于其他物种,长叶竹柏叶绿体的蛋白编码基因较少。本研究根据基因的功能将注释基因分为四大类,分别是光合作用、自我复制、其他编码蛋白及未知功能,这与黄桃[47]、薄壳山核桃[48]、扁果草[49]等叶绿体基因组功能分类结果相似,可再次证实叶绿体大部分基因主要起到光合作用及基因复制等功能。因此,可通过进一步探究叶绿体基因组表达调控机理,分析叶绿体光合作用及生物合成的相关具体机制。
密码子偏好性反映基因乃至物种的起源和进化方式,且对基因功能及其编码蛋白的表达有一定影响。通过密码子偏好性分析研究发现,长叶竹柏叶绿体基因组共检测出44 623个密码子,RSCU等于1的氨基酸有2个(甲硫氨酸和色氨酸),RSCU大于1的密码子共有28个,其中只有两个密码子的碱基以G结尾,其余所有密码子均以A/U结尾,说明长叶竹柏叶绿体基因具有明显的AU偏好性。该结果与前人研究结果相似,张雨等[19]研究红景天叶绿体基因组密码子偏好性也发现其具有明显的AU偏向性。此外,在剑麻[50]、翠雀[51]、橄榄[52]、秋茄[53]等叶绿体基因组研究中发现,其密码子偏好是A或T。说明不同物种的密码子偏好性存在差异,而这通常是自然选择和突变等因素影响所致。还有研究表明,不同物种密码子偏好性所受的主导因素也各不相同,如刺榆[54]受自然选择的影响;凉粉草[55]则同时受自然选择和突变压力的共同影响;紫菜[56]除自然选择和突变压力外,可能还受碱基组成等因素的影响。本研究没有具体探讨长叶竹柏叶绿体密码子偏好性的影响因素,下一步可对其密码子使用规律及其影响因素进行深入研究。
简单重复序列(SSR)是指由1~6个核苷酸组成的基本单元,经多次串联形成重复的一段DNA序列[57],有几十至几百条碱基序列,它们分布在叶绿体基因组的不同部位,影响着细胞的多项生命活动,而位于非编码区的SSR比位于编码区的变化更大[58]。与核基因组相比,叶绿体基因组较小,SSR数量相对较少,可用于物种鉴定、遗传多样性分析和分子辅助育种等[59]。基于长叶竹柏叶绿体基因组SSR分析,发现其大多数单核苷酸由A/T组成,大多数二核苷酸由AT/TA组成,而其余SSR的A/T含量较高,该研究结果与SSRs通常由短聚腺嘌呤(poly A)或聚胸腺嘧啶(poly T)重复序列组成的论点一致[60]。叶绿体基因组SSR中较高的A/T含量也有助于碱基组成的偏差,从而使A/T在长叶竹柏叶绿体基因组中富集。
Zhang等[61]研究指出,叶绿体基因组长度是普通条形码序列的几百倍,有足够的变异位点,完整的叶绿体基因组可作为超级DNA条形码,应用于物种鉴定及系统发育的关系判定[62]。为了研究罗汉松科中长叶竹柏的系统发育位置,本研究选择了24个物种,这些物种包括了竹柏科、罗汉松科和红豆杉科,以红豆杉科的日本粗榧列为外类群,将这些物种与长叶竹柏叶绿体基因组数据构建系统发育树。结果表明,长叶竹柏与竹柏的同源性最高,亲缘关系最近,该结果确定了长叶竹柏的系统位置及其发育关系。此外,还可对长叶竹柏叶绿体基因组进行其他分析和应用,如SNP位点、数字PCR等分析技术,从而进一步精准鉴别竹柏科植物。
叶绿体基因组注释表明,长叶竹柏叶绿体基因组全长为133 870 bp,缺乏反向重复区,总GC含量为37%,共119个基因,包括80个蛋白编码基因、35个tRNA基因和4个rRNA基因,其绝大多数的基因与光合作用及基因转录翻译相关。密码子偏好性分析表明,亮氨酸(Leu)使用频率最高(10.54%),色氨酸(Trp)使用频率最低(1.41%),密码子偏向使用A和U两种碱基。共检测到49个SSR位点,以单碱基(53.06%)重复为主。此外,系统发育分析显示,长叶竹柏与竹柏亲缘关系最密切。该研究为进一步研究罗汉松科分子标记开发、种间鉴定以及该物种的演化过程提供科学依据。