包国媛, 王雅琼,2,3,4, 李文辛
(1.青海民族大学生态环境与资源学院, 西宁 810007;2.青海省生物技术与分析测试重点实验室, 西宁 810007;3.青海省特色经济植物高值化利用重点实验室, 西宁 810007;4.青藏高原资源化学与生态环境保护国家民委重点实验室, 西宁 810007)
甜菜(Betavulgaris)、菠菜(Spinaciaoleracea)和藜麦(ChenopodiumquinoaWilld.)均属于藜科植物,具有较高的食用及药用价值。甜菜是我国主要的糖料作物,在我国东北、西北和华北的干旱、半干旱地区广泛种植[1],富含氨基酸、脂肪、蛋白质、维生素、矿物质和膳食纤维等营养成分[2]。甜菜可以用来榨汁、做汤菜、做果浆和制做腌菜,在欧美的一些国家甜菜备受欢迎,但是在我国由于宣传力度较低,市场上的相关产品也很少见到[3]。甜菜中含多种生物活性成分,在肝脏损伤、心血管疾病、糖尿病、癌症等疾病的预防和治疗中具有重要的药用价值[3]。甜菜中的甜菜红素可以作为有效的炎症因子清除剂,治疗由过量次氯酸引起的炎症[4]。也有学者通过临床试验发现甜菜红素有助于心血管疾病的治疗[5]。菠菜是常见的蔬菜,它富含黄酮类、酚类、甾体类等多种生物活性成分;菠菜中含有少量的生物碱、皂苷、糖类等化学成分,它的提取物在抗氧化、抗肿瘤、抗炎、抗高血脂、降糖等方面有良好的效果[6]。是一种一年生植物,起源于安第斯地区,在世界范围内种植广泛[7]。具有较高的非生物胁迫耐受性和较高的营养含量,被认为是一种具有重要价值的作物[8-10]。不仅富含优质蛋白质、多糖和不饱和脂肪酸等大量营养素,而且含有维生素、矿物质等微量营养素,同时,还含有多种生物活性物质,包括皂苷、多酚类、黄酮类、甜菜碱、植物甾醇等,被誉为“全营养食品”[11]。
植物光合作用的主要场所是叶绿体[12],叶绿体基因组结构简单、分子量小、拷贝多且有高度保守性,在不同物种之间或同一物种不同个体间存在着一定的局部区域的变异[13]。叶绿体是植物细胞内最重要、最普遍的质体[14]。叶绿体基因组是一个环状的四分体结构,包括大单拷贝区(Large Single-copy Region,LSC)、小单拷贝区域(Small Single-copy Region,SSC)和反向重复区(Inverted Repeat,IR),2个IR区被LSC和SSC隔开,它们的长度虽然相等、但是方向相反[15-16]。其中最早获得叶绿体基因组的植物是地钱(Marchantiapolymorpha)[17]和烟草(Nicotianatabacum)[18]。目前叶绿体基因组主要用于近缘植物鉴定、DNA条形码、植物的系统发育及遗传进化分析等方面[19-20]。
重复序列(Repetitive sequence)是指在整个基因组中以多个拷贝出现的核酸序列[21],包括简单重复序列(cpSSR)和散在重复序列(cpIRS)。微卫星标记(Microsatellite Makers)又被称为短串联重复序列(Short Tandem Repeats,STRs)或简单重复序列(Simple Sequence Repeats,SSR),是一种以特异引物PCR为基础的分子标记技术,一般由1~6个核苷酸为重复单位组成的小于200 bp的串联重复序列。SSR广泛存在于真核、原核及病毒的基因组中,其多态性高对基因组的覆盖性好[22]。叶绿体微卫星(cpSSR)是基于叶绿体基因组开发的一种标记,作为一种新的分子标记手段兼具叶绿体基因(cpDNA)和微卫星标记(SSR)的优点,广泛应用于遗传多样性、群体迁移、遗传图谱和进化等方面[23]。重复序列在基因组不同区域具有明显的差异,参与不同区域基因的表达与调控,生物能够稳定遗传和进化与重复序列的存在具有很重要的关系[24]。
目前对于甜菜及其近缘类群的研究多集中在育种栽培、有效成分及生物活性的研究等方面,在叶绿体基因组层面的研究鲜有报道。本研究采用cpSSR技术对甜菜及其近缘类群叶绿体全基因组重复序列进行分析,为甜菜品种的选育、遗传多样性研究、系统发育的研究以及分子育种提供数据基础。
从NCBI的GenBank数据库(https://www.ncbi.nlm.nih.gov)筛选并下载甜菜、菠菜、藜麦、黎、猪毛菜和稻的叶绿体全基因组序列进行分析(表1)。
表1 甜菜及其近缘类群叶绿体全基因组序列分析
基于甜菜及其近缘类群叶绿体全基因组序列的注释文件,使用在线细胞器基因组绘图软件Chloroplot(https://irscope.shinyapps.io/Chloroplot/;2022-11-22)[25]绘制甜菜及其近缘类群的叶绿体基因组物理图谱,参数设置为:直接展示大单拷贝区、小单拷贝区域和反向重复区的相对大小与位置;使用不同的颜色表示所有类别基因;使用较深的颜色表示序列或基因的GC含量,较浅的同色表示AT含量;其他参数取默认值。
使用软件MISA(http://pgrc.ipk-gatersleben.de/misa/misa.html)搜索甜菜cpSSR位点并分析其特征。参数设置如下:单碱基重复8次及以上;二碱基重复5次及以上;三碱基重复4次及以上;四碱基、五碱基和六碱基重复3次及以上;复合SSR 2个位点间最大间隔碱基数小于等于100;统计cpSSR分布区域;基于cpSSR的碱基类型,统计不同重复类型的序列长度和个数,并计算数量、比例以及丰度信息。将MISA所得的结果上传在线生信云平台,使用其中的“MISA结果注释软件”(http://112.86.217.82:9919/#/tool/alltool/detail/283)基于甜菜叶绿体基因组的注释文件对甜菜cpSSR进行注释,注释的结果即为cpSSR与基因的位置关系以及cpSSR在叶绿体全基因组上所处的四分体区域。
使用REPuter软件对甜菜叶绿体基因组散在重复序列进行分析,参数设置:最小长度30 bp,海明距离(Hamming Distance)设为 3,鉴定类型为F、R、P、C。使用在线生信云平台的“REPuter 结果注释”软件注释REPuter的检索结果。
使用MISA和REPuter软件以上文相同的参数分析菠菜、藜麦、黎、猪毛菜和稻的叶绿体基因组重复序列,并与甜菜的叶绿体基因组重复序列进行比较分析。
叶绿体基因组物理图谱的绘制实现了甜菜及其近缘类群叶绿体基因组特征的可视化(图1):甜菜及其近缘类群叶绿体基因组全长分别为149 722 bp、150 725 bp和152 079 bp都是典型的四分体环状结构,均由一个大单拷贝区(LSC:83 110 bp、82 719 bp、83 551 bp),一个小单拷贝区(SSC:17 793 bp、17 860 bp、18 118 bp)和一对反向重复序列(IRs:24 410 bp、25 073 bp、25 205 bp)组成。基因序列长度在基因组上的占比远大于基因间隔区,可视化的图谱有利于查看重复序列等特殊序列的相对分布情况。
注:A为甜菜;B为菠菜;C为藜麦。
利用MISA软件[26]对总长为149 722 bp、150 725 bp和152 079 bp的甜菜及其近缘类群叶绿体全基因组微卫星进行分析,分别识别出195个,171个,154个cpSSR,平均每767.8 bp、881.4 bp及987.5 bp出现一个微卫星。其中分别有132个、118个及101个位点分布在 LSC区,该区域占SSR总位点的67.69%,69.0%及65.58%;分布在SSC区的位点分别有35个、31个及33个,占SSR位点的17.95%,18.24%及21.42%;IR区分布有28,22,20个位点,占比为14.36%,12.94%及12.98%(表2)。
表2 甜菜及其近缘类群cpSSR特征分析
甜菜的195个cpSSR中,包含179个单碱基重复序列(91.8%),6个二碱基重复序列(3.1%),1个三碱基重复序列(0.5%),8个四碱基重复序列(4.1%),1个五碱基重复序列(5.1%)。在单碱基中T基序重复最多(92个,50.8%),其次为A基序(83个,46.4%),C和G占比较少(各2个,1.1%);在二碱基中为TA/AT重复(4个,2个,66.7%,33.3%);三碱基重复序列为AAT/ATT(1个,100%);四碱基重复序列为AAAG/CTTT、AAGG/CCTT、AATT/AATT(各1个,12.5%)以及AAAT/ATTT、ACCT/AGGT重复(各2个,25%);五碱基重复序列为AAATT/AATTT(1个,100%),没有六碱基重复序列组成的cpSSR。甜菜的cpSSR总丰度为1 302.4个/Mb,在各类型重复序列中单碱基重复序列的丰度最高,为1 195.5个/Mb,五碱基重复序列的丰度最低,为6.68个/Mb。在菠菜的171个cpSSR中,其中最多的是单碱基重复(146个,85.3%),在单碱基中T基序重复最多(81个,55.5%),其次为A基序(64个,43.8%);菠菜的cpSSR总丰度为1 134.4个/Mb,其中单碱基重复序列的丰度最高为968.7个/Mb。藜麦的154个cpSSR中,出现了同样的情况,最多的也是单碱基重复(138个,89.6%),同样也出现了T基序重复最多(81个,58.7%),丰度最高的为单碱基重复序列907.4个/Mb(表3)。
本研究中,甜菜cpSSR的平均长度为9.3 bp。cpSSR长度区间在8~21 bp之间分布广泛,最长为21 bp,最短为8 bp。从总体来看,甜菜及近缘类群分布在8~12 bp占比最多(500个,96.3%),13~21 bp占比较少(19个,8.7%)。其中长度为8 bp的SSR占比最多(225个,45%)(图2)。
图2 微卫星长度分布
甜菜及其近缘类群cpSSR中单碱基重复序列的基序拷贝数分布最广,在8~21 bp 均有分布。A基序出现了单一最高拷贝数(21个,12个,13个);甜菜及近缘类群的基序多数为单碱基(179个,146个,138个);拷贝数与序列个数总体呈负相关,随着拷贝数的增加基序数量减少(图3)。
通过REPuter软件[27]在甜菜叶绿体基因组中共检测到2种重复序列类型,共有50个cpIRS,包括26个F型和24个P型,没有检测到其他重复类型的cpIRS。最长的序列为17 011 bp,最短为30 bp,它们都在甜菜叶绿体基因组的LSC区。在菠菜和藜麦叶绿体基因组中检测到1种重复类型,均为F型,菠菜中有13个cpIRS,藜麦中有25个cpIRS(表4~表6)。
表4 甜菜叶绿体基因组中的cpIRS
表5 菠菜叶绿体基因组中的cpIRS
表6 藜麦叶绿体基因组中的cpIRS
对模式植物水稻及同科植物菠菜、藜麦、黎和猪毛菜的简单重复序列进行比较分析。结果(表7)显示,cpSSR位点数分别为111,171,154,163,236个,同科植物及模式植物都以单碱基A/T重复为主,并且占比最大;其中猪毛菜叶绿体基因组中检测到的重复序列最多,在水稻叶绿体基因组中检测到的重复序列最少。
表7 不同植物不同重复类型统计
与同科植物以及模式植物进行散在重复序列比较分析,结果(图4)显示,所有物种都有F型和P型;其中甜菜的F型最多(26个),菠菜的最少(13个),P型的水稻中最多。
图4 不同植物cpIRS比较分析
甜菜及其近缘类群都属于黎科,具有较高的食用和药用价值。本研究在全长为149 722 bp的甜菜的叶绿体基因组中共检测到195个SSR位点,平均每隔767.8 bp出现一个SSR位点。在同科植物菠菜、藜麦、黎、猪毛菜及水稻中分别识别出171,154,163,236,111个SSR位点,说明甜菜的SSR密度要小。位点的长度与多态性潜能有着一定的关系,当SSR长度大于等于20 bp 时,多态性就比较高[28]。甜菜及其近缘类群中长度为8~12 bp的较多,最长的为21 bp,大于等于20 bp的总共出现了2个位点。
SSR 位于基因上或位于基因间隔区,基因序列长度在基因组上的占比远大于基因间隔区,但是在本研究中发现SSR 在基因间隔区和内含子区的数量大于基因组中基因上的数量。因此,可能推测SSR是比较容易变异,基因间隔区往往是更加保守的。
甜菜及其近缘类群的cpSSR中单碱基重复序列占比最大。在同科物种及模式植物中也出现了单碱基重复A/T基序占比大的情况。在不同物种中对狗枣猕猴桃的叶绿体微卫星特征进行了分析,也出现了相同的情况[29]。甜菜的cpSSR总丰度为1 302.4个/Mb,在各类型重复序列中单碱基重复序列的丰度最高,为1 195.5个/Mb,五碱基重复序列的丰度最低,为6.68个/Mb。菠菜的cpSSR总丰度为1 134.4个/Mb,其中单碱基重复序列的丰度最高,为968.7个/Mb。藜麦的154个cpSSR中,出现了同样的情况,丰度最高的也是单碱基重复序列907.4个/Mb。
甜菜叶绿体基因组中共检测到2种重复序列类型,包括26个F型和24个P型,没有检测到其他重复类型的散在重复序列。在菠菜和藜麦叶绿体基因组中检测到1种重复类型,均为F型,菠菜中有13个cpIRS,藜麦中有25个cpIRS。甜菜的重复序列大都位于LSC区,这表明重复序列可能与光合作用有关,这与王文斌等[30]的研究结果一致。
本研究对甜菜的cpSSR和cpIRS进行分析,并与黎科植物和模式植物进行了比较分析,为进一步研究甜菜种质资源鉴定与遗传多样性的研究提供了理论依据。