李 彦, 焦秀洁,更吉卓玛,贾留坤,王智华,陈世龙,高庆波,4*
(1 中国科学院 西北高原生物研究所,高山植物适应与进化重点实验室,西宁 810001;2 中国科学院大学,北京 100039;3中国科学院 西北高原生物研究所,信息与学报编辑部,西宁 810001;4 中国科学院 西北高原生物研究所,青海省作物分子育种重点实验室,西宁 810001)
近年来,随着现代分子生物学技术的发展,第二代简单重复序列标记和第三代单核苷酸多态性标记已逐渐成为动植物遗传多样性分析、系统发育和进化研究中使用较为广泛的遗传标记,并成为了生命科学研究领域一个不可或缺的工具。简单重复序列(simple sequence repeats,SSR),又称微卫星(microsatellite),是一类由几个核苷酸(2~6个)为重复单位组成的长达几十个核苷酸的重复序列,广泛分布于真核生物基因组中,约每10~50 kb的序列中就有1个微卫星位点,且具有共显性、长度短、多态性高、易于检测和相对保守等特点[1-3]。
单核苷酸多态性(single nucleotide polymorphism,SNP)指染色体基因组中单个核苷酸的变异而引起的DNA序列多态性,形式包括单碱基的缺失、插入、转换及颠换等[4]。SNP是二等位基因,具有在基因组中分布广泛、多样性高及可高通量自动化检测等特点[5]。
虎耳草属(SaxifragaL.)是虎耳草科(Saxifragaceae)中最大的属,大约有450~500种,主要分布在欧洲和亚洲的高山地区[6-7]。中国产约220种虎耳草属植物,主要分布在青藏高原-喜马拉雅地区[8]。山地虎耳草(SaxifragasinomontanaJ.T. Pan & Gornall)和棒腺虎耳草(SaxifragaconsanguineaW.W. Smith)均隶属于虎耳草科虎耳草属,是多年生草本植物,在中国主要分布于青海、甘肃、四川、云南及西藏等地,其生境多为高海拔地区的高山草甸、灌丛和石隙[8],是青藏高原地区高寒草甸生态系统的重要组成部分。此外,二者形态学差别较大,主要体现为山地虎耳草基生叶发达,边缘具有褐色卷曲长柔毛,而棒腺虎耳草茎基部叶腋处有丝状鞭匐枝,且基生叶密集聚成莲座状,边缘具腺睫毛(短棒状)[8]。目前DNA分子标记已广泛应用于虎耳草属植物的系统发育学和谱系地理学研究,结果表明对于该属内的不同物种,其遗传结构和进化历史不尽相同[6-7,9-12]。
本研究基于山地虎耳草和棒腺虎耳草的高通量测序结果,分析和比较SSR和SNP在2个物种内的分布规律和特点,为后期SSR标记的开发和系统发育学研究奠定理论基础。
山地虎耳草(S.sinomontana)和棒腺虎耳草(S.consanguinea)分别采集于青海省玉树藏族自治州玉树县小苏莽乡(32°34′20.7″N,97°12′41.6″E,4 880 m)、青海省玉树藏族自治州玉树县勒巴沟(32°55′18.2″N,97°13′54.4″E,3 667 m)。将野外采集的活体材料置于室内种植68 d,再采取二者同一丛植株上的叶片,放入冷冻管中,用液氮处理约15 s后放入-80 ℃冰箱保存。凭证标本保存于中国科学院西北高原生物研究所青藏高原生物标本馆(HNWP)。
分别从山地虎耳草和棒腺虎耳草的叶片材料中提取100 μg总RNA;利用诺禾致源生物信息科技有限公司的Illumina HiSeqTM2000高通量测序平台对其进行测序;对测得的原始序列(Raw reads)进行过滤:去除带接头(adapter)的、N比例大于10%的以及低质量的reads,得到干净的读序(Clean reads);最终用Trinity[13]将其拼接成一个转录组,并取每条基因中最长的转录本作为Unigene,以此进行后续分析。
用MicroSatellite(MISA;http://pgrc. ipk-gatersleben. de/misa/)对Unigene进行SSR检测、筛选和分析。检索标准同时包括精确型(perfect)和复合型(compound)SSR重复单元[14],各重复微卫星类型重复次数设定如下:两碱基(di-nucleotide repeats,DNRs)至少重复6次,三碱基(tri-nucleotide repeats,TNRs)至少重复5次,四碱基(tetra-nucleotide repeats,TTNRs)至少重复5次,五碱基(penta-nucleotide repeats,PTNRs)至少重复5次,六碱基(hexanucleotide repeats,HXNRs)至少重复5次。最终对SSR出现频率、重复基元类型、重复次数及其多态性进行统计分析。
通过samtools和picard-tools等工具对比对结果进行染色体坐标排序并去掉重复的reads等处理,最后利用变异检测软件CATK2[15]以Unigene为参考序列对reads进行SNP Calling,并对原始结果进行过滤:去除质量值小于30,距离小于5的SNP。最终对得到的SNP位点位于编码区或者非编码区,以及属于编码区中的同义转换或者非同义转换的SNP数量进行统计分析。
对于RNA-seq技术,其测序错误率会随着测序序列长度的增加而升高,这是测序过程中化学试剂的消耗所导致的[16-17],其次,可能因为随机引物与RNA模板的不完全结合使得前6个碱基的位置也会发生较高的测序错误率[17],且单个碱基位置的测序错误率一般在1%以下。本研究中,山地虎耳草和棒腺虎耳草分别获得94 855 756条和93 118 446条Raw reads,过滤后分别获得90 311 228条、88 874 280条Clean reads,分别占Raw reads的95.21%和95.44%。其中,两物种的单碱基错误率分别为0.035%和0.04%,碱基Q20分别为94.36%、94.00%,碱基Q30分别为88.98%、88.38%,碱基G和C的数量总和比例分别为42.39%和42.44%。
用Trinity软件对所得的Clean reads进行拼接,最终山地虎耳草获得176 110个Transcripts 和63 763个Unigene,棒腺虎耳草获得150 308个Transcripts 和60 972个Unigene(图1);之后对2个物种的Transcripts和Unigene的长度统计结果(图1)表明,在山地虎耳草中Transcripts和Unigene总的核苷酸数分别为189 919 691个、46 218 250个,棒腺虎耳草中二者总的核苷酸数分别为180 129 302个、47 241 106个。
采用MISA对Unigene进行SSR检测,结果显示:山地虎耳草中含有SSR的序列为7 700条,发生频率为12.08%,其中6 454条序列含有单个SSR,1 246条序列含有1个以上的SSR。表1显示,山地虎耳草中共检测出4 622个SSR,包括4 098个完全型SSR和524个复合型SSR,其发生频率为7.25%(检测出的SSR数量与总序列数目的比值)。在棒腺虎耳草中,共7 073条序列含有SSR,发生频率为11.60%,其中5 981条序列含有单个SSR,1 092条序列含有1个以上的SSR,共检测出4 542个SSR,包括4 051个完全型SSR和491个复合型SSR,发生频率为7.45%(表1)。从分布情况来看,山地虎耳草转录组序列中平均每10.00 kb出现一个SSR,棒腺虎耳草中平均每10.40 kb出现一个SSR,略低于前者(表1)。
对2个物种的SSR类型进行统计发现,二至六核苷酸重复类型均有出现,但各类型出现的频率和分布的平均距离相差较大。表1显示,在山地虎耳草和棒腺虎耳草中,三核苷酸重复类型的SSR含量均为最多,分别占总SSR的55.50%和56.36%;其次为二核苷酸重复类型,所占比例分别为30.23%和30.32%;其他类型(四核苷酸、五核苷酸、六核苷酸和复合核苷酸重复)所占比例较小,总和分别为14.28%和13.32%。从分布情况来看,两个物种不同重复基元SSR分布的平均距离均差别较大。其中,在山地虎耳草中,三核苷酸重复数量最多,出现频率为4.02%,每条SSR分布的平均距离为18.02 kb,六核苷酸重复最少,出现频率为0.02%,平均距离为3 355.25 kb;在棒腺虎耳草中,三核苷酸的出现频率为4.20%,每条SSR分布的平均距离为18.45 kb,与山地虎耳草不同的是,在该物种中五核苷酸重复最少,出现频率仅为0.01%,平均距离为5 905.14 kb。此外,棒腺虎耳草各重复基元类型的平均距离均高于山地虎耳草(表1)。
图1 山地虎耳草和棒腺虎耳草拼接后的Transcript与Unigene长度分布Fig.1 The length distribution of Transcripts and Unigenes after assemblage of S. sinomontana and S. consanguinea
表2显示,在山地虎耳草转录组4 098个完全型SSR中共发现了110种重复基元,其中二至六核苷酸重复基元分别有6种、30种、42种、19种和13种。在棒腺虎耳草转录组4 051个完全型SSR中则发现了85种重复基元,明显少于山地虎耳草,其中二至六核苷酸重复基元分别有6种、30种、31种、8种和10种。
在2个物种的二核苷酸重复基元中,均属AG/TC出现次数最多,分别有521个和548个,为二碱基的优势重复单元,分别占二核苷酸重复基元SSR总数的37.29%和39.80%;同时AG/TC也是所有二至六核苷酸重复基元中数量最多的SSR,而其余的二核苷酸重复类型在2个物种中所占比例也均有不同。此外,2个物种的三碱基和四碱基的优势重复单元也有所不同,山地虎耳草中,AAG/TTC(233个)和AAGA/TTCT(8个)出现频率最高,在棒腺虎耳草中出现频率最高的则是CTT/GAA(203个)和AAAT/TTTA(14个)。五核苷酸和六核苷酸在2个物种中出现频率普遍偏低(表2)。
研究表明,SSR基元重复次数变异而引起的位点长度变化是产生位点多态性的主要原因[18-19]。通过对山地虎耳草4 098个和棒腺虎耳草4 051个完全型SSR进行分类统计,结果(图2)发现,随着重复次数的增加,二者的SSR数量均逐渐减少。且2个物种的SSR均主要分布在5~10次的较低重复次数基元中,其中山地虎耳草有4 036个SSRs,占总SSR的98.49%;棒腺虎耳草中有3 994个SSRs,占98.59%;11次、12次和14次为一般重复次数基元,在2个物种中分别有61个和60个SSRs,分别占1.49%和1.48%;20次以上为较高重复次数基元,在山地虎耳草和棒腺虎耳草中分别只出现了50次和25次的重复,且均仅含1个SSR(图2)。
表1 山地虎耳草和棒腺虎耳草SSR序列的出现频率
注:比例:各核苷酸SSR在总SSR中所占比例;频率:含有SSR的序列数目与总序列数目的比值;平均分布距离:序列总长度与SSR数目的比值
Note: Proportion: Proportion in all SSRs; Frequency: The percentage of SSR number in all sequences; Average distance: Ratio of total sequence length and SSR number
表2 山地虎耳草和棒腺虎耳草转录组中不同SSR序列的出现情况
注:比例:各核苷酸SSR在总SSR中所占比例;频率:含有SSR序列数目与总序列数目的比值
Note: Proportion: Proportion in all SSRs; Frequency: The percentage of SSR number in all sequences
据统计,在山地虎耳草和棒腺虎耳草中,均属二核苷酸基元重复次数类型最多,跨度最大,分别有8种和7种,且主要类型均为6次重复,分别有627个、596个(图3),占相应物种二核苷酸基元的44.88%和43.28%;位于二核苷酸之后的是三核苷酸,分别为山地虎耳草中的ATT/TAA(5种)和棒腺虎耳草中的CCA/GGT(5种)出现的类型最多;2物种的四核苷酸、五核苷酸和六核苷酸重复基元中多以5次、6次重复类型出现。此外,在这2个物种的5种核苷酸基元中,随着重复次数的增加,SSR数量所占比例都有逐渐减少的趋势(图3,A、B)。
图4和表3显示,山地虎耳草和棒腺虎耳草的完全型SSR基元长度区间分别为12~100 bp和12~75 bp,其中最大的片段长度分别为前者二核苷酸重复50次(100 bp)和后者三核苷酸重复25次(75 bp)的SSR。从整体来看,二者SSR的分布范围较为集中,主要在12~30 bp,且在所有SSR中,最多的为15 bp长度的SSR,其中山地虎耳草有1 529个,占37.31%,棒腺虎耳草有1 581个,占39.03%,并且均为5次重复的三核苷酸基元(图4)。
研究表明,当SSR基序长度大于等于20 bp时其多态性较高,长度在12~20 bp时多态性中等,而长度在12 bp以下时多态性极低[20]。本研究筛选得到的山地虎耳草和棒腺虎耳草转录组SSR的长度均大于等于12 bp,其中前者12~19 bp的SSR有3 439个(83.92%),后者有3 462个(85.46%)(表3),这些SSR具有中等多态性;而2种虎耳草大于等于20 bp的SSR分别有659个(16.08%)、589个(14.54%)(表3),这些SSR具有较高的多态性。由此推测本研究中山地虎耳草和棒腺虎耳草转录组SSR的多态性均在中等以上。此外,研究发现高级基元SSR的多态性普遍比低级基元的低[21]。本研究中山地虎耳草和棒腺虎耳草的二、三核苷酸基元总和分别占完全型SSR的96.68%、97.19%,在长度大于等于20 bp的SSR中,两物种所包含的低级基元(二核苷酸和三核苷酸)总数分别为523条、475条,占长度大于等于20 bp的所有SSR的79.36%、80.65%,表明大部分山地虎耳草和棒腺虎耳草转录组SSR具有高多态性潜能(表3)。
图2 山地虎耳草和棒腺虎耳草转录组SSR重复次数分布Fig.2 The distribution of repeat number of SSRs in transcriptome of S. sinomontana and S. consanguinea
图3 山地虎耳草(A)和棒腺虎耳草(B)转录组SSR不同重复类型的重复次数分布Fig.3 The distribution of repeat number of SSRs for different repeat types in transcriptome of S. sinomontana (A) and S. consanguinea (B)
图4 山地虎耳草和棒腺虎耳草转录组SSR基元长度分布Fig.4 The distribution of motif length of SSRs in transcriptome of S. sinomontana and S. consanguinea
重复类型Repeat type长度Length/bp山地虎耳草 S. sinomontana棒腺虎耳草 S. consanguineaSSR数量Number of SSRsSSR所占百分比Percent of total SSRs/%SSR数量Number of SSRsSSR所占百分比Percent of total SSRs/%二核苷酸Di-nucleotide1262744.8859643.281431522.5534224.841620814.8920314.74181087.731138.2120785.58715.1622533.79473.412470.5050.3610010.0700.00三核苷酸Tri-nucleotide151 52959.611 58161.761865225.4262724.492135513.8432412.6624281.09261.023300.0010.044210.0400.007500.0010.04四核苷酸Tetra-nucleotide208581.738285.42241716.351212.502810.9622.083610.9600.00五核苷酸Penta-nucleotide251789.47787.503015.2600.003515.26112.50六核苷酸Hexa-nucleotide30969.23330.003617.69330.004217.69110.0054215.3800.006600.00330.00
图5 山地虎耳草和棒腺虎耳草SNPs类型分析Fig.5 The analysis of SNP types in transcriptome of S. sinomontana and S. consanguinea
通过数据处理,最终在山地虎耳草和棒腺虎耳草中分别获得118 424个和112 006个SNP位点,其中非编码区的SNP位点分别为82 420个(69.60%)、79 986个(71.41%),编码区的SNP位点分别为36 004个(30.40%)、32 020个(28.59%)。在山地虎耳草的编码SNP中,同义突变有35 849个(30.27%),非同义突变155个(0.13%);棒腺虎耳草的编码SNP中,同义突变有31 899个(28.48%),非同义突变有121个(0.11%)。
对二者SNP进行类型分析结果(图5)发现,在山地虎耳草中,转换类型有72 076个(60.86%),颠换类型有46 321个(39.11%);棒腺虎耳草中,转换类型有66 819个(59.66%),颠换类型有45 169个(40.33%)。
转录组代表了特定物种的组织或细胞在不同发育阶段、不同生理状态下的全部mRNA总和[22],且不同物种、同一物种的不同个体、同一个体的不同组织以及同一组织不同时期的转录本表达情况都有所不同[23]。本研究从山地虎耳草和棒腺虎耳草转录组中分别获得了63 763个和60 972个Unigene,为后续分析奠定了坚实的基础。其中,山地虎耳草中,碱基Q20和Q30分别为94.36%、88.98%,棒腺虎耳草中相应比例为94.00%、88.38%,研究指出,当Q30值在80%以上就认为测序质量非常可靠[24],而碱基Q20与碱基识别的错误率呈对数相关,其表示每100个序列碱基中仅有1个出错的概率[25]。
从2物种的Unigene中分别检测出了4 622个和4 542个SSR,平均分布距离为1/10.00 kb、1/10.40 kb,二者差别不大,但与其他高山植物相比,其平均分布距离高于冷蒿(1/18.46 kb)[26]和川西獐牙菜(1/12.6 kb)[27],与蓝玉簪龙胆(1/9.97 kb)[28]相差较小,但低于唐古特红景天(1/8.52 kb)[29]。由此表明,2个物种转录组中SSR的数量较为丰富。此外,山地虎耳草和棒腺虎耳草转录组中SSR出现频率也相似,分别为7.25%、7.45%,与唐古特红景天(7.1%)[29]的出现频率较为接近,高于冷蒿(2.61%)[26]和蓝玉簪龙胆(6.12%)[28],但低于川西獐牙菜(8.16%)[27]。出现这种差异可能与物种选择、组装方法、SSR搜索的标准及分析方法等有关。
研究表明,大多数植物的SSR主要以二核苷酸和三核苷酸重复为主要类型,但是主导重复基元的类型有所不同[27,30]。本研究发现,这2个物种转录组SSR的优势基元均是三核苷酸重复,这与冷蒿[26]、蓝玉簪龙胆[28]和唐古特红景天[29]和等植物的优势基元结果相一致;但在金银花[31]和芝麻[32]等植物中二核苷酸重复占主导地位,在川西獐牙菜[27]和灯盏花[30]等植物中主导类型为二核苷酸和三核苷酸重复基元。这种主导重复基元的不同可能与物种自身的差异有关。此外,有研究指出三核苷酸和六核苷酸SSR重复基序的突变情况,可能是一种有利于植物进化的突变[33],在山地虎耳草和棒腺虎耳草中以三核苷酸SSR为主体的分布可能与长期以来自然选择所导致的适应性变化有关。
多项研究指出,作为碱基序列的重要特征之一,GC含量反映了基因的结构、功能和进化信息,SSR序列中GC含量的增加会使某些氨基酸序列的增加而获得某些特定功能,如胁迫抗性、转录调控、信号转导等[14,34-35]。并且在大多数植物中GC重复基元很少出现,例如在唐古特红景天[29]、金银花[31]和小麦[36]等植物中均未发现该重复基元,但在山地虎耳草和棒腺虎耳草转录组SSR中均检测到了6个GC重复基元,这种现象在川西獐牙菜[27]和大豆[37]中也出现过。其次,山地虎耳草和棒腺虎耳草对青藏高原高寒干旱、土壤贫瘠等极端环境的适应机制是否与GC重复单元有关还需要进行更深入的探讨。
对山地虎耳草和棒腺虎耳草的SNP分析发现,两者SNP的转换类型比例均明显高于颠换类型,并且在转换类型中,C↔T发生频率较高,与蓝玉簪龙胆的SNPs结果相一致[28],这一现象可能是由于SNP在CG序列上出现最为频繁,并且CG中的C常为甲基化,在自发地脱氨后便成为T所导致[38]。此外,对这2个物种的编码SNP比较发现,物种间同义突变个数和非同义突变个数均为接近,但物种内同义突变个数均明显高于非同义突变,这可能是由于在自然选择的作用下,绝大多数引起氨基酸序列的突变因为降低了物种的适合度而遭到淘汰,进而导致了蛋白质编码区的非同义突变率低于同义突变率。
青藏高原作为虎耳草属植物多样性中心之一,虽然资源丰富独特,但相关物种的基因组学研究相对滞后,遗传信息较为缺乏。本研究通过分析和比较山地虎耳草和棒腺虎耳草转录组序列中SSR和SNP的分布情况,发现二者的结果差别较小,这可能与选取的组织部位相同、发育阶段相同以及物种间的系统发育学关系较近有关。本研究结果可为今后对山地虎耳草和棒腺虎耳草进行引物设计、生态适应和系统发育学研究提供基础,为保护生物学提供理论依据。