基于高通量测序的野生毛葡萄转录组SSR信息分析

2017-11-30 14:53方辉蒋胜理曲俊杰周思泓潘凤英
江苏农业科学 2017年20期

方辉+蒋胜理+曲俊杰+周思泓+潘凤英

摘要:利用毛葡萄叶片高通量转录组测序数据进行简单重复序列(simple sequence repeat,简称SSR)搜索并对其所在的序列进行注释,从而为毛葡萄分子标记开发提供有效信息。从35 238条质量较高的unigene中搜索到4 428个SSR位点,对这些序列进行基因本体(gene ontology,简称GO)、同源蛋白质簇(cluster of orthologous groups of proteins,简称COGs)和京都基因与基因组百科全书(Kyoto encyslopedia of genes and genomes,简称KEGG)分类,给出功能注释和Pathway注释,共注释了3 197条unigene。COG数据库将SSR序列分成25类,通过GO分类和KEGG富集性分析,将SSR序列分别归类于38个GO类别和103条通路。这些序列涉及了许多重要的生物功能和代谢途径,预示着这些潜在的标记可能与重要的生物功能有关,这些信息为毛葡萄分子标记的开发和应用奠定了基础。

关键词:毛葡萄;转录组;高通量测序;简单重复序列(SSR)

中图分类号: S663.101 文献标志码: A 文章编号:1002-1302(2017)20-0064-04

野生毛葡萄(Vitis quinquangularis Rehd)是葡萄科(Vitaceae)葡萄属(Vitis)真葡萄亚属(Euvitis)东亚种群的一个种,产于中国,是我国葡萄属东亚种群中分布最广的一个野生种,主要集中分布在广西的桂中、桂北、桂西的喀斯特地貌地区[1]。野生毛葡萄含有各种氨基酸、矿物质、多种维生素,还含有丰富的超氧化物歧化酶、白藜芦醇和花色素双糖苷,具有抗衰老、防癌、软化血管的作用[2]。大部分野生毛葡萄表现出抗逆性强、耐旱耐瘠、耐病性好、耐高温潮湿天气等优良特性,是南方“石漠化治理、生态重建”的优良树种,具有重要的经济价值[3]。

简单重复序列(simple sequence repeat,简称SSR)又名微卫星(microsatellites),是基因组中以少数几个核苷酸(一般为2~6个)为重复单元串联重复组成的长度为几十个碱基的核苷酸序列,其中最常见的是双核苷酸重复[4]。SSR标记广泛分布于各种生物基因组上,因其重复单元不同和重复数的差异,构成了SSR序列的多态性。SSR标记具有多态性丰富、保守性高、共显性遗传的特点,成为当前应用较广泛的分子标记之一。以往的SSR标记开发方法一般利用基因组文库杂交测序,花费时间长且效率低,不适于短时间内开发大量的标记用于遗传学应用研究。随着高通量测序技术的快速发展,即使一次性对上百万条DNA分子进行序列测定也不再是问题。目前SSR标记在葡萄遗传多样性、遗传图谱、品种鉴定和亲缘关系等方面已经得到了广泛的应用。

目前,国内外对于高通量测序后检测获得的大量SSR序列,主要分析SSR重复基元分布特征和重复序列组成规律,对SSR序列进行功能注释和功能分类的研究较少。此外,对葡萄进行种质资源和亲缘关系分析是利用已知或通用的SSR,没有进一步筛选和扩展SSR分子标记[5-6]。本研究数据来源于毛葡萄叶片的转录组数据,转录组SSR源自基因组编码可表达的序列,直接与功能基因相关,保守程度更高,转移概率较大。研究含有SSR的转录组序列信息,有利于获得SSR序列相关功能注释信息,从而获得更有针对性的SSR分子标记,以便更有效地为基因定位、遗传多样性研究及分子育种提供有效手段。

1 材料与方法

1.1 材料

植物材料为毛葡萄五峒-1,生长于广西壮族自治区河池市都安瑶族自治县高岭镇五峒村,树龄10年,生长旺盛,叶片生长状况良好,果实产量高,经调查与试验发现其对多种病害高抗或免疫。采集样品后用液氮速冻,并转移至-80 ℃保存备用。

1.2 方法

1.2.1 野生毛葡萄测序 采取野生毛葡萄的嫩叶并提取总RNA,送到北京诺禾致源生物信息科技有限公司进行文库构建和RNA高通量测序,测序平台为Illumina HiSeqTM 2000,每个样品的测序量约为4.75Gb。

1.2.2 测序数据的组装 对测序后得到的原始数据进行质量分析,去除重复、含接头、测序质量低的reads,获得clean reads。使用短序列组装软件Trinity[7]进行转录组从头组装,首先将含有一定长度区域重叠的reads连成更长的片段,然后通过reads重叠关系得到组装片段的contig,再将reads比对回contig,再通过paired-end reads来确定来自同一转录本的不同contig以及这些contig之间的距离,将这些contig连在一起,最后得到两端不能再延长的序列,即为unigene。

1.2.3 SSR位点的筛选 利用MISA软件在所有unigene中搜索SSR位点,设置二核苷酸重复次数最少为6次,三核苷酸重复次数最少为5次,四核苷酸、五核苷酸和六核苷酸重复次数都设置为至少4次。

1.2.4 功能注释 利用BLASTx将含有SSR的unigene序列与GenBank中的无冗余(Nr)蛋白质序列数据库(non-redundant protein sequence database in GenBank)、Swiss-Prot(经过注释的蛋白质序列数据库)、京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,简称KEGG)和同源蛋白质簇(cluster of orthologous groups of proteins,簡称COGs)数据库的优先级顺序进行比对(E值<10-5),获取最高序列相似性的蛋白,从而获得该unigene的蛋白功能注释信息。根据Nr注释信息,使用Blast2GO软件[8]进行GO注释,得到每个含有SSR的unigene的GO信息后,用WEGO软件[9]进行GO功能分类统计。endprint

2 结果与分析

2.1 转录组测序和组装

通过Illumina HISeqTM 2000平台测序,总计产出 56 374 280 条reads,去除低质量的和含有接头的reads以后,得到 53 697 490 条clean reads,共计5 369 749 000个核苷酸(nucleotides,简称nt),GC含量45.52%、Q20(在高通量测序中,每测1个碱基会给出1个相应的质量值,用来衡量测序准确度。碱基的质量值为13、20、30时,错误率分别为5%、1%、0.1%。Q20则表示质量值≥20的碱基所占百分比)为9563%。利用Trinity软件对这些reads进行组装得到35 238条unigene,平均长度为1 081 nt,N50[将所有unigene从长到短排序,并依次累加长度,当累加片段长度达到总片段长度(所有unigene 的长度)的50%时,对应那个片段的长度即为N50]为1 735 nt。长度大于1 000 nt的unigene有13 651条,占全部unigene的38.74%。这些数据说明,本研究中转录组文库的测序和组装结果都较好,可以进行后续生物信息学研究。

2.2 SSR分析

利用MISA软件在毛葡萄的35 238条unigene中搜索发现3 571条unigene序列含有SSR,占unigene序列总数的 10.13%,共搜索到4 428个SSR位点,平均每8.6 kb长度出现1个SSR,其中包含2个及2个以上SSR的unigene共有576条,含有SSR序列的unigene序列平均长度为1 684 nt,大于总unigene的平均长度,其中大于1 000 nt的序列数为 2 419 个。从图1的分布特征来看,含有SSR的序列分布较均匀,与总unigene的分布规律类似,说明SSR是随机分布的。由表1可知,二核苷酸和三核苷酸重复类型的SSR数量最多,其中二核苷酸1 906个,三核苷酸1 762个,而五核苷酸、六核苷酸重复类型在毛葡萄轉录组序列中数量较少,分别仅有165、201个,除此之外,不同核苷酸的重复次数也有很大的变化。在检测到的SSR中出现频率最高的5类基序为AG/CT(1 425个)、AAG/CTT(552个)、AT/TA(345个)、ATC/ATG(247个)、AGC/CTG(235个)。对上述SSR分布特征进行分析有助于开展毛葡萄及其同属物种的通用性标记开发和遗传图谱构建的研究。

2.3 功能注释

为了预测含有SSR的unigene功能,分别将unigene与Nr、Swiss-Prot、COG、KEGG等生物学数据库进行比对,通过BLAST搜索比对可知,共有3 197条unigene获得了基因注释,占所有unigene的86.06%,有518条unigene(13.94%)未被注释(表2),这些未被注释的基因被认为可能是新基因。

将所有含有SSR的unigene基因与COG、GO数据库比对进行功能注释与分类,有1 798条unigene被注释到25个COG类别中(图2),其中一般功能基因是最大类别,包含467条unigene,占被注释unigene总数的25.98%;其次是信号转

导机制类,包含313条unigene(占比为 17.41%);其余依次为转录类(263条,占总数的14.63%),以及翻译后修饰、蛋白质翻转、分子伴侣类(235条,占总数的13.07%)。

在已经得到的Nr注释信息基础上,通过Blast2GO数据库获得毛葡萄含有SSR的unigene的GO分类信息,共有 1 669 条unigene得到GO注释。在GO分类体系中,生物学过程、细胞组分和分子功能这3个大的类别又被划分为详细的38个小的类别,其中“代谢过程”(1 050条,占比为 62.91%)、“细胞过程”(1 026条,占比为61.47%)和“结合”(977条,占比为58.54%)这3个类群占了主要部分,而“运动”(1条)、“胞外区”(1条)和“节律过程”(3条)仅有非常少的基因归入,在细胞组件大类中缺少了病毒和病毒核心的部分,在分子功能大类中缺少了受体活性的相关序列。这一分类结果显示的含有SSR的unigene序列基因表达谱的总体情况见图3。

2.4 代谢通路分析

对野生毛葡萄叶片的转录组进行KEGG分析发现,有789条unigene被注释到KEGG数据库中,分布于103条已知的通路中。注释序列数量较多的5个通路分别是代谢途径(170条,ko01100)、次生代谢产物的生物合成(75条,ko01110)、植物激素信号转导(42条,ko04075)、剪接体(35条,ko03040)和内质网中的蛋白质处理(28条,ko04141)(表3)。新陈代谢途径和次生代谢产物的生物合成涉及的序列最多,这2个途径是生物体内最重要的代谢途径,往往涉及比较多的基因。

3 结论与讨论

基于高通量测序技术的转录组学研究是一种高效、可靠的发掘功能基因的手段,Illumina高通量测序的数据量大、速度快、成本低、效率高,基于转录组数据信息进行SSR分子标记开发是一种经济有效的方法。本研究在35 238条unigene中共搜索到4 428个SSR位点,二核苷酸、三核苷酸重复类型的SSR数量最多,其中二核苷酸1 906条(43.04%),三核苷酸1 762条(39.79%)。前人的研究结果显示,有些物种二核苷酸占优势,另一些物种三核苷酸占优势,这种现象的出现与MISA搜索时相关参数的设置有很大的关系[10]。

结合生物信息学分析方法对毛葡萄unigene中含有SSR的基因序列与Nr、Swiss-Prot、COG、KEGG数据库进行比对,进行序列相似性比对和功能注释分析。在KEGG分析中,有789条unigene被注释到103条代谢通路。这些标记如果能够用于感兴趣的性状定位,则可以赋予它们对应的基因转录产物的相关信息,此外,在对这些数据库的分析中,含有SSR的基因转录产物在各个功能组中的注释比例和所有基因转录产物在各个功能组中的注释比例非常接近,说明SSR并没有集中在某一类功能的基因转录产物的分布偏好,而是随着某一类功能的基因转录产物的增加而增加。endprint

在毛葡萄叶片转录组中这些SSR信息为开发基因内部SSR标记奠定了基础,而且对含有这些SSR的序列进行注释为后续研究提供了相关基因信息。在注释中笔者发现,这些序列涉及了许多生物功能和重要代谢途径,预示着这些潜在的标记可能与重要的生物功能有关[11]。这些潜在的标记还将丰富葡萄的分子标记类型,由于其来自于基因内部,所以具有很好的可转移性,甚至可以广泛地应用于葡萄属种间的更多物种。在遗传多样性研究中,这些SSR标记将帮助研究者了解样本中相关基因资源的多样性。在基因定位上,一旦某一标记与感兴趣的性状相关,此标记所在的基因以及基因相关信息会帮助研究者更快地了解此基因与表现型的内在联系。因此,本研究结果对葡萄属植物的遗传学研究具有重要意义。后续可对这些SSR序列进行引物设计和扩增检测,筛选出多态性好、扩增稳定、条带清晰的引物,为进一步开发新的SSR标记奠定基础。

参考文献:

[1]林 玲,張 瑛,卢 江,等. 中国葡萄属野生资源毛葡萄的研究与利用进展[J]. 中外葡萄与葡萄酒,2015,2(2):66-69.

[2]涂 佳,邓学良,周文化,等. 野生毛葡萄常规营养成分和原花青素含量分析[J]. 食品与机械,2010,26(2):82-85.

[3]邹 瑜. 野生毛葡萄种质资源及利用研究进展[J]. 广西农业科学,2008,39(5):664-667.

[4]尹 玲,张 晨,向 江,等. 我国新育成葡萄品种SSR指纹图谱的建立[J]. 果树学报,2015,32(3):366-373.

[5]Jiang B,Xie D,Liu W,et al. De novo assembly and characterization of the transcriptome,and development of SSR markers in wax gourd (Benicasa hispida)[J]. PLoS One,2013,8(8):e71054.

[6]郭 磊,上官凌飞,房经贵,等. 葡萄EST-SSR标记的开发及其应用[J]. 南京农业大学学报,2011,34(4):23-30.

[7]Haas B J,Papanicolaou A,Yassour M,et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis[J]. Nature Protocols,2013,8(8):1494-1512.

[8]Conesa A,Gítz S,García-Gómez J M,et al. Blast2GO:a universal tool for annotation,visualization and analysis in functional genomics research[J]. Bioinformatics,2005,21(18):3674-3676.

[9]Ye J,Fang L,Zheng H,et al. WEGO:a web tool for plotting GO annotations[J]. Nucleic Acids Research,2006,34(Web Server issue):W293-W297.

[10]Wei W,Qi X,Wang L,et al. Characterization of the sesame (Sesamum indicum L.) global transcriptome using Illumina paired-end sequencing and development of EST-SSR markers[J]. BMC Genomics,2011,12(1):451.

[11]李小白,向 林,罗 洁,等. 建兰转录本的微卫星序列和单核苷酸多态性信息分析[J]. 浙江大学学报(农业与生命科学版),2014,4(4):463-472.endprint