油茶转录组测序与SSR特征分析

2019-01-04 06:05许彦明陈永忠李志钢王湘南陈隆升彭邵锋李美群彭映赫
西南林业大学学报 2018年6期
关键词:基序核苷酸油茶

张 震 许彦明 陈永忠 李志钢 王湘南 陈隆升 彭邵锋 马 力 王 瑞 李美群 唐 炜 彭映赫

(湖南省林业科学院,国家油茶工程技术研究中心,湖南 长沙 410004)

油茶 (Camelliaoleifera) 是我国特有的木本油料树种,主要分布在长江以南各省份,因为其独特的食用价值和保健价值,备受人们青睐。它与油棕 (Elaeisguineensis)、油橄榄 (Oleaeuropaea) 和椰子 (Cocosnucifera) 并称为世界四大木本油料树种,被誉为 “东方橄榄油”。我国油茶育种工作始于20世纪60年代中后期,陆续选育出众多的农家良种、优良家系和优良无性系,为提高油茶产量,促进油茶产业发展奠定了坚实的基础[1]。目前我国茶油年产量仅有50万t,难以满足国内市场的需求。因此,基于现代生物技术开展油茶分子育种、种质资源多样性、遗传性研究,对培育高产、高含油率的品种具有重要意义[1]。简单重复序列标记 (Simple Sequence Repeat,SSR) 具有共显性、效率高、成本低、灵活性强等优点,被广泛应用于分子育种、遗传多样性、种质资源进化及亲缘关系等多项研究。

传统的SSR分子标记开发技术主要有AFLP、RAPD、SRAP、ISSR等,基于这些技术,油茶科技工作者已经开展了相关的研究工作,包括引物筛选、扩增,油茶亲缘关系、遗传多样性研究等内容,并取得了一定的成果[2-9]。然而,利用传统方法开发SSR分子标记往往存在效率低,周期长,且成本高等问题。转录组测序技术不仅能够获得丰富的转录组数据,而且具有低成本、时间短等优势,能够很好的解决这些难题[10]。目前一些物种已经利用转录组测序技术进行SSR分子标记的开发[11-14],油茶方面也开展了相应的研究。Jia等利用高通量测序技术开发出15对多态性较好的SSR引物,用于分析不同油茶品种间的遗传聚类、亲缘关系[15];李海波等利用Illumina测序技术筛选出20对扩增效率高、稳定性好的多态性SSR引物对56个 “长林”、“龙林” 系列的油茶品种进行聚类分析[16];史洁利用Roche 454测序技术对浙江红花油茶进行测序,共获得11 344个SSR,并对SSR的基本特征、多态性、可用性进行研究[17];温强等利用Roche 454测序技术筛选出18对SSR引物对浙江红花油茶进行遗传多样性研究[18-19]。目前基于转录组测序技术开发的普通油茶SSR引物数量还十分有限,难以满足油茶遗传多样性、分子育种等研究的需求。因此,本研究对普通油茶转录组Unigene中的SSR位点的数量、频率、基序类型,基序长度等特征进行分析,以期能够为油茶分子标记开发、分子辅助育种、遗传多样性、遗传资源鉴定、保护等研究提供参考。

1 材料与方法

1.1 转录组数据来源

实验材料来自湖南省长沙市天际岭试验林场,选择生长健壮、无病虫害的优良单株进行采样,将采集好的油茶叶片用清水洗净后迅速投入-80 ℃液氮速冻。样品送至昆明云初生物科技有限公司,mRNA分离、纯化后进行cDNA文库构建,利用Illumina HiSeqTM 2000双端测序仪进行上机测序。双端测序将每个cDNA片段分别从5′ 端和3′ 端进行测序,从而在测序后得到两端的reads序列,每个read序列长约为150 bp,共获得5 877 182 226个raw reads。利用perl script去除raw reads中含有接头的、无法确定碱基比例大于5%及一些质量值Q ≤ 20的碱基数占整个序列的50%以上的低质量序列,共获得575 534 790个干净序列 (clean reads)。通过Trinity软件对Clean reads进行De Novo组装[20]:1) 利用Trinity软件对包含overlap的序列片段进行处理,将其连接成比自身更长的序列片段,然后通过组装,获得不含未知核酸序列的片段,即Contig。2) 将reads再次比对回Contig,通过paired-end reads确定来自同一转录本的不同Contig及这些Contig之间的距离,利用Trinity软件将这些Contig连在一起,得到两端不能再延长的序列,即Unigene。3) 通过TGICL序列聚类软件对这些Unigene进行进一步序列拼接和去冗余处理,得到不含N的序列,共获得311 283条非冗余Unigene序列。

1.2 实验方法

1.2.1转录组SSR位点搜索

使用MISA (http://pgrc.ipk-gatersleben.de/misa/Misa.html) 对转录组Unigene序列进行搜索。搜索条件为:单核苷酸 (mononucleotide)、二核苷酸 (dinucleotide)、三核苷酸 (trinucleotide)、四核苷酸 (tetranucleotide)、五核苷酸 (pentanucleotide)、六核苷酸 (hexanucleotide) 的最小重复次数分别设置为10、6、5、5、5、5。

1.2.2统计方法

利用Excel软件进行数据统计与分析。发生频率计算方式为含SSR的Unigene数量/总Unigene数量,出现频率计算方式为SSR数量/总Unigene数量,平均距离是指每个SSR位点之间相隔的距离,计算方式为总序列长度/SSR数量。

2 结果与分析

2.1 油茶转录组中SSR位点的频率和分布密度

油茶转录组测序共获得575 534 790条干净序列,利用TGICL聚类软件进行De Novo组装,经过序列拼接和去冗余处理,共获得311 283条Unigene序列,总长度约为1.5 × 108bp,GC含量为39.17%,平均长度为497.67 bp,具体组装信息详见表1。

基于MISA搜索标准,在311 283条Unigene序列中共发现包含1~6重复基元的SSR位点104 515个,分布在80 724条Unigene中,发生频率 (含SSR的Unigene数量与总Unigene数量的比值) 为25.93%。其中,其中,61 807条Unigene含有单个SSR位点,18 917条Unigene含有2个以及2个以上SSR位点,8 008条Unigene含有复合型SSR位点。油茶转录组中SSR位点的出现频率 (SSR数量与总Unigene的数量的比值) 为33.58% (表2)。油茶转录组SSR位点平均距离为1.48 kb。

基于Weber的分类标准,SSR主要包括精密型 (perfect repeat sequences)、非精密型 (imperfect repeat sequences) 和复合型 (compound repeat sequences) 3种类型[21]。104 515个SSR位点中有96 507个 (92.34%) 精密型SSRs,700个 (0.67%) 非精密型SSRs和7 308个 (6.99%) 复合型SSRs。在精密型SSRs中,单核苷酸和二核苷酸是主要的重复类型,共占SSR总数的80.41%,其中,单核苷酸重复所占的比例最大,为48.48%,二核苷酸重复次之,为31.93%,四、五、六核苷酸重复的数量较少,总计2.60%。从长度看,核苷酸重复类型平均长度为18.66 bp。单核、二核、三核、四核、五核、六核苷酸重复平均长度分别为14.16、19.33、19.16、21.72、26.16、36.51 bp,具有一定的差异性。从SSR分布密度看,不同核苷酸重复类型的平均分布距离具有显著差异,总体上呈现出随出现频率的增加而缩短的趋势 (表3)。

表2 油茶转录组中SSR搜索结果Table 2 Searching results of SSR in transcriptome of C.oleifera

表3 油茶转录组中SSR的数量、频率和平均距离Table 3 The number,frequency and average distance of SSR in transcriptome of C.oleifera

2.2 油茶转录组中精密型SSR基元类型和比例

油茶转录组精密型SSRs中 (合计96 507个)共发现812种基元类型,单核、二核、三核、四核、五核、六核苷酸重复分别有4、12、60、135、207、394种 (表4)。单核甘酸中A重复数量最多,为25 014个 (25.92%),其次是T重复,24 394个 (25.28%)。二核苷酸中主要的重复基元是AG (6 379个,占6.61%)、GA (5 741个,占5.95%)。三、四、五、六核苷酸中最多的重复基元分别是AAT (615个,占0.64%)、AAAT (319个,占0.33%)、TTTTC (25个,占0.03%)、TTTTTG (8个,占0.01%)。

表4 油茶转录组SSR重复基元序列特征Table 4 Sequence features of SSR motifs in transcriptome of C.oleifera

从核苷酸重复基序类型来看,单核甘酸中的A/T重复基序为主要的类型 (49 408个,占51.20%)。二核苷酸中AG/CT为主要类型,共11 112个,占总SSR的11.51%,其次是AT/TA重复基序 (8 613个,占8.92%) 和AC/GT重复基序 (1 204个,占1.25%)。三核苷酸中AAT/ATT (989个,占1.02%) 出现频率最高,其次是ACC/GGT (505个,0.52%) 和ATC/ATG (260个,0.27%)。四核甘酸中AAAT/ATTT占绝对优势,其次是AAAG/CTTT。五核甘酸中以AAAAT/ATTTT为主 (图1)。

2.3 油茶转录组中SSR重复次数和基序长度

作为评价其可用性的重要依据,SSR多态性通常受到基元重复次数和基序长度的影响[22]。从单次重复次数来看,油茶转录组中精密型SSRs (合计96 507个) 重复单元的重复次数主要集中在10次以上。其中,比例最高的是10次重复 (共15 751个SSR,占16.32%),其次是11次重复 (共10 901个,占11.30%) 和6次重复 (共10 811个SSR,占11.20%)。总体上,除单核甘酸外,其他核苷酸重复次数主要集中5~10低次重复。从核苷酸类型看,单核甘酸中出现频率最高的重复次数为10次,为13 315个。二核苷酸中6次重复的SSR数目最多,为8 070个。三核、四核、五核和六核苷酸中,不同重复次数出现频率的趋势基本相同,即SSR数量随着重复次数的增加而逐渐减少 (表5)。

图1油茶转录组中SSR基元类型
Fig.1 Type of SSR inC.oleiferatranscriptome

表5 油茶转录组中不同重复次数的SSR数量Table 5 The number of SSR with different repeats in transcriptome of C.oleifera

SSR基序长度对于其多态性的高低具有直接的影响,通常认为长度在20 bp以上的SSR的多态性较高;长度在12~20 bp的SSR的多态性中等;低于12 bp的SSR多态性极低[22]。基于油茶转录组测序获取的104 515个SSR位点的长度分布在10~175 bp之间,平均长度18.66 bp,不同长度的SSR基序分布情况如图2所示。大部分基序长度集中在12~20 bp,共有54 044个,占总数的51.71%;其次是21~30 bp,共有18 309个,占总数的17.52%。超过20 bp的SSR数量占总数的28.15%,低于12 bp的SSR数量占总数的20.14%。结果表明油茶转录组SSR理论上具有中等以上的多态性,预期能够进行相关目的引物的设计与开发,用于油茶遗传多样性、遗传图谱绘制、分子辅助育种等方面的研究。

图2油茶转录组中SSR基序长度
Fig.2 Length of SSR inC.oleiferatranscriptome

3 结论与讨论

基于油茶转录组测序共获得311 283条Unigene,利用MISA进行搜索,共发现104 515个SSR位点,出现频率为33.58%,高于油棕22.60%、四球茶 (Camelliatetracocca) 23.79%、茶树 (Camelliasinensis) 9.63%等物种[23-25]。油茶转录组SSR平均分布距离为1.48 kb,也高于油棕7.19 kb、四球茶2.07 kb、茶树3.68 kb等物种[23-25]。无论是发生频率还是平均分布距离,油茶转录组SSR都相对较高,表明油茶转录组中的SSR种类和数量都比较丰富。此外,和其他物种相比,油茶转录组SSR的平均分布距离和出现频率也存在一定的差异。一方面可能是因为物种的特异性,另一方面可能是不同的搜索参数,搜索工具以及测序技术引起的。

即使相同的物种,其SSR信息特征也可能因为测序技术、转录组测序数据库大小、原始序列等因素出现一定的差异。和前人所做的关于油茶SSR的分析结果相比,此次油茶转录组SSR位点的出现频率、平均距离等指标均呈现出一定的差异。史洁等[17]分析得出油茶基因组中的SSR平均距离是1.85 kb。温强等[19]利用454测序方法得出油茶SSR的发生频率在3.10%~6.70%之间,平均距离在0.63~0.95 kb之间。李海波等[16]研究发现油茶转录组中SSR位点的发生频率为26.75%,平均距离为2.33 kb。这可能是因为不同的测序技术和测序材料造成的。此次测序所用材料主要是湘林系列油茶的叶片,测序方法为Illumina测序技术,而温强等[19]人将浙江红山茶 (Camelliachekiangoleosa) 和短柱茶 (Camelliabrevistyla) 的花芽作为测序材料,测序方法为454测序法,李海波等[16]选择的材料是长林18号的幼嫩叶片,史洁等[17]利用Roche 454测序仪对树龄为100 a的浙江红花油茶古树的叶片和花芽进行测序。

油茶转录组精密型SSRs中以单核苷酸和二核苷酸重复为主,占SSR总数的80.41%。这与先前多个物种的研究结果一致,例如油棕[23]、厚朴 (Magnoliaofficinalis)[22]等物种。根据前人研究,单核甘酸中A/T重复的数量居多,植物中的二核苷酸以AG/CT居多,其次是AT/TA重复[26]。 此次研究发现,A/T、AG/CT、AT/TA分别是单核苷酸和二核苷酸的优势重复基元,这和前人研究结果一致。通常认为双子叶植物中最多的三核苷酸是AAG/CTT重复[19],然而此次研究发现油茶转录组中最多的三核苷酸类型是ATT/ATT,这和史洁、温强等人关于油茶的研究结果一致,初步分析这一特征是油茶区别与其他物种的特异性表现。温强等人的研究表明油茶中以二核苷酸为主,而此次研究发现油茶中的单核苷酸最多。造成这种差异可能有多种原因:研究中使用不同的搜索、评价标准,有的研究使用序列长度作为主要的搜索参数,有的研究把最小重复次数作为主要的评价标准;不同的测序技术、样品、原始测序数据大小均可能会造成同一物种的SSR信息出现一定的差异。此外,在利用转录组测序技术获得SSR的过程中,也存在序列突变的情况,这也可能会造成SSR搜索的过程中出现信息失真的情况。因此,迫切需要制定一个合理的、统一的SSR搜索检测参数。

SSR长度变化的情况能够直接反映SSR位点获得 (或失去) 重复单元的活跃程度,因而经常作为评价其多态性高低的重要指标[19]。此次研究发现长度位于12~20 bp之间的SSR共有54 044个,占总数的51.71%,表明本研究中油茶转录组SSR 理论上具有中等以上的多态性。可以重点利用这类SSR进行油茶分子标记的开发及遗传多样性等方面的研究。

传统SSR分子标记开发技术效率低,速度慢,且成本高,而转录组测序技术的出现能够低成本、快速、高效地开发大量的SSR标记,未来其有望成为开发分子标记的重要方法。油茶转录组中SSR位点数量多、类型丰富,多态性较高,可用性强,对于加速开发油茶SSR分子标记,开展油茶分子辅助育种、遗传性状分析评价、亲缘关系鉴定、特异资源保护等研究具有重要意义。

猜你喜欢
基序核苷酸油茶
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
带TRS基序突变的新型冠状病毒威胁更大
芥蓝Aux/IAA家族基因生物信息学与表达分析
鼠伤寒沙门菌小RNA GcvB 靶基因筛选和验证分析
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
Acknowledgment to reviewers—November 2018 to September 2019
日粮核苷酸对动物肠道健康和免疫功能的影响及其在养猪生产中的应用
油茶价值观的转变是发展油茶产业的一个关键
油茶芽苗嫁接育苗技术