基于人参果转录组测序的SSR和SNP特征分析

2020-02-25 09:44:06陈姝欣朱浩东杨梦思陶连德钟启文杨世鹏
西南农业学报 2020年11期
关键词:人参果基元核苷酸

陈姝欣,朱浩东,杨梦思,陶连德,钟启文,杨世鹏

(青海大学农林科学院,青海省蔬菜遗传与生理重点实验室,青海大学,青海 西宁 810016)

【研究意义】人参果(Solanummuricatum)又被称为香瓜茄,是一种原产于南美洲的多年生茄科草本植物。成熟后的人参果果皮底色为玉白色或者金黄色,大部分的人参果皮上有紫色花纹,果肉金黄[1],是一种浆果类作物,不仅可以作为一种观赏植物,且味道清甜,无酸涩感,微量元素极其丰富,特别是硒[2],而且富含维生素,对于其他水果而言具有相对较高的营养价值。【前人研究进展】目前国内未见人参果分子领域研究的报道,相关分子标记的研究还尚在标记开发的阶段。SSR是一种微卫星序列,主要由一到六个核苷酸的重复构成[3]。其两端的序列是两段非常保守的序列,若将这2个侧翼序列作为这段微卫星序列的引物,就可扩增出中间的重复序列,而这段微卫星序列重复单元之间的数目通常是具有较大差异的,存在着丰富的多态性[4]。SNP标记和SSR标记的区别在于SNP是指单个碱基的变异,例如碱基的缺失、转换等。最近几年高通量测序技术发展十分昌盛,这也使得SSR及SNP技术发展迅猛,这2种分子标记技术由于其方便快捷的特点,已经被广泛地应用于亲缘关系、指纹图谱的构建等多个领域。【本研究切入点】我国目前仅以大果、小果、长果、圆果等对人参果进行简单区分,命名不够科学,且常与用特定模具进行定形后的西葫芦人参果混淆,阻碍了人参果的推广以及种质资源的开发。因此,分子标记的开发对于完善人参果遗传图谱的构建和品种分类有重要意义。【拟解决的关键问题】本文主要是对人参果的转录组通过MISA软件[5]检索SSR位点并用GATK[6]进行SNP的识别, 通过分析其SSR位点和SNP位点的组成和特征, 从而完善人参果的分子标记, 为今后人参果利用分子标记进行品种鉴定奠定基础。

1 材料与过程

1.1 实验材料

本研究实验材料取自青海省农林科学院园艺所实验温室,选取室内苗龄两年的扦插人参果苗,将未开花、正在开花、已经结果但果实未成熟、已有成熟果实设置为4个处理,采集处于不同时期的人参果苗的叶片各3份液氮冷冻,将材料放置于-80 ℃环境下保存。

1.2 实验方法

1.2.1 RNA的提取 用Trizol法[7]提取人参果总RNA,经过电泳检测后利用天根TGem Spectrophotomoter检测提取的总RNA的含量是否符合转录组测序的标准。

1.2.2 转录组测序及数据组装 提取的人参果叶片总RNA经脱氧核糖核酸酶I (DNase I )处理后,用含oligod dt的磁珠使mRNA富集、纯化。利用mRNA片段化反应体系将mRNA打断成短片段,以得到的短mRNA为模板合成1st Strand cDNA (cDNA第一链),再以第一链为模板加入合成序列所需缓冲液、无核苷酸酶水、第二链cDNA合成酶混合物,从而合成第二链,将得到的cDNA纯化回收修复其粘性末端,在其3'端加上多聚(A)尾巴,且连接测序接头。使用电泳技术对序列长度进行筛选,通过PCR扩增序列后利用Illumina Hiseq 2500精确测序平台对所制备的文库测序。过滤人参果叶片样品的测序原始数据,以除去包含接头或低质量的序列,得到干净序列。对所有干净序列通过Trinity(https://github.com/trinityrnaseq/trinityrnaseq/wiki)进行组装拼接,将拼接得到的所有序列中最长的序列作为基因组数据库用于后续分析。

1.2.3 SSR和SNP的获取 对提取所得人参果总RNA进行测序得到人参果的转录组数据,通过利用MISA软件搜索人参果转录组中的SSR位点。同时运用STAR[8]比对软件对所得Reads和Unigene序列比对,并利用GATK的SNP识别流程[9],识别SNP位点。

2 结果与分析

2.1 RNA质量检测

对人参果的RNA进行提取,利用电泳对提取的RNA进行初步检测,能明显看到28S、18S和5.8S的条带。继而用TGem Spectrophotomoter检测RNA纯度,得到的RIN值均符合测序所需纯度要求,且无肉眼可见的蛋白质以及其他杂质等。

2.2 转录组数据组装结果及统计

通过拼接与组装,共得到68 891条Unigene,序列总长度为53 356 976 bp,平均长度为775 bp。在200~2000 bp分布着绝大部分的序列,这个长度范围的序列占总序列的90.84 %。随着Unigene长度的逐渐增加,其占有数量呈梯度下降之势,其中长度范围在200~300 bp的序列数量居多,占总数的34.85 %,其余按占有率依次向排列是300~500、500~1000、1000~2000以及2000 bp以上序列,数量分别为24 010、16 547、12 488、9534和6312条,占所有Unigene的比例分别为34.85 %、24.02 %、18.13 %、13.84 %和9.16 %(表1)。

表1 人参果基因组数据库长度统计结果

2.3 SSR特征分析

利用MISA软件在68 891条Unigene中搜索到5282个SSR位点,其中完整型SSR共有4947条,而复合型SSR共有335条。完整型SSR的数量约是复合型的15倍,SSR的出现频率为7.18 %,分布密度为1/6148 bp,即平均约6148 bp就会出现1个位点。搜索获得的SSR序列总长度为87.963 kb (0.27 %),SSR序列所占的比例不到整个人参果转录组序列的1 %。通过对搜索到的SSR进行长度统计,有60.53 %的SSR长度在10~14 bp,SSR的数量随着长度的增加急剧下降,分布在15~19、20~29、30~49、50~100 bp的SSR分别占比26.96 %、6.47 %、2.37 %、2.35 %,只有1.33 %的SSR的长度超过100 bp(图1)。

图1 搜索得到的SSR长度统计结果Fig.1 SSR length statistical results

对SSR核苷酸重复次数(图2)进行统计,其中单核苷酸重复的SSR共2908条 (58.78 %) ,双核苷酸重复的SSR共805条 (16.27 %) ,三核苷酸重复的SSR共1184条 (23.93 %) ,四核苷酸重复的有33条(0.67 %)、五核苷酸重复的有2条(0.04 %)、六核苷酸重复的有15条 (0.30 %)。由此可见人参果的SSR基元类型中,单核苷酸占一半以上,二核、三核苷酸重复的SSR占比总和也不及单核苷酸的占比。仅有50个SSR重复基元的数量大于3。

图2 搜索得到的SSR重复种类统计结果Fig.2 Statistical results of SSR repeat types

在单核苷酸重复类型中,A/T类型有2887个(99.28 %),C/G类型仅有21个(0.72 %);在二核苷酸重复类型中,有398个属于AG/CT类型,这个数量占此重复类型总量的49.44 %,占总二核苷酸重复类型数量的一半。CG/CG类型的仅有2个,占比0.25 %,AT/AT和AC/GT分别占总量的34.14 %和16.15 %;三核苷酸重复类型共有18种,最多的是AAG/TTC数量为235个,占到总数的19.85 %,其次是AAC/TTG(113个),最少的是CGC/GCG(16个);四核苷酸重复有18种,最多的是AAGA/TCTT(6个),其他种类个数均较少,1和2个的占比之和达到了58.82 %;五核苷酸重复有2种,每种分别有1个;六核苷酸重复有15种,每种的数量和五核苷酸重复一样,也是1个。

人参果转录组中SSR单元重复次数主要分布区间为1~25次,在此区间内又以6~10次的重复为主,此类重复基元共有2604个(52.64 %)SSR位点,其中单核苷酸类型的SSR有1438个,占重复次数为6~10的SSR数量的55.22 %,其他类型的SSR数量趋势随着其核苷酸基元数量的增加而递减;其次为11~15次的重复,共有1271个SSR位点,占总重复单元的25.69 %,单核苷酸重复类型的SSR数量为1243个,占11~15次重复的97.78 %;1~5次的重复有845个SSR位点,占SSR总数的17.08 %;16~20次的重复共有176个SSR位点,占SSR总数的3.56 %;20次以上的重复次数最少,仅有51个SSR位点,且这51个SSR均是单核苷酸的重复。由表2可见,当重复次数大于5时,SSR的基元均以单核苷酸为主,当重复次数小于5时,三核苷酸是主要的重复基元。

图3 二核苷酸重复类型数量统计Fig.3 Statistics of dinucleotide repeat types

表2 SSR重复基元类型统计结果

2.4 SNP结果分析

对得到的68 891条序列进行了SNP位点搜索,成功搜索到315 132个SNP位点,SNP的分布密度为1/103 bp,即平均约103 bp就会出现1个SNP位点。在搜索得到的SNP位点中,属于转换类型的有192 575个,而属于颠换类型的有120 621个。A/G在所有变异类型中所占的比例最高,为总量的36.01 %,C/T占总量19.24 %,位居其次。观察可得,比例较高的2种变异类型A/G和C/T均属于转换类型,而剩下的4种颠换类型所占的比例均低于15 %,其中A/T占总数的13.08 %,G/T占总数的12.14 %,A/C占总数的12.14 %,C/G最少,仅占总数的7.39 %。在所占比例中,转换类型所占的比例61.10 %显著大于颠换类型的比例38.27 %,故人参果的SNP变异类型以转换类型为主。

3 讨论与总结

在人参果的转录组结果中有68 891条Unigene,其中有15 846条Unigene含有SSR位点,共有5282个SSR位点在搜索后被发现,出现频率为7.18 %,低于油茶(33.58 %)[9]、南酸枣(25.52 %)[10]、香椿(19.91 %)[11]、云南金花茶(19.63 %)[12]、黑枸杞(18.98 %)[13]、香蕉(18.53 %)[14]、油梨(17.05 %)[15]、马蓝(16.49 %)[16]、太子参(8.87 %)[17],比较接近于山地虎耳草的SSR位点出现频率(7.25 %)[18],高于马尾松(1.06 %)[19]、洋葱(5.10 %)[20]等植物。说明人参果的SSR出现频率并不高。

图4 SNP变异类型统计结果Fig.4 Statistical results of variation type of SSR

在人参果SSR基元重复类型中,单核苷酸重复(58.78 %)是人参果重复类型中占比最多的一种,比例为23.93 %的三核苷酸重复仅次于单核苷酸重复。这与瓠瓜[21]、辣椒[22]和红松[23]类似,而与党参[24]、野三七[25]等以二核苷酸为主要重复类型的植物不同。AG/CT在SSR二核苷酸重复类型中有398个,是数量最多的类型,其次为AT/AT(275个),AC/GT相对而言较少,有130个,而CG/CG重复出现频率极低,仅有2个,这与蜡梅[26]、野三七[25]和李府贡枣[27]等植物的二核苷酸重复类型结果一致,AAG/CTT是人参果转录组中数量最多的三核苷酸重复,这符合了双子叶植物的普遍规律[28]。1~25次之间是SSR基元重复次数的分布范围,以6~10次重复为主,其次为11~15次的重复,1~5次的重复有845个SSR位点,即有17.08 %的SSR单元的重复次数在1~5;16~20次的重复共有176个SSR位点,占SSR总数的3.56 %;20次以上的重复次数最少,仅有51个SSR位点,且以单核苷酸为主。这与宝巾花[29]、冬虫夏草[3]等植物基本一致。

在测序所得的转录组中共找到SNP位点315 132个,其分布密度为1/103 bp。SNP位点中转换类型有192 575(61.49 %)个,颠换类型有120 621个(38.51 %)。经对比发现转换类型的比例(61.49 %)几乎达到了颠换类型的比例(38.51 %)的1.6倍,故人参果SNP变异类型以转换类型为主,这与棒腺虎耳草[30]、盾叶薯蓣[31]、青杨[32]等结果一致。A/G占的比例在所有变异类型中最高,为总量的36.01 %,其次占总量19.24 %是C/T,而剩下的4种颠换类型所占的比例均低于15 %,其中A/T占13.08 %,G/T占总数的12.14 %,A/C占总数的12.14 %,C/G最少,仅占总数的7.39 %。

人参果转录组中得到的SNP分子标记的发生频率比SSR高很多,表明单核苷酸的变异在人参果的基因组中更容易发生。本次对人参果转录组的分析说明SSR和SNP分子标记对于研究人参果品种有一定意义,但人参果目前SSR标记出现频率较低,数量不够丰富,但此类SSR分子标记将对今后的人参果研究奠定强有力的基础。

猜你喜欢
人参果基元核苷酸
关注基元反应的考查
高中数理化(2023年6期)2023-08-26 13:28:24
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
肝博士(2022年3期)2022-06-30 02:48:28
偷吃人参果
Acknowledgment to reviewers—November 2018 to September 2019
吃货妈妈
万年人参果
中华家教(2018年7期)2018-08-01 06:32:32
人体细胞内存在全新DNA结构
科学导报(2018年30期)2018-05-14 12:06:01
偷吃人参果
Numerical Modeling and Analysis of Gas Entrainment for the Ventilated Cavity in Vertical Pipe*