基于李府贡枣转录组测序的SSR和SNP特征分析

2019-08-10 03:46周军永陆丽娟刘茂朱淑芳仇鹏辉孙其宝
江苏农业科学 2019年4期
关键词:转录组特征分析

周军永 陆丽娟 刘茂 朱淑芳 仇鹏辉 孙其宝

摘要:为了简单重复序列(simple sequence repeats,SSR)和单核苷酸多态性标记(single nucleotide polymorphism,SNP)开发等研究,以李府贡枣不同处理枣果实的转录组序列为基础,分析了转录组数据中SSR和SNP位点的分布。结果表明:转录组数据共获得了226 488条contig序列,其中有42 570条unigene在数据库中得到注释。利用鉴定简单重复序列的软件(MIcroSAtellite identification tool,MISA)进行SSR位点的搜索,共得到18 016个SSR位点,SSR位点的出现频率为0.43个/kb。SSR位点共包含164种重复基元,其中以A/T类型为主的单核苷酸重复所占的比例最高(6 942个,38.44%),其次是AG/CT类型为主的二核苷酸重复(6 113个,33.85%)和以AAG/CTT为主的三核苷酸重复(4 242个,23.49%),四核苷酸重复、五核苷酸重复和六核苷酸重复基本相同。在转录组得到的unigene中共发现SNP位点163 360个,发生频率为1/254 bp,6种单核普酸变异中以Transition类型的A/G和C/T发生频率最高,分别为总数的30.80%和30.49%;其他4种Transversion类型的SNP为C/G、G/T、A/C和A/T,分别占到总数的9.83%、978%、9.78%和9.32%。其中Transition类型显著高于Transversion类型,在转换类型中A/G和C/T发生频率基本一致,但以A/G发生频率略高。

关键词:枣;转录组;SSR;SNP;特征分析

中图分类号: S665.101  文献标志码: A  文章编号:1002-1302(2019)04-0051-04

枣(Ziziphus jujuba Mill.)具有重要的经济价值和生态价值,在我国栽培历史悠久,是许多省份和地区重要的经济林树种,枣产业成为当地的支柱产业之一。我国枣种质资源丰富、品种繁多,近年来国内外学者利用简单重复序列间扩增(inter-simple sequence repeat,ISSR)[1-2]、扩增片段长度多态性(amplified fragment length polymorphism,AFLP)[3]等分子标记技术在枣的品种分类、鉴别以及遗传多样性方面开展了相关研究工作。

简单重复序列是由1~6个碱基组成的简单串联重复序列,普遍存在于真核生物基因组[4],SSR按来源可分为有基因组SSR和转录组来源的SSR[5],与基因组SSR相比,转录组来源的SSR无须构建基因组文库等工作。SSR标记具有影响转录、基因调节、蛋白质功能以及基因组构[6-7],被认为是遗传学研究中最理想的分子标记手段之一[8],同时转录组来源的SSR反映了基因组的编码区域,直接获得物种基因表达信息,因此EST-SSR多态性可能与基因功能直接相关[9]。与常规的AFLP、随机扩增多态性DNA(random amplified polymorphism DNA,RAPD)、ISSR等分子标记相比,SSR标记具有数量丰富、分布广泛、共显性遗传、多态性丰富等特点,由于枣SSR标记开发较晚,目前SSR标记已被应用于枣指纹图谱构建、亲缘关系、遗传多样性分析等研究领域[10-11]。SNP标记是指基因组DNA序列中由于单个核普酸替换或较短片段的插入缺失所引起的多态性,以其分布广泛、稳定性强等优点已被广泛应用于的遗传分析领域,SNPs标记在苹果、西瓜、柑橘、葡萄、柿等作物中得到了开发和利用[12-13]。目前,在枣中开发了一些基因组SSR[14]和转录组SSR标记[15],分别在基因组和转录组水平上分析了枣微卫星的特点;而枣SNP研究处于标记发现阶段,研究报道较少。

本研究利用转录组测序技术对李府贡枣不同处理果实进行转录组测序和数据组装,通过分析其特征为SSR和SNP标记的开发和利用提供生物信息学基础,同时为枣遗传结构和遗传分化以及构建遗传图谱奠定基础,也将为其功能基因的开发利用、比较基因组学的研究等提供依据。

1 材料与方法

1.1 研究材料

材料取自安徽省农业科学院园艺研究所枣种质资源圃,2016年选取树龄5年,处于盛果期的李府贡枣为试材,当枣果实进入白熟期后进行灌水处理,分别设置ZJ(未灌水)、ZJ1(灌水后8 h)、ZJ2(灌水后30 h)、ZJ3(开裂)等4个处理,处理后分别采集果实表皮各2份,液氮冷冻后在 -80 ℃ 保存。

1.2 总RNA的提取

采用TRIzol试剂提取枣果实总核糖核苷酸(RNA),提取后用琼脂糖凝胶电泳检测,然后利用安捷伦2100芯片生物分析仪(Agilent 2100 Bioanalyzer)检测提取的RNA是否达到转录组测序(RNA-Seq)的试验标准。

1.3 转录组测序及数据组装

提取的枣果皮总RNA经脱氧核糖核酸酶Ⅰ(DNase Ⅰ)处理后,用带有多聚胸腺嘧啶[Oligo(dT)]的磁珠富集真核生物信使核糖核酸(messenger RNA,mRNA)。然后加入打断试剂将mRNA打断成短片段,并以打断后的mRNA为模板用六碱基随机引物(random hexamers)合成1链互补脱氧核糖核酸(complementary deoxyribonucleic acid,cDNA),加入缓冲液、三磷酸碱基脱氧核苷酸(deoxyribonucleoside triphosphates,dNTPs)和DNA聚合酶Ⅰ(DNA polymerase Ⅰ)合成cDNA第2链,经试剂盒纯化回收、黏性末端修复、3′末端加上碱基“A”和连接测序接头,再将得到的片段进行大小选择后PCR扩增富集。构建好的文库经Agilent 2100 Bioanalyzer和美国应用生物系统公司的实时荧光定量PCR仪(ABI StepOnePlus Real-Time PCR System)质检合格后使用Illumina测序平台进行测序。转录组测序工作由深圳市恒创基因科技有限公司完成。对4份枣果皮样品测序得到的原始数据过滤掉里面含有带接头的、低质量的测序序列(read)得到干净序列(clean reads)。利用转录组Trinity组装软件对所有样品的干净序列进行混合拼接成转录本序列,取每条基因中最长的转录本为基因组数据库,得到的基因组数據库数据库用于后续分析。

1.4 SSR和SNP分析方法

SSR位点搜索主要是利用MISA软件(http://pgrc. ipk-gatersleben. de/misa/)搜索得到基因组数据库,其参数设置:单碱基、二碱基、三碱基、四碱基、五碱基、六碱基的最短重复次数分别为12、6、5、5、4、4。

SNP位点的搜索通过Samtool和Picard-tools等工具对比对结果进行染色体坐标排序、去掉重复的序列等处理,最后通过变异检测软件UATK3进行单核苷酸多态性标记调用(SNP calling),并对原始结果进行过滤。

2 结果与分析

2.1 RNA质量检测

提取的总RNA样品先进行电泳检测,结果如图1所示,28S和18S条带明亮,无杂质。

Aligent2100检测总RNA样品质量,RNA完整值(RNA integrity number,RIN)都在7.0~8.0之間,总RNA的浓度和总量等指标均已达到测序要求,可用于后续转录组测序等试验(表1)。

2.2 转录组数据组装结果及统计

枣果实转录组测序共获得41 471 760条干净序列,对干净序列进行组装拼接获得226 488条拼接序列。拼接序列长度范围主要分布在200~2 000 bp之间,其中以200~300 bp序列数量居多,约占总拼接序列的61.70%,大于2 000 bp的序列约占总拼接序列的4.64%(表2)。

组装拼接获得42 570条基因组数据库,序列长度主要分布在300~3 000 bp范围内,平均长度为974 bp。300~2 000 bp 序列数量最多,占全部基因组数据库序列的8739%;2 000~3 000 bp 的基因组数据库序列有3 651条,占全部基因组数据库序列的8.58%;≥3 000 bp的基因组数据库序列有1 719条,占 4.04%(表3)。

2.3 微卫星特征分析

2.3.1 微卫星数量及分布特点 在转录组的42 570条基因组数据库序列中发现18 016个SSR位点,其中包含1 442个混合型SSR和13 033个完整型SSR位点,完整型SSR占总SSR位点的72.3%,包含2个及以上SSR位点的基因组数据库共有3 762条。SSR位点的出现频率为0.43个/kb,即每2.3 kb就出现1个SSR位点。

SSR位点共包含164种重复基元,单核苷酸至六核苷酸分别有2、4、10、19、32、97种。其中SSR重复基元的重复次数均在4~35次,重复4~10次的SSR位点共有10 606个,占总SSR的58.87%,主要为二核苷酸和三核苷酸;重复11~16次的SSR位点有3 780个,占20.98%,主要为单核苷酸和二核苷酸;重复17~20、21~35次的SSR位点基本为单核苷酸(表4)。

在微卫星中,单核苷酸重复(6 942个,38.53%)最多,其次是二核苷酸重复(6 113个,33.93%)和三核苷酸重复(4 242个,23.55%),四核苷酸重复、五核苷酸重复和六核苷酸重复基本相同(219、242、258个)(图2)。

2.3.2 微卫星不同优势重复单元碱基的特征分析 SSR位点共包含164种重复基元,单核苷酸至六核苷酸分别有2、4、10、19、32、97种。通过对枣不同类型SSR重复单元数量的变化的统计得出频率最高的4类基序,依次为A/T(6 871个,38.14%)、AG/CT(3 713个,20.61%)、AT/AT(1 998个,1109%)和AAG/CTT(1 462个,8.12%)。

在2种单核苷酸重复微卫星中,以A/T为最主要的重复单元,共有6 871个,占98.98%,而C/G只占1.02%。

二核苷酸重复类型有4种(AC/GT、AG/CT、AT/AT和CG/CG),其中AG/CT重复的数量最多,共有3 713个,占二核苷酸重复微卫星总数的60.74%;其次是AT/AT(1 998个),占32.68%;再次是AC/GT(396个),占6.48%;而CG/CG只有6个,占0.10%(图3)。

三核苷酸重复类型有10种,AAG/CTT重复的数量最多,共有1 462个,占4.46%;其次是AAT/ATT(645个)、ACC/GGT(521个)、ATC/ATG(477个);再次是AAC/GTT(360个)、AGG/CCT(298个)、AGC/CTG(283个),其他重复类型则相对较少。

在19种四核苷酸重复类型中,以AAAT/ATTT重复数量最多,共113个,占四核苷酸SSR总数的51.60%;其次为AAAG/CTTT,有27个,占12.33%。五核苷酸重复类型有32种,AAAAT/ATTTT重复数量最多,有104个,占42.98%。六核苷酸重复类型有97种,共258个,但每种重复类型数量都较少。

通过对枣果实转录组微卫星数量分析可知,单核苷酸重复次数主要集中在12~20次,且随着重复次数增加呈递减趋势,未发现重复24次以上的单核苷酸微卫星序列。二核苷酸微卫星重复次数集中在6~11次;三核苷酸微卫星重复次数集中在5~8次;四核苷酸微卫星重复次数集中在5~6次;而五核苷酸微卫星和六核苷酸微卫星重复次数最少,为4~5次。

2.3.3 微卫星长度分布 微卫星长度也存在极显著变异,长度变化范围为12~248 bp,平均长度为21 bp。以重复长度为10~20 bp的短序列最多,占80.12%;其次为长度在21~29 bp 的序列,占总数的12.18%;长度大于50 bp的长序列占微卫星总数的4.36%(图4)。

2.4 SNP位点的特征分析

在转录组得到的基因组数据库中共发现SNP位点163 360个,发生频率为1/254 bp,即每254 bp就会有1个SNP位点出现,其中转换100 122个,颠换63 238个。6种单核苷酸变异中以转换类型的A/G和C/T发生频率最高,分别为总数的30.80%和30.49%;其他4种颠换类型的SNP为C/G、G/T、A/C和A/T,分别占到总数的9.83%、9.78%、9.78%和932%。其中转换类型显著高于颠换类型,在转换类型中 A/G 和C/T发生频率基本一致,但以A/G发生频率略高。

3 结论与讨论

在李府贡枣转录组的42 570条基因组数据库序列中发现18 016个SSR,其中包含1 442个混合型SSR和13 033个完整型SSR位点,SSR位点的出现频率为0.43个/kb,比桃(0.31)、枣(0.36)出现频率[15-16]低,与柿SSR位点出现频率[13]相同,表明本研究中李府贡枣SSR标记的数量极其丰富,有望在SSR引物开发、遗传多样性等领域得到广泛应用。

本研究通过转录组获得的微卫星中单核苷酸重复最多,占38.44%;其次是二核苷酸重复(33.85%)和三核苷酸重复(23.49%),四核苷酸重复、五核苷酸重复和六核苷酸重复基本相同,与前人关于枣转录组微卫星特征基本相同,但本研究获得258个六核苷酸重复类型。基因组序列的微卫星特征与转录组微卫星序列相比,六碱基重复微卫星出现的频率明显高于其他类型,枣转录组比基因组低级基元频率高,而高级基元比基因组的低,与前人研究[14-15]基本一致。

SSR位点共包含164种重复基元,单核苷酸至六核苷酸分別有2、4、10、19、32、97种。其中SSR重复基元的重复次数均在4~35次,重复4~10次的SSR位点共有10 606个,占总SSR的58.87%,主要为二核苷酸和三核苷酸;重复11~16次的SSR位点有3 780个,占20.98%,主要为单核苷酸和二核苷酸;重复17~20次和21~35次的SSR位点基本为单核苷酸。SSR长度变化范围为10~248 bp,平均长度为 21 bp,以重复长度为10~20 bp的短序列最多,占80.07%。

通过对本研究结果分析可知,单核苷酸重复微卫星为枣最优势微卫星,所占比例最多,而且单核苷酸微卫星重复单元次数的变化明显高于其他重复类型,其次是二核苷酸微卫星,说明单核苷酸在整个枣转录组中变异最为活跃。此外,SSR序列以重复长度为10~20 bp的短序列最多,此类SSR位点拥有高度多态性。SSR的长度和重复次数是影响分子标记多态性的重要因素[17],说明转录组获得的SSR位点可为枣遗传多样性和亲缘关系等研究有重要的价值。

单核苷酸多态性在植物基因组中广泛存在[18-19]。本研究中共发现SNP位点163 360个,发生频率为1/254 bp,与柿发生频率[13]基本一致,但与水稻和玉米等作物相比发生频率低。所获得的SNP位点中Transition类型显著高于Transversion类型。6种单核普酸变异中以Transition类型的A/G和C/T发生频率最高。转录组来源的SSR、SNP多位于基因组的编码区域,可直接获得物种基因表达信息,可能与基因功能直接相关,转录组测序结果为SSR和SNP标记的开发和利用提供生物信息学基础,同时为枣遗传结构和遗传分化以及构建遗传图谱奠定基础,也将为其功能基因的开发利用、比较基因组学、分子辅助育种等研究提供依据。

参考文献:

[1]孙 俊,孙雯雯,周军永,等. 安徽及周边地区枣种质资源遗传多样性研究[J]. 园艺学报,2015,42(8):1569-1575.

[2]原勤勤,文亚峰,刘 儒,等. 枣优良品种亲缘关系的ISSR分析[J]. 经济林研究,2012,30(1):56-61.

[3]王永康,田建保,王永勤,等. 枣树品种品系的AFLP分析[J]. 果树学报,2007,24(2):146-150.

[4]Mrazek J,Guo X,Shah A. Simple sequence repeats inprokaryotic genomes[J]. PNAS,2007,10(4):8472-8477.

[5]王 东,曹玲亚,高建平. 党参转录组中SSR位点信息分析[J]. 中草药,2014,46(8):2390-2394.

[6]Kashi Y,King D G.Simple sequence repeat as advantageous mutators in evolution[J]. Trents in Gentic,2006,22(5):253-259.

[7]Lawson M J,Zhang L.Patterns of SSR distribution in the Arabidopsis thaliana and rice genomes[J]. Genome Biology,2006,7(2):R14.

[8]Liu T,Zhu S,Fu L,et al. Development and characterization of 1827 expressed sequence tag-derived simple sequence repeat markers for ramie(Boehmeria nivea L. Gaud)[J]. PLoS One,2013,8(4):e60346.

[9]Eujayl I,Sorrells M,Banm M,et al.Isolation of EST-derived microsatellite markers for genotyping the A and B genomes of wheat[J]. Theoretical and Applied Genetics,2002,104(2):399-407.

[10]麻丽颖,孔德仓,刘华波,等. 36份枣品种SSR指纹图谱的构[J]. 园艺学报,2012,39(4):647-654.

[11]刘秀云,李 慧,刘志国,等. 基于SSR标记的255个枣品种亲缘关系和群体遗传结构分析[J]. 中国农业科学,2016,49(14):2772-2791.

[12]姚丹青,楼坚锋,顾芹芹. SNP在农作物遗传分析中的应用[J]. 上海农业科技,2015,6:26-27.

[13]杜改改,孙 鹏,索玉静,等. 基于柿雌雄花芽转录组测序的SSR和SNP多态性分析[J]. 中国农业大学学报,2017,22(10):45-55.

[14]马秋月,戴晓港,陈赢男,等. 枣基因组的微卫星特征[J]. 林业科学,2013,49(12):81-87.

[15]魏琦琦,林 青,贾宝光,等. 枣转录组序列的微卫星特征分析[J]. 中南林业科技大学学报,2015,35(6):93-97.

[16]Wang L,Zhao S,Gu C.Deep RNA-Seq uncovers the peach transcriptome landscape[J]. Plant Molecular Biology,2013,83(4/5):365-377.

[17]赵雅楠,王 颖,张东杰,等. 小豆SSR-PCR反应体系优化及引物筛选[J]. 江苏农业科学,2017,45(11):33-37.

[18]雷 雨,张雪芳,罗鑫磊,等. 不同成熟期桃品种NAC基因遗传多样性研究[J]. 江苏农业科学,2017,45(22):46-49.

[19]李贝贝,刘崇怀,姜建福,等. 葡萄品种分子鉴定研究进展及展望[J]. 江苏农业科学,2017,45(15):15-20.庄倩倩,陈少鹏,刘洪章. 紫萼玉簪HvGASA、HvFAD基因的克隆及表达分析[J]. 江苏农业科学,2019,47(4):55-60.

猜你喜欢
转录组特征分析
泡罩包装挥发性有机物排放特征分析
2012 年南海夏季风特征分析
基于PowerPC的脉内特征分析算法的工程实现
肾康注射液不良反应特征分析
不良汽车驾驶行为特征分析
工程项目管理模式的特征分析与选择