基于454 GS FLX高通量测序的南疆沙蜥微卫星特征分析及其候选引物设计

2019-09-23 08:09宋琪郭宪光陈达丽
四川动物 2019年5期
关键词:微卫星碱基高通量

宋琪, 郭宪光, 陈达丽

(1.中国科学院成都生物研究所,成都610041; 2. 中国科学院大学,北京100049;3. 四川大学华西基础医学与法医学院,成都610064)

微卫星DNA又叫简短串联重复或简单序列重复(simple sequence repeats,SSRs),一般是以1~6个核苷酸为重复单位的串联重复序列,在种群内不同个体之间的重复数量不同(Tóthetal.,2000)。随着PCR技术的出现,微卫星DNA的这一特性被转化为用途广泛的遗传标记。同时,微卫星DNA在病毒到真核生物的基因组中均有分布,且具有高度的长度多态性(Zaneetal.,2002),加之微卫星这一共显性分子标记有突变率快、多态性高、易于扩增等优点,被广泛应用于种群遗传、谱系地理、个体识别和亲子鉴定等领域(Selkoe & Toonen,2006)。开发微卫星标记的方法虽然很多,但步骤繁琐、耗时耗力的问题在二代测序系统推出前一直存在。2007年,罗氏454公司推出了基于焦磷酸测序法的第二代基因组测序系统——Genome Sequencer FLX System (GS FLX)。454高通量测序除具有二代测序高效、快捷的普遍特点外,还有比其他二代测序的片段读长更大的优点,因此更适合于微卫星标记的开发(Allentoftetal.,2009;Xiaetal.,2018)。

南疆沙蜥Phrynocephalusforsythii隶属于鬣蜥科Agamidae沙蜥属Phrynocephalus,是我国特有的一种小型卵胎生爬行动物(头体长36~50 mm,尾长48~62 mm),分布于新疆维吾尔自治区天山山脉以南海拔1 400~3 100 m 的广大地区。南疆沙蜥的研究集中在生态适应(戴昆,马鸣,1991)、核型(曾晓茂等,1997)、组织学(吾玛尔·阿布力孜,杨立中,1999;吾玛尔·阿布力孜等,2000)、基于ND4基因的谱系地理格局(Zhangetal.,2010)以及线粒体基因组特征(Chenetal.,2016,2019;Shaoetal.,2016)等。微卫星标记的研究仅见于Nie等(2015)运用转录组测序对青海沙蜥P.vlangalii开展微卫星位点筛选,跨物种在南疆沙蜥中检测得到22个可扩增的微卫星位点。

本研究通过Roche 454 GS FLX高通量测序对南疆沙蜥进行低覆盖度基因组测序,并利用Krait(Duetal.,2018)首次在南疆沙蜥基因组中进行微卫星的查找与统计,旨在对其基因组水平上的微卫星重复序列的种类、数量等分布特征进行初步探索。考虑到微卫星标记多态性,三碱基和四碱基重复微卫星的不易产生由于滑链错配形成影子带(O’reilly & Wright,1995)等优越性(O’connell & Wright,1997),因此,选取部分三、四碱基重复的微卫星进行引物设计筛选,得到可用于微卫星分析的部分候选引物,以期为利用微卫星标记研究南疆沙蜥种群遗传结构奠定基础。

1 材料和方法

1.1 样品收集、基因组DNA提取及Roche 454 GS FLX高通量测序

用于基因组测序的南疆沙蜥标本(标本号:WGXG08351)于2008年6月采自新疆维吾尔自治区若羌县(86.25804°E,41.33690°N,海拔827 m),标本经75%乙醇固定后,保存于中国科学院成都生物研究所两栖爬行动物标本馆。其肝脏组织样品固定于95%乙醇,-20 ℃保存。将提取的基因组DNA送至上海美吉生物信息科技有限公司进行Roche 454 GS FLX基因组测序。采用GS FLX系统对测序数据进行过滤、整理,使用Newbler 2.6(Roche,2011)对优化后的原始数据从头拼装,并将组装出的contigs和未拼装进去的single read序列合并。

1.2 微卫星序列的查找及引物设计

采用Krait(Duetal.,2018)对合并的总序列进行完美型微卫星位点的查找,搜索标准如下:单碱基重复≥12个拷贝,二碱基重复≥7个拷贝、三碱基重复≥5个拷贝,其他碱基重复(四碱基、五碱基、六碱基)≥4个拷贝;重复序列两端的侧翼序列长100 bp;其余参数采用默认设置。同时,对部分三碱基和四碱基重复类型在Krait中基于primer3和primer3-py进行引物设计,参数为:PCR产物长100~450 bp;引物长20~27 bp;引物熔解温度55~65 ℃;GC含量30%~70%;其余采用默认参数设置。对设计出的引物再依据以下原则二次筛选:①引物序列碱基尽量随机分布,3’端不超过3个连续的G或C,避免引物在GC富集序列区的错误引发;②引物自身及引物之间尽量无互补序列,避免引物自身折叠成发卡结构使引物本身复性,引物自身无连续4个碱基或4个碱基的互补;③引物序列3’端尽量无连续的3个相同碱基相连的情况,避免引起错配。

2 结果

2.1 测序数据统计及基因组组装

采用Roche 454 GS FLX高通量测序对原始测序数据的每条read质量过滤后,对下机数据进行统计,得到78 927条reads,共39 807 639 bp,最短的22 bp,最长的1 132 bp,平均长度为504.4 bp,本次测序获得的reads长度主要为581~760 bp。利用Newbler对reads拼接得到670个contigs,共341 384 bp,最短的100 bp,最长的15 140 bp,平均为509.5 bp。未拼接上的reads有55 239个,共27 984 639 bp。

2.2 南疆沙蜥基因组微卫星的数量和分布特点

将组装出的contigs和未组装进去的single read序列合并,得到合并序列55 909个,共28 326 023 bp。对合并的总序列进行微卫星位点的查找,获得南疆沙蜥全基因组中6种完美型微卫星12 109个,总长度371 160 bp,占基因组的1.32%,相对丰度为427.62个/Mb。其中,数量最多的为四碱基重复类型,占重复类型序列总数的33.34%;其次是二碱基重复类型,占28.09%;其余几种类型占比均小于20%,最少的为六碱基重复类型,只占1.46%,相对丰度为6.25个/Mb(表1)。

表1 不同重复类型的完美型微卫星在南疆沙蜥基因组的分布情况Table 1 Distribution of perfect SSRs with different repeat types in the genome of Phrynocephalus forsythii

2.2.1 各种重复拷贝类别的数量和相应的比例同一种类型的重复序列中,各重复拷贝类别所占的比例也不相同(表2)。单碱基重复类型中,C最多,有1 206个;二碱基重复类型中,AC最多,有2 101个。AAC(392个)、AAAT(1 592个)、AAAAT(181个)和AACCCT(40个)分别是三碱基、四碱基、五碱基和六碱基重复类型中最多的重复拷贝类别。所有搜索到的完美型微卫星中,AC(17.35%)、AAAT(13.15%)、C(9.96%)、AG(9.67%)、A(3.95%)、ATAG(3.63%)、AAC(3.24%)、AGG(2.96%)、AAT(2.64%)和AAAC(2.58%)是数量最多的前10种重复拷贝类别。其他重复拷贝类别数量均不超过300个,相对丰度均不超过10个/Mb(图1)。

2.2.2 各种重复类型微卫星拷贝数的数量分布单碱基重复分布范围为12~32次,主要分布在12~16次,有1 464个,占单碱基重复类型总数的86.94%;二碱基重复分布范围为7~204次,主要分布在7~11次,有1 402个,占二碱基重复类型总数的41.21%;三碱基重复分布范围为5~35次,主要分布在5~13次,有1 832个,占三碱基重复类型总数的80.81%;四碱基重复分布范围为4~121次,主要分布在4~15次,共3 616个,占四碱基重复类型总数的89.57%;五碱基重复分布范围主要为4~7次,共492个,占五碱基重复类型总数的90.77%;六碱基重复分布范围为4~10次,主要分布在4~7次,共169个,占六碱基重复类型总数的95.48%(图2,表3)。

2.2.3 微卫星位点的引物设计及候选引物序列挑选了部分三碱基和四碱基重复的微卫星进行引物的设计,对引物二次筛选后,最后保留100对候选引物(表4)。

3 讨论

本研究利用Roche 454 GS FLX高通量测序平台对南疆沙蜥进行了低覆盖度基因组测序,并利用Krait(Duetal.,2018)进行微卫星的查找与统计。结果表明,不同类型的微卫星在南疆沙蜥基因组中丰度差异很大,以四碱基重复类型最多。与以往对物种基因组中进行微卫星查找的研究相比,这种情况很少见。植物基因组中,已有研究表明占优势的微卫星是二碱基重复(Tóthetal.,2000)或六碱基重复(马秋月等,2013;廖卓毅等,2014)。对动物的研究,无脊椎动物中占主导的微卫星重复类别没有特别明显的规律,最丰富的类型既有单碱基重复(汪自立等,2013),又有二碱基重复(高焕等,2004)和三碱基重复(魏朝明等,2007;汪自立等,2013);脊椎动物中单碱基重复占主导的较多(黄杰等,2012,2015;戚文华等,2013;李午佼等,2014;聂虎等,2017;崔凯,岳碧松,2018)。有研究推测,多数物种基因组微卫星中单碱基重复丰度最高,可能是由于微卫星序列越长,突变率就越高,因此稳定性就越差(Wierdletal.,1997);在很多真核生物中,重复长度和重复频率呈负相关(Kattietal.,2001)。然而,我们对南疆沙蜥的研究结果与之相差甚远,与南疆沙蜥同属于爬行类的红尾蚺Boaconstrictor和原矛头蝮Protobothropsmucrosquamatus也并未表现出一致的微卫星重复类型(聂虎等,2017)。总体而言,不同物种基因组中的微卫星重复类型丰度表现不尽相同,重复长度和重复频率的相关关系可能也不宜一概而论。

图1 南疆沙蜥基因组中相对丰度最高的微卫星基序分布Fig. 1 Relative abundance of the most relative abundant microsatellite motifsin the genome of Phrynocephalus forsythii

重复基序Motif数目Counts长度Length/bp占比Percent/%平均长度Average length/bp相对丰度Relative abundance/(个/Mb)AC2 10195 14417.3545.2974.19AAAT1 59247 76013.1530.0056.22C1 20617 2049.9614.2742.59AG1 17134 5629.6729.5141.35A4786 2943.9513.1716.88ATAG43925 9323.6359.0715.50AAC39210 5273.2426.8513.84AGG3587 5062.9620.9712.64AAT32013 1912.6441.2211.30AAAC3127 0722.5822.6711.02

图2 南疆沙蜥不同重复拷贝类型微卫星的重复次数分布
Fig. 2 Distribution of the copy number in different microsatellite motifs forPhrynocephalusforsythii

表3 分布频率最高的重复拷贝类型微卫星的拷贝数分布情况Table 3 Distribution of the number of copy repeats among the most frequent microsatellite motifs

表4 100对扩增南疆沙蜥微卫星DNA的候选引物Table 4 The list of 100 pairs of candidate primers to amplify the microsatellite DNA loci for Phrynocephalus forsythii

ssr-4503(ATC)18TCTCATAGGTCTGGTTCACTAAGC59.60GCTGTGCCTCACTGATAGACG60.80151ssr-5180(ATC)15GACAAACATGCACCACCACC59.97GGGTCACACTCAATATTCTGTGG59.06158ssr-6874(ATC)12CCATATCCAGTCTCCTGCTAGG59.17AGTAACAGGAGGGCATCAGG58.79206ssr-587(AAAT)4ATCCTTGCAGGTGGGAATGG56.99TTGTAAGCTGCCTTGAGTCC57.81102ssr-100(AAAT)5GATGGGTTCCTACCAGGTGC60.11ATTGCAGCCTTGTGTAAGCC59.11155ssr-141(AAAT)5CTGTAAACCGCCCAGAGTCC60.39AAACAGAACTCGAGGCAAAGG58.78158ssr-380(AAAT)5TCAATGACACCAAGCACTGC60.16TGTAAACCGCCCAGAGTAGC59.75102ssr-17(AAAT)5GTGCTCACAGGCCAGTACC60.38CTACAGCTGGTAGGCAGGC59.86147ssr-392(AAAT)6TCAATGACACCAAGCACTGC58.98TTGTAAACCGCCCTGAGTCC59.96154ssr-449(AAAT)6AGAGTGGGAGGGAAGGAAGG59.19TTTGTCGCCTGATTGTTCGC59.76123ssr-153(AAAT)7AGTTGTCCATGTACAGGCAGG60.00GTATTCTGTTAGCGCCCACG59.07161ssr-252(AAAT)7AATGTTGCTGATACTGGTACTAGG59.83GCTACAGCTCACTTGATATGGC59.19106ssr-213(AAAT)8TCAATGACACCAAGCACTGC60.14ATCATGGGCCAATCGTGGG60.15157续表4位点Locus重复基序Repeat motif上游引物序列Forward primersequence (5’-3’)熔解温度Meltingtemperature/℃下游引物序列Reverse primersequence (5’-3’)熔解温度Meltingtemperature/℃PCR产物长度PCR productlength/bpssr-636(AAAT)8ATAAGATGAGGTGCAGGCGG58.56GTGCAACTTGGTGAGGATCC58.83116ssr-84(AAAT)11TCAATGACACCAAGCACTGC59.05AACACACTGCCCAGAGTAGC59.96133ssr-1024(AAAT)11CGTCTTTCCTTGGGAGTGCC60.96TTGTTCGCCGCTTAGAGTCC60.39165ssr-1777(AAAT)11CTGTAAGACGCCTTGGGTCC60.39TGGGCCAGTTTGACTCTTGG60.18199ssr-990(AAAT)12TGAACTTTCAGTGACAACAGCC59.32AAACATGACCACAGTGCTGC59.33177ssr-1208(AAAT)14ACTGAGTGGAACGATGTCTGG59.73TGACCTTGTTGGCAGATGGG60.25120ssr-1223(AAAT)14ACCTTTGGGTAGTGGACAGC59.60CCTTAGTCCACTGAGCCACC59.75156ssr-1338(AAAT)14TGCTTCATTGCTGAACTGCC59.40TGAGCCGCTTAGGTCTTTCC59.75199ssr-1663(AAAT)14GCCAGCCAGCTTATAACAGG58.69CCCTGTCATGTGATTGCTTGC60.14169ssr-1771(AAAT)14TCTTGGAGGACTGATGAAGGC59.44TGGTGTTAAATGATGCTGTGACC59.49163ssr-1158(AAAT)15AGTTCTTCGGGAAGATGGCC59.75CAGGATGATCCAGTACGGCC59.97119ssr-1403(AAAT)15GCAGGCTTCGTGTACAATCC59.27GGAGAGTGCATGGTTTCATTCC59.58186ssr-835(AAAT)15CTGACATGCCTCACAATGCC59.55CTGGGTTGCCAAATGAGTGG59.40170ssr-1310(AAAT)16TTGTCACCCATACTGAGGCC59.38CAGGTTATCACACTGCTGGC58.91158ssr-1066(AAAT)16ACTGCAACTCCCAGAAGTCC59.60CCACCCAGAGTAGCCCTAGG60.76191ssr-262(ATAG)4CTGTAAACCGCCCAGAGTCC60.18AGATCCTGGCCGTGAAAGC60.08136ssr-910(ATAG)13CCAAAGTGGCCTTGCTGC59.66ATCCCCAGAGTGATGCATGG59.52117ssr-844(ATAG)17ATCTACCTCACTGGACCTGG57.83CACCCAGGTAGTGTAGTTTGC58.58203ssr-913(ATAG)17AAAGTGCCACCAAGCCCAGC63.90TAGCTGGCTGGCTGGCTGG64.61126ssr-789(ATAG)20ATGGGTCTCTTCAGGCAAGC60.03TGACTTGACTGACTAGCTGGC59.73198ssr-1668(ATAG)23AGGAAATACACTGCCCAGAGC60.07AATCAGCAAAGGTCAGTGGG58.08191ssr-83(AAAC)4TCAATGACACCAAGCACTGC59.05AACACACTGCCCAGAGTAGC59.96133ssr-240(AAAC)4AGCTGTCACCCATGTATGGC60.18GCTTAGCTCCAGTCTCAGGG59.54186ssr-379(AAAC)4CCACTTCCAGCCAGTGAAGC57.39TATATTGTTGGATGCTGCCC55.55109ssr-621(AAAC)4GTGCCTCAGCTGGTATCAGG60.07TCCTTGAGAATTTGCACCAACC59.37145ssr-1321(AAAC)13TTCTGTTGGGAAGACGGTGC60.53TTGTGGATACCCTGGACTGC59.38171ssr-183(AAAG)4GTGCTCACAGGCCAGTACC60.25CTCCCACTCACCTTCCTTCC59.38136ssr-1087(AAAG)11CGGATACAAATACAAAGAGCCC57.19CCTGTGTTAACCGACAACAGG59.13200ssr-1406(AAAG)14AACTCCAGGCTAGGCTGTGG61.56TGTCCTTGCAGAGTTCTCAGG59.65162ssr-1665(AAAG)14TATGGGCTTACCTCACCAGG58.49TTGCCACCATTGTCCTAGGC60.32148ssr-404(AAAG)16GATGGGTTCCTACCAGGTGC59.24CCAAATCCAGATCAGGTTGCC59.25202ssr-354(AATG)4GTGCTCACAGGCCAGTACC60.18TGATTCATTGTGGTTTCAGCTGG59.74117

ssr-1664(AATC)11ATCCTCCTGCAGATACAGCC58.94AGGTGTTCATGTAGAAGGCTAGC60.12104ssr-81(ATCC)10CCACTTCCAGCCAGTGAAGC61.24CCATCCATCCATCCATCCATCC60.36172ssr-3524(ATCC)13AATGCCTACTGCCAGAAACC58.16AGTGATTTGACTGCTGCTGC59.12147ssr-4478(ATCC)14GTCTGTCCGTCCATCCATCC59.89CTGACCCTGCTTAGCTTCCG60.46213ssr-5989(ATCC)12AAGCAAGCAACTGAGCAAGC59.97GCTAGTCTTGTTAGGATTGCACC59.38125ssr-8782(ATCC)11TCTGTGTTGATGTTCCATGTCC58.59GCACAATGCAAGAACAATGC57.13204ssr-113(AAGG)6GCTTGAGGAAGGAAGGGAGG59.75TGAACAATAGCTTGCAACAGCC60.03139ssr-581(AAGG)6GGTGCGCTGTTATTCTTGCC59.38GTGGGTGTGCTTGCTTATGC60.11138ssr-574(ACGG)4TTGGTTGGTGTACAGAGGCG60.32TTGATCCAACGGGCTCAAGG60.32145ssr-764(ACTG)4TGTTTAATTGTCGATTCAGGATGGC59.89GACAGGTGATCCCAGTACGC60.18138ssr-517(ACTC)9GTAGTCCATTGTTGCAAGCCG57.62CCATGGAGTCACAAAGAGTTGG59.18170ssr-91(AGGG)4AGCTGTCACCCATGTATGGC60.11AGGAGATGAAGAACGGGTTGG59.72176ssr-723(AGGG)5TGACTGAAGGGAGGAGGAGG57.84GCAGAATCACTAGCCATGGC59.05113

从南疆沙蜥重复基序的拷贝数分布来看,重复次数少的类型占多数。谱系(Weber & Wong,1993;Schlöttereretal.,1998)、种群(Goldstein & Clark,1995)和克隆株(Wierdletal.,1997)的微卫星分析结果均支持SSR位点的变异频率与拷贝数存在一定相关性,即重复次数越多,SSR产生变异的可能性越大,但Schlötterer(2000)认为这种相关性是否呈线性关系还有待进一步研究。

据Guichoux等(2011)统计,自1990年以来,有关微卫星的论文数量增长迅猛,一定程度上也促进了二代测序技术的发展。而二代测序出现之前,微卫星重复类型的获得对于非模式生物来说均是一个瓶颈(Guichouxetal.,2011)。随着高通量测序技术的发展,测序成本逐渐降低,可获得的数据越来越多,这为进一步增进对非模式物种的深度了解提供了很好的契机。Nie等(2015)运用Illumina高通量RNA-seq测序技术对青海沙蜥进行转录组测序,鉴定筛选出25个微卫星位点,其中22个位点可在南疆沙蜥中扩增。本研究使用454 GS FLX高通量测序技术对南疆沙蜥进行基因组测序,SSR分子标记开发及分析,利用软件预测首次对南疆沙蜥基因组微卫星进行了搜索统计并设计筛选了100对基于三碱基和四碱基重复的候选引物,为利用微卫星标记研究南疆沙蜥种群遗传结构奠定了基础。

猜你喜欢
微卫星碱基高通量
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
绿鳍马面鲀全基因组微卫星分布特征
新一代高通量二代测序技术诊断耐药结核病的临床意义
基于转录组西施舌微卫星标记开发及隐种鉴定
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
应用思维进阶构建模型 例谈培养学生创造性思维
高通量血液透析临床研究进展
比较高通量血液透析与血液透析滤过在尿毒症患者中的应用效果
中国科学家创建出新型糖基化酶碱基编辑器
中草药DNA条形码高通量基因测序一体机验收会在京召开