陈松波,龚 丽,刘海金
(1.东北农业大学动物科学技术学院,哈尔滨 150030;2.中国水产科学研究院,北京 100039)
微卫星(Microsatellites)也叫简单重复序列(Simple sequence repeat,SSR),是目前稳定性和多态性相对较高、具共显性、分布均匀且数量丰富的一种分子标记,被广泛应用于动植物的遗传研究和育种实践中。例如构建遗传图谱[1]、进行QTL定位[2]、亲缘关系鉴定[3-4]及遗传多样性分析[5-6]等。传统上,分离SSR标记是依赖于对基因组文库的构建,采用的是重复序列探针和阳性克隆测序来开发基因座上的特定引物。这种方法虽适用于许多生物,但是由于技术复杂,费时费力,反而限制了基因组SSR的进一步利用。
随着国际公共数据库中基因组DNA序列激增,表达序列标签(Expressed sequence tag,EST)自1991年起也呈指数增长趋势。而大多数表型差异基本上是DNA水平上变化引起的,特别是表达基因的碱基序列,因此,通过搜索现成的数据库来发掘SSR标记,极大地缩短了标记开发时间,同时节省了大量经费。目前从EST中开发SSR标记正成为新标记开发的焦点,尤其是在植物上已开展了多个物种EST-SSR标记的开发及应用,如西瓜[7]、白菜[8]、油菜[9]、香菇[10]、柑橘[11]等。自2000年起,也相继展开了从鱼类(如罗非鱼[12]),贝类(如海湾扇贝(Argopecten irradians)[13])及虾类(如中国对虾(Fenneropenaeus chinensis)[14])的EST中开发SSR标记的研究。Serapion等2004年就曾报道从斑点叉尾(Ictalurus punctatus)数据库中采用生物信息学方法开发EST-SSRs的研究[15]。Yue等从鲤鱼部分EST数据库采集数据开发出一些EST-SSR标记,并将这些标记应用于银鲫的遗传性分析[16]。本研究将对NCBI数据库中所有牙鲆(Paralichthys olivaceus)EST序列进行SSR检索,并分析ESTSSR分布的频率及碱基重复特点,为牙鲆ESTSSR的遗传分布规律提供一个基本的认识,并为牙鲆EST-SSR标记的开发及应用研究提供有价值的信息。
从 NCBI数据库(http://www.ncbi.nlm.nih.gov/dbEST)中搜索所有牙鲆的EST序列,搜索结果均以FASTA格式显示,并且以文本文件的格式保存,用于生物信息学分析。
对检索到的EST序列采用VectorNTI Contig-Express软件进行重叠群分析和聚类以去除冗余序列,除去5'端或3'端的polyT或polyA,初始装配参数为最小重复碱基数(Minmatch)为20,最小得分值(Minscore)为40,每一个聚类需经过检查以确保其准确度,从而避免由微卫星重复基元和长字符串引起的假聚类。
在线(http://www.gramene.org/db/searches/ssrtool)对聚类后的EST进行微卫星序列搜索。选取重复次数在6次及以上的双碱基重复序列,5次及以上的三碱基重复序列,重复次数在4次以上的四碱基和五碱基重复序列,重复次数在3次以上的六碱基重复序列均为完全重复,并对搜索出的SSR的频率与长度进行统计和分析。
本研究共搜索到8 842条牙鲆ESTs序列,这些序列来自其头、肾、肝脏、脾脏、肌肉、心脏、脑、肠、胃、卵巢、皮肤等多个组织的cDNA克隆。经聚类和组合后,共得到5 927条无冗余EST序列,总长度为3.72×106bp,平均长度为627 bp。在线进行SSR的搜索结果表明,这些无冗余的EST序列共发现分布于390条EST中的471个SSR,平均7.9 kb出现1个SSR,出现频率为7.95%。在390条含有SSR的EST中,只含有1个SSR的EST有313条,含有2个SSR的有62条,含有3个SSR的有13条,含有4个SSR的有2条。SSR重复基元类型丰富,包括二碱基序列、三碱基序列、四碱基序列、五碱基序列和六碱基序列。重复基元含量最多的为二核苷酸重复,共有278个,所占比例达到全部SSR的59.02%,在全部EST中的出现频率为4.69%;其次为三核苷酸重复,占全部SSR比例的26.33%,出现频率为2.09%(见表1)。四核苷酸重复、五核苷酸重复和六核苷酸重复类型很少,合计占所有类型的14.65%,其中五核苷酸序列重复类型最少,仅占0.21%。由此可见,在牙鲆EST-SSR中,二核苷酸重复占主导地位。
所筛选出的EST-SSRs共包括112种重复基元,其中二核苷酸重复基元10种,三核苷酸重复基元38种,四核苷酸重复基元34种,五核苷酸重复基元1种,六核苷酸重复基元29种(见表2)。
二核苷酸重复基元以AC最多,占二核苷酸重复基元类型的16.91%,其次是TG、CA、GT、TA、GA,分别占二核苷酸重复基元类型14.03%、13.67%、12.59%、9.71%和8.63%。三核苷酸重复基元、四核苷酸重复基元和六核苷酸重复基元种类较多,但核苷酸重复基元类型分布相对分散,出现频率较低,所占比例也不高,其中三核苷酸重复基元GAG、CAG和CTG分别占所有三核苷酸重复基元类型的7.26%、6.45%和6.45%(见表3)。五核苷酸重复基元种类最少,仅出现(TTTAT)n一种重复。
表1 牙鲆EST中SSR出现的频率Table 1 Occurrence frequency of SSRs in a set of Japanese flounder ESTs
表2 牙鲆EST-SSR的重复基元Table 2 Repeat motif of EST-SSRs in Japanese flounder
牙鲆的基序长度主要集中在12~24 bp。18 bp的基序长度最多,有78个,包括9次重复的二核苷酸基元、6次重复的三核苷酸基元和3次重复的六核苷酸基元。其次是15 bp,数量为65个,系五次重复的三核苷酸基元。基序最长的为132 bp,为二核苷酸基元的66次重复。基序长度在12~20 bp的 SSR占全部 SSR的 72.4%,20~30 bp的占17.41%,大于30 bp的占10.19%。
Temnykh等研究发现,当SSR基序长度大于或等于20 bp时多态性较高,长度在12~20 bp之间的多态性中等,而长度在12 bp以下时多态性极低[17]。依照此标准可推测72.4%的牙鲆ESTSSR具有中等多态性,17.41%的EST-SSR具有较高多态性。本研究所得的主要基元是二、三核苷酸重复基元,均属于低级基元,表明牙鲆的ESTSSR大部分具有高多态性潜能,并具有较高的可用性。
表3 主要二核苷酸和三核苷酸重复基元发生频率Table 3 Frequency of main repeat motif in dinucleotide and trinucleotide
本研究分析了牙鲆EST序列中SSR的分布频率和重复基元的特点,发现NCBI数据库中大约有7.95%的牙鲆EST能够检索出SSR,这一比例低于斑节对虾(Penaeus monodon)[18](13.7%),红旗东方(Fugu rubripes)[19(]11.5%)和斑点叉尾[15](11.2%),但又高于栉孔扇贝(Chlamys farreri)[20](1.61%)、中国对虾[14(]2.2%)、长牡蛎(Crassostrea gigas)[21](3.63%)海湾扇贝[22](3.9%)、真鲷(Chrysophrys major)[23](4%)和鲤鱼[24](5.55%)。这些差异可能由EST-SSR在水产动物中高度的物种特异性引起,也可能是由于用来搜寻SSR的软件不同,所设定的参数不同而造成的。
cDNA文库的随机序列使得EST中的冗余序列比例较高,为了降低分析数据的长度,应消除冗余序列。本研究中,EST-SSRs的平均密度在去除冗余序列之前是11.54 kb,而去除之后,平均每7.9 kb出现1个SSR。因此,在非冗余EST序列中,SSRs的分布频率能更准确地反映其在转录基因组中的密度。
本研究发现牙鲆EST-SSR重复基元以二核苷酸为最多,占所有SSR的59.02%,其次是三核苷酸重复,占所有SSR的26.33%,这与中国对虾[25]的研究结果相一致,而大多数植物的EST-SSR都以三核苷酸重复为主[26-27]。牙鲆二核苷酸重复中AC为优势基元,这与鲤鱼[24]和斑点叉尾[15]的研究结果相一致。而在栉孔扇贝中二核苷酸重复中出现频率最高的为GC[20],斑节对虾中出现频率最高的二核苷酸重复基元为AT[18],长牡蛎[21]和美国黄金鲈[28]中以AG/CT重复基元的数量最多。在本研究的二核苷酸重复中各种类型的均具有,而长牡蛎中未检测出CG重复[21]。这种不同物种EST-SSR主导类型的差异可能是由于各报道中所用EST来源和EST数目不同所致。牙鲆的三核苷酸重复基元、四核苷酸重复基元和六核苷酸基元种类繁多,分别为38、34和29种,但是基元分布相对分散。其中,三核苷酸重复基元略有优势的为GAG、CAG和CTG,所占比例仅为三核苷酸重复基元类型的7.26%、6.45%和6.45%,这说明碱基偏倚性不太明显。
牙鲆EST-SSR的出现频率较高,且类型丰富。从多态性潜能角度考虑,这些EST-SSR也具有较高的可用性。本研究对牙鲆EST-SSR的遗传分布特点进行了归纳总结,为进一步开发牙鲆ESTSSR标记提供了基础资料。EST-SSR标记的开发成本相对较低,且具有较高的通用性,因此,在亲缘关系鉴定、群体遗传学、比较基因组学以及功能基因组学等研究方面都具有重要的利用价值。
[1]孙效文,梁利群.鲤鱼的遗传连锁图谱(初报)[J].中国水产科学,2000,7(1):1-6.
[2]张研,梁利群,常玉梅,等.鲤鱼体长性状的QTL定位及其遗传效应分析[J].遗传,2007,29(10):1243-1248.
[3]胡雪松,李池陶,马波,等.3个德国镜鲤养殖群体遗传变异的微卫星分析[J].水产学报,2007,31(5):575-582.
[4]张勇,肖礼华,陈祥,等.用微卫星标记分析贵州地方鸡种的遗传多样性及亲缘关系[J].中国畜牧杂志,2009,45(23):1-6.
[5]盛云燕,栾非时,陈克农.甜瓜SSR标记遗传多样性的研究[J].东北农业大学学报,2006,37(2):165-170.
[6]杨静,刘海英,钱春荣,等.黑龙江省水稻品种SSR标记遗传多样性分析[J].2008,39(6):1-10.
[7]VermaM,AryaL.DevelopmentofEST-SSRsinwatermelon(Citrullus lanatus var.Lanatus)and their transferability to Cucumis spp.[J].Journal of Horticultural Science and Biotechnology,2008,83(6):732-736.
[8]忻雅,崔海瑞,卢美贞,等.白菜EST-SSR信息分析与标记的建立[J].园艺学报,2006,33(3):549-554.
[9]李小白,张明龙,崔海瑞.油菜EST-SSR标记的建立[J].分子细胞生物学报,2007,40(2):137-144.
[10]林范学,程水明,李安政,等.香菇EST-SSR引物筛选[J].农业生物技术学报,2007,15(2):358-359.
[11]Chen C X,Zhou P,Choi Y A,et al.Mining and characterizing microsatellites from citrus ESTs[J].Theor Appl Genet,2006,112:1248-1257.
[12]Yue G H,Orban L.Microsatellites from genes show polymorphism in two related Oreochromis species[J].Mol Ecol Notes,2002,2:99-100.
[13]Wan g L L,Song L S,Xu W,et al.Screening microsatellite markers from EST sequences of bay scallop Argopecten irmdians[J].High Technology Letters,2006,12(11):97-102.
[14]Wang H X,Li F H,Xiang J H.Polymorphic EST-SSR markers and their mode of inheritance in Fenneropenaeus chinensis[J].Aquaculture,2005,249:107-114.
[15]Serapion J,Kucuktas H,Feng J N,et al.Bioinformatic mining of type I microsatellites from expressed equence tags of channel catfish(Ictaluruspunctatus)[J].Mar Biotechnol,2004(6):364-377.
[16]Yue G H,Ho M Y,Orban L,et al.Microsatellites within genes and ESTs of common carp and their applicability in silver crucian carp[J].Aquaculture,2004,234:85-98.
[17]Temnykh S,DeClerck G,Lukashova A,et al.Computational and experimental analysis of microsatellites in rice(Oryza sativa L.):frequency,length variation,transposon associations,and genetic marker potential[J].Genome Research,2001(11):1441-1452.
[18]ManeeruttanarungrojC,PongsomboonS,WuthisuthimethaveeS,etal.Development of polymorphic expressed sequence tag derived microsatellites for the extension of the genetic linkage map of the black tiger shrimp(Penaeus monodon)[J].Anim Genet,2006,37:363-368.
[19]Edwards Y J,Elgar G,Clark M S,et al.The identification and characterization of microsatellites in the compact genome of the Japanese puffer fish,Fugu rubripes:Perspectives in functional and comparative genomic analyses[J].J Mol Biol,1998,278:843-854.
[20]Zhan A B,Bao Z M,Hu X L.Characterization of 95 novel microsatellitemarkersforZhikongscallop Chlamysfarreri usingFIASCO-colony hybridization and EST database mining[J].Fisheries Science,2008,74(3):516-526
[21]Yu H,Li Q.Exploiting EST databases for the development and characterization of EST-SSRs in the pacific oyster(Crassostrea gigas)[J].Journal of Heredity,2008,99(2):208-14
[22]Zhan A B,Bao Z M,Wang X L,et al.Microsatellite markers derived from bay scallop Argopecten irradians expressed sequence tags[J].Fish Sci,2005,71:1341-1346.
[23]Chen S L,Liu Y G,Xu M Y,et al.Isolation and characterization of polymorphic microsatellite loci from an EST library of red sea bream(Chrysophrys major)and cross-species amplification[J].Mol Ecol Notes,2005,5:215-217.
[24]Wang D,Liao X L,Cheng L,et al.Development of novel EST-SSR markers in common carp by data mining from public EST sequences[J].Aquaculture,2007,271:558-574
[25]徐鹏,周令华,田丽萍,等.从中国对虾ESTs中筛选微卫星标记的研究[J].水产科学,2003,27(3):213-218.
[26]VarshneyRK,GranerA,SorrellsME.Genicmicrosatellitemarkers in plants:features and applications[J].TRENDS in Biotechnology,2005,23(1):48-55.
[27]李永强,李宏伟,高丽锋,等.基于表达序列标签的微卫星标记(EST-SSRs)研究进展[J].植物遗传资源学报,2004,5(1):91-95.
[28]Zhan A,Wang Y,Brown B,et al.Isolation and characterization of novel microsatellite markers for yellow perch(Perca flavescens)[J].Int J Mol Sci,2009,10(1):18-27.