刘 凯,谢 楠,冯晓宇,刘新轶,潘彬斌,姚桂桂
(杭州市农业科学研究院,浙江 杭州 310024)
三角鲂肝脏EST序列微卫星信息分析
刘 凯,谢 楠,冯晓宇,刘新轶,潘彬斌,姚桂桂
(杭州市农业科学研究院,浙江 杭州 310024)
摘要:利用RNA-Seq技术对三角鲂的肝脏进行了转录组测序,获得了大量EST序列后,利用MISA软件进行微卫星信息分析。结果表明,通过转录组测序获得三角鲂EST序列62780条,长度31.9 Mb,发现8853个SSR,出现频率为14.1%。在三角鲂EST-SSR中,重复单元以1~2碱基重复为最多,并以长度小于16 bp的短重复序列为主,间隔SSR和复合SSR的EST序列RPKM均值低于单纯型SSR的EST序列RPKM均值,且在单纯型SSR中SSR长度越长,其RPKM均值则越低。因此,对富含SSR位点的EST序列的挖掘将为开发SSR特异性标记,并应用于三角鲂生物多样性和选育提供了参考。
关键词:三角鲂;表达序列标签;微卫星;序列分析
三角鲂(Megalobramaterminalis)隶属鲤形目(Cypriniformes)鲤科(Cyprinidae)鲌亚科(Culterinae)鲂属(Megalobrama),在我国岭南以北各大水系均有分布。受捕捞、环境因素的影响,目前,国内三角鲂的野生自然资源量已经相对匮乏,仅在钱塘江、长江中游、珠江、黑龙江有一定数量的分布。其中以钱塘江流域三角鲂最为著名,钱塘江六和塔附近一带的“塔鳊”以及梅城三江交汇处盛产的“三江鳊”均指三角鲂,该品种具有生长快、病害少、养殖效益高、成活率高、肉质好、经济价值高等优势[1]。目前,三角鲂已成为浙江省主要特色名优淡水养殖品种之一,尤其是杭州地区,三角鲂养殖已形成相当大的规模。
随着养殖规模的不断扩大,进一步保护、开发钱塘江三角鲂,推动三角鲂养殖产业化发展成为迫在眉睫需要开展的工作。目前,对钱塘江三角鲂种质资源的保护与研究不够深入[2-4],因此,深入研究三角鲂遗传育种并加以利用,可进一步提升养殖三角鲂的优良性状。随着科学技术的快速发展,RNA-Seq技术的出现为非模式生物转录组研究带来了生机,由于无需所研究物种的基因信息,即可对其进行转录组分析而受到广大研究者的青睐。微卫星(Simple Sequence Repeats,SSR)作为第二代分子标记,因其在基因组中数量众多、分布均匀、共显性等优点,被越来越多地用于水生动物群体遗传学分析。因此,本文基于RNA-Seq技术对三角鲂进行转录组测序,获得相关EST序列并进行SSR信息分析,以期能为三角鲂的种质资源保护和相关分子标记开发等提供参考。
1材料与方法
1.1试验材料
试验用三角鲂采自浙江杭州国家级钱塘江三角鲂原种场,体质健康(体重≈750 g)。试验用样品组织为肝脏,分别采集6个三角鲂的肝脏并混合后作为转录组建库及测序样本,将样品组织先经液氮瞬时冷冻,之后于-80 ℃低温保存备用。
1.2EST序列的获得
从三角鲂的肝脏提取mRNA构建cDNA文库,建好的文库用Illumina HiSeq 2000进行测序,经过序列拼接及去重复,得到62780个EST序列,大小为31.9 Mb,序列平均长度为531.89 bp,G、C碱基占总碱基的比例为45.7%,N50值为652,可以满足后续数据分析要求。
1.3基因表达丰度
用拼接得到的转录本(≥200 bp)做库,用序列相似性比对法求各转录本在各样本中的表达丰度,丰度值采用RPKM(Reads Per Kilobase of exon model per Million mapped reads)法计算。使用软件bwa(http://sourceforge.net/projects/bio-bwa),采用single-end的mapping方法,允许一个reads比对到多个转录本上,此时每个reads在每个转录本上计1/n,每个EST序列下面的所有转录本可比对上的reads均计于该EST序列下。
1.4SSR分析
以Illumina HiSeq 2000测序获得的EST序列作为参考序列,使用SSR筛选软件MISA(http://pgrc.ipk-gatersleben.de/misa/misa.html)进行SSR筛选。筛选标准为1个碱基重复≥10次,2个碱基重复≥6,3~6个碱基重复≥5次,两个微卫星之间的距离小于100 bp的时候,两个微卫星组成一个复合微卫星。用SSR出现频率和SSR平均分布距离来描述SSR,出现频率前2位的重复单元定义为优势重复单元。计算公式分别为:
SSR出现频率=搜索到的SSR数量/EST序列数量
SSR平均分布频率=EST序列总碱基数/搜索到的SSR数量
利用Primer3 interface modules (http://pgrc.ipk-gatersleben.de/misa/Primer3.html)对SSR筛选结果进行预处理后,利用Primer3(http://sourceforge.net/projects/Primer3)进行SSR引物的批量设计,引物设计的参数是Tm为60 ℃,引物长度为20 bp。
2结果与分析
2.1三角鲂肝脏EST序列中SSR重复单元分布
利用MISA软件对三角鲂肝脏的EST序列进行SSR特征分析,检测的三角鲂肝脏EST序列共62780条,长度为31.9 Mb,共发现8853个SSR,出现频率为14.1%,平均每3.69 kb出现1个SSR。检出的SSR包含了1、2、3、4、5、6碱基重复单元,不同重复单元出现频率随碱基数增加而明显降低,其中最常见的是1碱基和2碱基重复单元,各重复单元SSR出现频率及分布频率信息见表1。
表1 三角鲂肝脏EST序列中不同重复
注:不同重复单元SSR分布情况考虑到了碱基的互补作用。下同。
在搜索到的三角鲂肝脏EST序列SSR中,共观察到52种不同的重复单元类型,其中1碱基重复2种、2碱基重复4种、3碱基重复10种、4碱基重复16种、5碱基重复11种、6碱基重复9种。1碱基重复中,A/T类型出现的频率最高,占95.42%;2碱基重复中,AC/GT出现的频率最高,占60.67%;3碱基重复中,ATC/ATG出现的频率最高,占28.06%;4碱基重复中,AAAG/CTTT出现的频率最高,占20.45%;5碱基重复中,AAAAG/CTTTT出现的频率最高,占18.42%;6碱基重复中,ACCTCC/AGGTGG出现的频率最高,占97.87%,结果见表2。
2.2三角鲂肝脏EST序列中SSR的长度分布
对三角鲂肝脏的EST序列中所发现的SSR长度变化进行了分析,结果发现序列所含SSR在长度上存在显著变异,SSR长度从10到217个碱基不等,SSR的加权平均长度为21.94 bp,以长度小于16 bp的短重复序列最多,其次是长度为16~20 bp的序列重复,大于40 bp的较长序列重复占比为7.57%(图1),利用SPSS进行Pearson相关性分析表明,三角鲂肝脏SSR数量和长度呈显著负相关性,相关系数为-0.487,P=0.000<0.01具有统计学意义。
以SSR数量对碱基重复数量作图(图2),由此可知,SSR数量随着碱基重复次数的增加而呈明显下降趋势,而且碱基重复次数越少,SSR数量下降的速率就越快。1碱基重复次数达到24次、2碱基重复次数达到21次、其他碱基重复次数达到12次的时候,SSR数量的下降速率降低并进入平台期。
表2 三角鲂肝脏EST序列中不同重复单元SSR的出现频率
三角鲂肝脏62780条EST序列中,含SSR的EST序列共有6209条,占总数的9.89%。将含SSR的EST序列与不含SSR的EST序列的RPKM均值比较,含SSR的EST序列的RPKM均值为47.86,是不含SSR的EST序列的RPKM均值22.40的2.14倍。Weber将微卫星分为3类,即单纯(Pure)SSR、复合(Compound)SSR和间隔(Interrupted)SSR[15]。本试验发现,三角鲂肝脏中含有间隔SSR和复合SSR的EST序列的RPKM均值分别为35.92、63.04,单纯型SSR的EST序列的RPKM均值为48.93,高于间隔SSR的EST序列的RPKM均值,但低于复合SSR的EST序列的RPKM均值,结果见表3。对SSR长度与相关EST序列的RPKM值进行相关性分析,SSR长度与EST序列的RPKM值相关系数为-0.007,无显著相关性。
以三角鲂肝脏的EST序列为基础,利用Primer3软件进行批量引物设计,14561个含SSR序列,7297条序列引物设计失败,成功设计7264对SSR引物,成功率为49.89%。
图1 三角鲂肝脏EST序列中SSR碱基
图2 三角鲂肝脏EST序列中SSR数量
3讨论
本试验分析了三角鲂肝脏EST序列中SSR的分布频率和重复单元的特征,发现三角鲂肝脏19.03%的EST序列中能检出SSR,这一比例明显高于栉孔扇贝(1.61%)、中国对虾(2.2%)、鲤鱼(5.55%),中华鳖(7.45%)和斑点叉尾鮰(11.2%)的[5-9]。这表明基于转录组测序获得EST序列后去寻找SSR标记有明显优点,当然SSR出现频率的显著差异也可能是由于水生动物物种特异性引起的,此外也有部分原因是筛选SSR设定参数的不同所造成的。
在三角鲂肝脏EST-SSR中,重复单元以1~2碱基重复为最多,其次是3、4、5和6碱基重复,这与牙鲆、中国对虾和凡纳滨对虾中的研究结果相似[6,10-11],而在缢蛏和大黄鱼的研究中[12-13],3碱基重复比例大于2碱基重复。此外,本试验中发现,三角鲂肝脏EST-SSR中6碱基重复比例相对于4、5碱基重复明显要高,该结果与长牡蛎EST-SSR的研究类似[14],其中出现频率最高的是ACCTCC/AGGTGG。在三角鲂肝脏EST-SSR的2碱基重复单元中出现频率最高的是AC/GT,这与牙鲆、鲤鱼、中华鳖和斑点叉尾鮰的结果一致[7-10]。而在缢蛏中频率最高的是AT/AT[12]、长牡蛎中AG/CT数量最多[14]。由此推测,这种SSR碱基偏倚性可能在大多数水生生物中存在,具有物种特异性,也不排除与试验方法的差异有关。
由重复单元的重复次数不同所造成的多态性常常表现为复等位性,在不同的基因型间存在丰富的多态性。研究者认为这种多态性起因于复制过程中的滑动[16]。因此,SSR长度的变化反映SSR位点获得或失去重复单元的活跃程度。越来越多的研究表明,SSR参与基因的表达调控及基因重排、变异等活动并与肿瘤发生及神经系统疾病有关[17-20]。在罗非鱼研究中发现,SSR长度与基因表达强度相关,在无环境胁迫的条件下SSR长度越长,基因表达水平越低,在有环境胁迫的条件下则反之[21]。本试验发现,三角鲂肝脏测序所获得的EST序列中,,单纯型SSR的EST序列的RPKM均值,高于间隔SSR的EST序列的RPKM均值,但低于复合SSR的EST序列的RPKM均值,表明三角鲂肝脏中复合SSR的EST序列表达强度较高。在单纯型SSR中SSR长度越长,其RPKM均值则越低,这与罗非鱼上的研究结论类似。而在杨树和茶树EST-SSR的研究中认为,含有SSR的基因总体表达水平偏低,这样有利于相应基因在基因组中的保存,规避部分选择压力[22-23]。但本试验中发现,三角鲂肝脏中含SSR的EST序列的RPKM均值明显高于不含SSR的EST序列的RPKM均值,与杨树和茶树的研究结果不同,这也许是由于物种差异或试验方法上的差别所造成的,但有待进一步研究。此外,本试验中使用Primer3对转录本进行批量SSR引物设计,大大提高了工作效率,为下一步工作的开展奠定了基础。
参考文献:
[1] 冯晓宇.浙江省三角鲂研究进展及示范推广情况[J].科学养鱼,2009(10):40-41.
[2] 李思发,朱泽闻,邹曙明,等.鲂属团头鲂、三角鲂及广东鲂种间遗传关系及种内遗传差异[J].动物学报,2002,48(3):339-345.
[3] 谢楠,刘新轶,冯晓宇,等.鲂属鱼类细胞色素b片段序列分析[J].现代农业科技,2012(1):290-292.
[4] 张倩倩,陈杰,蒋霞云,等.不同鳊鲂鱼类群体微卫星DNA指纹图谱的构建和遗传结构分析[J].水产学报,2014,38(1):15-22.
[5] Zhan A B, Bao Z M, Hu X L. Characterization of 95 novel microsatellite markers for Zhikong scallopChlamysfareriusing FIASCO colony hybridization and EST database mining[J]. Fisheries Science, 2008, 74(3): 516-526.
[6] Wang H X, Li F H, Xiang J H. Polymorphic EST-SSR markers and their mode of inheritance inFenneropenaeuschinensis[J]. Aquaculture, 2005, 249(1/4): 107-114.
[7] Wang D, Liao X L, Cheng L, et al. Development of novel EST-SSR markers in common carp by data mining from public EST sequences[J]. Aquaculture, 2007, 271(1/4): 558-574.
[8] 许晓军,张海琪,张超,等.中华鳖表达序列标签资源中的微卫星信息分析[J].经济动物学报,2013,17(1):5-18.
[9] Serapion J, Kucuktas H, Feng J N, et al. Bioinformatic mining of type I microsatellites from expressed sequence tags of channel catfish(Ictaluruspunctatus)[J]. Mar. Biotechnol, 2004, 6(4): 364-377.
[10] 陈松波,龚丽,刘海金.牙鲆EST资源的SSR信息分析[J].东北农业大学学报,2010,41(10):82-86.
[11] 王艳红,胡超群,张吕平,等.凡纳滨对虾EST微卫星标记初步筛选[J].大连水产学院学报,2008,23(4):304-308.
[12] 刘博,邵艳卿,滕爽爽,等.缢蛏(Sinonovaculaconstricta)EST-SSR分布特征及引物开发利用[J].海洋与湖沼,2012,43(1):133-137.
[13] Zhang A, Wang Y, Brown B, et al. Isolation and characterization of novel microsatellite markers for yellow perch (Percaflavescens)[J]. Int Mol Sci, 2009, 10(1): 18-27.
[14] 张琳琳,李莉,张国范.长牡蛎(Crassostreagigas)EST串联重复序列的组成和分布[J].海洋科学,2011,35(4):9-14.
[15] Weber J L. Informativeness of human (dC-dA)n·(dG-dT)n poly-morphisms[J]. Genomics, 1990, 7(4): 524-530.
[16] Sharopova N. Plant simple sequence repeats: distribution, variation, and effects on gene expression[J]. Genome, 2008, 51(2): 79-90.
[17] Thibodeau S N, Bren G, Schaid D. Microsatellite instability in cancer of the proximal colon[J]. Science, 1993, 260(5109): 816-819.
[18] Aaltonen L A, Lauri A, Leach F S, et al. Clues to the pathogenesis of familial colorctal cancer[J]. Science, 1993, 260(5109): 812-816.
[19] Yurij Ionov, Miguel A Peinado, Sergei Malkhosyan, et al. Ubiquitous somatic mutations in simple repeated sequences reveal a new mechanism for colon carcinogenesis[J]. Nature, 1993, 363(6429): 558-561.
[20] Toth G, Gaspari Z, Jurka J. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Research, 2000, 10(7): 967-981.
[21] Streelman J, Kocher T. Microsatellite variation associated with prolactin expression and growth of salt-challengedTilapia[J]. Physiol. Genom, 2002, 9(1): 1-4.
[22] 刘菁菁,戴晓港,王洁,等.杨树微卫星序列对基因表达频率的影响及表达序列中微卫星特征的分析[J].南京林业大学学报:自然科学版,2011,35(1):11-14.
[23] 王丽鸳,韦康,张成才,等.茶树花转录组微卫星分布特征[J].作物学报,2014,40(1):80-85.
(责任编辑:曾小军)
Analysis of Microsatellite Information of Expressed Sequence Tags in Liver ofMegalobramaterminalis
LIU Kai, XIE Nan, FENG Xiao-yu, LIU Xin-yi, PAN Bin-bin, YAO Gui-gui
(Hangzhou Academy of Agricultural Sciences in Zhejiang Province, Hangzhou 310024, China)
Abstract:A lot of expressed sequence tags (EST) obtained from transcriptome sequencing of livers inMegalobramaterminalisbased on high-throughput RNA sequencing technology, and perform analysis of simple sequence repeats (SSR) information in EST. The results showed that, 62780 EST with 31.9 Mb length were obtained, and 8853 EST-SSR mined out by MISA, the frequency of which was 14.1%. In the EST-SSR ofMegalobramaterminalis, nucleotide and binucleotide repeats were the main types, in a short length of less than 16 bp mainly, mean RPKM of EST contain interrupted and compound SSR were lower than mean RPKM of EST contain pure SSR, and in the pure EST-SSR, the longer SSR in length, the lower mean of RPKM. These EST sequences containing SSR would facilitate the further development of specific SSR markers, as well as providing reference for applying the biodiversity ofMegalobramaterminalisand breeding.
Key words:Megalobramaterminalis; Expressed sequence tags; Microsatellite; Sequence analysis
收稿日期:2015-11-07
基金项目:国家大宗淡水鱼产业技术体系(CARS-46-43);三角鲂良种繁育及产业化发展项目(浙江省杭州市财政专项)“三角鲂良种选育与生态养殖”。
作者简介:刘凯(1982─),男,工程师,研究方向:水产养殖。
中图分类号:Q785
文献标志码:A
文章编号:1001-8581(2016)06-0087-05