林麝全基因组微卫星分布规律研究

2017-07-31 23:54卢婷王晨杜超刘姝沈咏梅张修月岳碧松
四川动物 2017年4期
关键词:微卫星碱基总数

卢婷, 王晨, 杜超, 刘姝, 沈咏梅, 张修月, 岳碧松*

(1. 四川大学生命科学学院,四川省濒危野生动物保护生物学重点实验室,成都610064;2.四川省药用动物工程技术研究中心,成都610081)



林麝全基因组微卫星分布规律研究

卢婷1#, 王晨1#, 杜超1, 刘姝2, 沈咏梅2, 张修月1, 岳碧松1*

(1. 四川大学生命科学学院,四川省濒危野生动物保护生物学重点实验室,成都610064;2.四川省药用动物工程技术研究中心,成都610081)

林麝Moschusberezovskii是中国重要的资源动物,也是国家Ⅰ级重点保护野生动物。本研究使用生物信息学方法,分析林麝全基因组中完美型微卫星的分布特征。在林麝2.53 Gb的基因组序列中,共搜索到665 524个完美型微卫星,总长度为11 517 784 bp,占基因组序列总长度的0.42%,总丰度为244个/Mb。林麝基因组中,单碱基微卫星序列数量最多,为221 058个,约占总微卫星数的33.22%,丰度为81.05个/Mb,然后依次为二碱基、五碱基、三碱基、四碱基、六碱基重复类型微卫星。林麝基因组中数目最多的10种微卫星类别依次为:A、AACTG、AGC、AC、AT、AG、AAAT、AAC、AAT和AAAC,占所有基因组微卫星的93.2%,表现出明显的A、T偏好。林麝基因组微卫星序列分布研究表明,其在外显子(2 530个)上的分布数量远低于内含子(200 906个)和基因间隔区(454 596个),与前人关于微卫星在非编码区的分布多于编码区的结论一致。本研究为深入研究林麝基因组特征及筛选更多优良微卫星标记提供了基础数据。

林麝;全基因组;微卫星;分布规律

微卫星序列由核心序列和侧翼序列组成,其核心序列由l~6个核苷酸基序串联重复构成(蒋雪梅等,2015)。微卫星广泛分布于真核生物、原核生物和病毒的基因组中(Tautz,1989;李午佼等,2014),除分布于基因组的非编码区(如内含子和基因间隔区)外,也存在于编码区(Ellegren,2004;Huangetal.,2015)。微卫星核心序列的重复数具有高可变性,使其在不同个体中有差异,并且同一位点在不同个体中存在多个等位基因(李玉芝,2012),因而微卫星具有高度多态性。但微卫星的侧翼序列相对保守,可以根据它的保守性设计引物,再通过PCR方法对基因组DNA进行扩增得到微卫星标记。微卫星不仅在基因组中分布广泛、多态性高,而且还具有杂合子比率高、选择中性、共显性遗传、分析方法简单、实验结果稳定等优点,被广泛用于遗传图谱构建(Massaultetal.,2010)、亲缘关系鉴定(Serbezovetal.,2010)、种群遗传多样性分析(戚文华等,2014)等研究。

林麝Moschusberezovskii隶属于偶蹄目Cetartiodactyla麝科Moschidae麝属Moschus。成体雄麝香腺囊分泌的麝香具有较高的经济价值和药用价值(Mengetal.,2006),野外乱捕滥猎猖獗,加之其栖息地破坏,野生林麝已经濒临灭绝(王淯等,2006;Huangetal.,2013)。我国20世纪50年代开始人工饲养研究,取得了可喜成果,但存在管理粗放、近交退化、疾病多、繁殖力低等问题,阻碍了人工养麝业的正常发展(王淯等,2006;Sheng & Liu,2007;许珂等,2013)。本研究在完成林麝全基因组测序的基础上,对微卫星序列特征和分布规律进行统计分析,对进一步筛选高质量的林麝微卫星分子标记和林麝分子遗传学研究具有重要意义。

1 研究方法

1.1数据来源

林麝基因组大小为2.53 Gb,文件为FASTA格式,由北京诺禾致源生物信息科技有限公司测序,本实验室组装和注释。

1.2微卫星搜索

使用本实验室开发的微卫星搜索统计软件MSDBv2.4(Duetal.,2013),从林麝基因组中扫描搜索微卫星序列。设置的统计标准如下:(1)重复次数,单碱基微卫星重复次数为12次及以上,二碱基和三碱基微卫星重复次数分别为7次和5次及以上,四、五、六碱基微卫星重复次数为4次及以上;(2)重复序列的侧翼序列长度大于200 bp。

1.3微卫星定位

根据林麝基因组的注释信息,使用本实验室编写的Python脚本对搜索到的微卫星序列进行定位,判断微卫星在基因组的具体位置。

2 结果

2.1不同重复类型的微卫星的总体分布特征

在林麝2.53 Gb的基因组序列中搜索到完美型微卫星序列总数为665 524个;重复序列总长度为11 517 784 bp,占基因组序列总长度的0.42%;总丰度为244个/Mb。

不同重复类型微卫星的数量分布特征如表1所示:林麝基因组中,单碱基微卫星序列数量最多,为221 058个,约占微卫星总数的33.22%,丰度为81.05个/Mb;其次是二碱基微卫星,为144 258个,约占微卫星总数的21.68%,丰度为52.89个/Mb;六碱基微卫星数目最少,为567个,只占微卫星总数的0.09%,丰度为0.21个/Mb。

表1 微卫星各重复类型的数目、总长度、比例和丰度Table 1 The number, percent and abundance of microsatellites in different types of repeats

注: 重复类型中的Mono-, Di-, Tri-, Tetra-, Pentra-和Hexa-的后缀都是nucleotide。

Notes: The suffix of Mono-, Di-, Tri-, Tetra-, Pentra-and Hexa- is nucleotide.

2.2各重复类型微卫星核心序列重复次数分布

林麝基因组中,不同类型微卫星重复次数范围有较大的差异。单碱基微卫星的重复次数主要分布在12~16次,数量占单碱基微卫星总数的88.90%,重复12次的数目高达65 000个,最高重复次数为733次;二碱基微卫星序列重复拷贝数主要分布在7~10次,数量占二碱基微卫星总数的77.69%,重复7次的二碱基微卫星最多,有51 305个,最高重复次数达1 560次;三碱基微卫星重复拷贝数主要分布在5~7次,占95.56%,重复5次的数量超过了三碱基微卫星总数一半,为67 308个,最高重复次数为175次;四碱基微卫星中,4次重复拷贝的微卫星数目最多,为3 224个,占所有四碱基微卫星总数的82.65%,最高重复次数为437次;五碱基微卫星数目最多的也是4次重复拷贝,达100 000个,占所有五碱基微卫星数量的73.22%,最高重复次数为111次;在总数只有567个的六碱基微卫星中,其重复拷贝数在4~26次,但重复4次的六碱基微卫星超过了450个,占六碱基微卫星总数的83.07%,最高重复次数为26次。6种重复类型微卫星的最高重复次数所对应的微卫星数量都为1个,且重复次数与微卫星数量表现出随着重复次数的增加,微卫星数量逐渐减少的趋势。

2.3含量丰富的微卫星类别

林麝基因组微卫星序列中,除了不同重复类型的微卫星数量差异明显外,同种微卫星类型不同类别的数量也有很大差别(表2)。在单碱基和五碱基微卫星中,A和AACTG重复序列数量占绝对优势,分别占同类微卫星数量的98.67%和95.46%;其余4种微卫星类型中最多的重复拷贝类别分别为:AC、AGC、AAAT和AACCCT。除六碱基微卫星外,单碱基至五碱基微卫星都表现出一种重复拷贝类别数量占明显优势的结果,如三碱基微卫星中,AGC重复类别数量为97 662个,占三碱基微卫星总数(120 319)的81.17%,远超过剩下所有重复类别的总和。所有微卫星重复类别中,数目最多的10种依次为:A(32.77%),AACTG(20.13%),AGC(14.67%),AC(14.00%),AT(5.92%),AG(1.70%),AAAT(1.66%),AAC(0.81%),AAT(0.80%)和AAAC (0.72%),有明显的A、T偏好。这10种重复拷贝类别的数量都大于4 500个,占所有基因组微卫星总数的93.2%。

表2 二碱基至六碱基微卫星数目最多的重复拷贝类别Table 2 The most frequent microsatellite motifs in 2-6 repeats

2.4微卫星在基因组上的分布特征

林麝基因组微卫星在基因组上的定位结果表明,共有203 375个微卫星分布在基因上,在基因间区的有454 596个。对分布在基因上的微卫星进一步定位分析,结果如表3,有2 530个微卫星在外显子上,占基因上微卫星总数的0.38%,包括1~6碱基微卫星个数分别为:27、19、2 363、22、16和83个。外显子上三碱基微卫星数量最多,共由10种三碱基微卫星重复拷贝类别组成:CCG(702),AGC(630),AGG(398),ACC(396),ATC(107),AAG(66),AAC(33),ACG(26),AAT(3)和ACT(2)。除ATC与ACT对应的是终止密码子外,其余8种都是氨基酸密码子,它们所对应的氨基酸分别是:CCG-Gly,AGC-Ser,AGG-Ser,ACC-Trp,AAG-Phe,AAC-Leu,ACG-Cys和AAT-Leu。内含子上有200 906个微卫星,占基因上微卫星总数的30.53%,其数量远多于外显子微卫星的数量。内含子中最多的微卫星重复类型是单碱基微卫星,共有72 718个,占33.19%,其次是二碱基微卫星和三碱基微卫星。

3 讨论

本研究以实验室组装的林麝基因组序列为基础,利用生物信息学方法对林麝基因组中完美型微卫星序列进行搜索统计。微卫星序列含量分析表明,林麝的微卫星序列占基因组比例(0.42%)与哺乳纲Mammalia物种如牛Bostaurus(0.48%)、绵羊Ovisaries(0.48%)(戚文华等,2013)、牦牛Bosgrunniens(0.47 %)(Ma,2015)等物种基本一致,而低于大熊猫Ailuropodamelanoleuca(0.64%)、北极熊Ursusmaritimus(0.79%)(李午佼等,2014)、人类Homosapiens(3%)(Subramanianetal.,2003)和小鼠Musmusculus(2.85%)(童晓玲等,2006)。此结果与王月月等(2015)的研究一致,他们认为,亲缘关系越近,物种基因组微卫星特征越相似。

表3 微卫星在基因内外的数量分布Table 3 Number, percentage, and relative abundanceof microsatellites in different regions

研究表明,不同物种基因组微卫星的数量、重复类型、密度等都存在很大差别(Websteretal.,2002;汪自立等,2013)。林麝基因组微卫星中单碱基微卫星数量占优势(33.22%),这与牛、绵羊(戚文华等,2013)、牦牛(Ma,2015)等物种基因组中优势微卫星类型相同。在啮齿类和节肢动物基因组中,二碱基微卫星数量占优势,而酵母Saccharomycescerevisiae和丝状真菌Neurosporacrassa(黄杰等,2012)等基因组中,三碱基微卫星占主导地位。

在林麝基因组微卫星中,6种碱基重复类型都表现出同种重复类型的微卫星随着微卫星核心序列重复次数的增加,其对应的微卫星数量逐步减少的趋势,如单碱基微卫星主要集中在重复12~16次,而最高重复数733次的单碱基微卫星只有1个,从而使单碱基微卫星序列的长度主要集中在12~16 bp。这个规律与Ellegren(2000)的研究相符,他们认为在基因座上,长等位基因倾向于变短,从而阻止微卫星长度的无限增长,因此微卫星序列的长度一般会维持在一定范围内。这可能与微卫星的稳定性有关,随着微卫星长度的增加,其稳定性会下降(Wierdletal.,1997),而长微卫星数量不多可能是由于它们有下调的突变偏好且存在时间短(Harr & Schlötterer,2000)。

微卫星在林麝基因组中的分布也有差异,其在外显子(2 530个)上的分布数量远低于非编码区,如内含子(200 906个)和基因间隔区(454 596个),此结果支持前人关于微卫星在非编码区的分布多于编码区的结论(Ellegren,2004)。外显子所有微卫星序列中,三碱基微卫星数量最为丰富,占外显子微卫星总数的93.40%,这可能是编码区中非三碱基微卫星类型的突变会导致移码突变,而生物的选择作用将会减少这些非三碱基微卫星的固定,从而减少其含量(Metzgaretal.,2000;Doyleetal.,2013)。

微卫星作为遗传标记的应用实践表明,相对于二碱基、三碱基微卫星,四碱基微卫星位点在PCR过程中,不易出现滑带(stutter bands)或阴影带(shadow bands),相对能产生更稳定、更精确的基因分型结果(Archieetal.,2003;Lietal.,2010)。然而,目前已公布的微卫星标记全部为二碱基微卫星(Zouetal.,2005;Xiaetal.,2006;Zhangetal.,2007;Zhaoetal.,2008)。根据林麝基因组四碱基微卫星序列分析结果,共搜索到四碱基微卫星38 989个,但绝大多集中在低重复次数(重复4次),重复5次以上的很少,林麝四碱基微卫星数量有限,这是到目前为止分离筛选得到的高质量四碱基微卫星分子标记较少的重要原因。

黄杰, 杜联明, 李玉芝, 等. 2012. 红原鸡全基因组中微卫星分布规律研究[J]. 四川动物, 31(3): 358-363.

蒋雪梅, 胡廷章, 向兴胜, 等. 2015. 杨树全基因组微卫星序列的统计及其生物信息学分析[J]. 西南农业学报, 28(2): 527-533.

李午佼, 李玉芝, 杜联明, 等. 2014. 大熊猫和北极熊基因组微卫星分布特征比较分析[J]. 四川动物, 33(6): 874-878.

李玉芝. 2012. 大熊猫基因组微卫星序列分析和遗传标记筛选[D]. 成都: 四川大学.

戚文华, 蒋雪梅, 肖国生, 等. 2013. 牛和绵羊全基因组微卫星序列的搜索及其生物信息学分析[J]. 畜牧兽医学报, 44(11): 1724-1733.

戚文华, 蒋雪梅, 肖国生, 等. 2014. 猪全基因组中微卫星分布规律[J]. 畜牧与兽医, 46(8): 9-13.

童晓玲, 代方银, 李斌, 等. 2006. 小鼠基因组中的微卫星重复序列的数量、分布和密度[J]. Current Zoology, 52(1): 138-152.

汪自立, 黄杰, 杜联明, 等. 2013. 二斑叶螨和肩突硬蜱基因组微卫星分布规律研究[J]. 四川动物, 32(4): 481-486.

王月月, 刘雪雪, 董坤哲, 等. 2015. 7种家养动物全基因组微卫星分布的差异研究[J]. 中国畜牧兽医, 42(9): 2418-2426.

王淯, 姜海瑞, 薛文杰, 等. 2006. 林麝(Moschusberezovskii)研究概况和进展[J]. 四川动物, 25(1): 195-200.

许珂, 卜书海, 梁宗锁, 等. 2013. 林麝研究进展[J]. 黑龙江畜牧兽医, (7): 147-150.

Archie EA, Moss CJ, Alberts SC. 2003. Characterization of tetranucleotide microsatellite loci in the African Savannah elephant (Loxodontaafricanaafricana)[J]. Molecular Ecology Notes, 3(2): 244-246.

Doyle JM, Siegmund G, Ruhl JD,etal. 2013. Microsatellite analyses across three diverse vertebrate transcriptomes (Acipenserfulvescens,Ambystomatigrinum, andDipodomysspectabilis)[J]. Genome, 56: 407-414.

Du LM, Li YZ, Zhang XY,etal. 2013. MSDB: a user-friendly program for reporting distribution and building databases of microsatellites from genome sequences[J]. Journal of Heredity, 104(1): 154-157.

Ellegren H. 2000. Heterogeneous mutation processes in human microsatellite DNA sequences[J]. Nature Genetics, 24(4): 400-402.

Ellegren H. 2004. Microsatellites: simple sequences with complex evolution[J]. Nature Reviews Genetics, 5(6): 435-445.

Harr B, Schlötterer C. 2000. Long microsatellite alleles inDrosophilamelanogasterhave a downward mutation bias and short persistence times, which cause their genome-wide underrepresentation[J]. Genetics, 155(3): 1213-1220.

Huang J, Li YZ, Li P,etal. 2013. Genetic quality of the Miyaluo captive forest musk deer (Moschusberezovskii) population as assessed by microsatellite loci[J]. Biochemical Systematics & Ecology, 47(8): 25-30.

Huang J, Li YZ, Du LM,etal. 2015. Genome-wide survey and analysis of microsatellites in giant panda (Ailuropodamelanoleuca), with a focus on the applications of a novel microsatellite marker system[J]. BMC Genomics, 16(1): 1-12.

Li YZ, Xu X, Shen FJ,etal. 2010. Development of new tetranucleotide microsatellite loci and assessment of genetic variation of giant panda in two largest giant panda captive breeding populations[J]. Journal of Zoology, 282(1): 39-46.

Ma Z. 2015. Genome-wide characterization of perfect microsatellites in yak (Bosgrunniens)[J]. Genetica, 143(4): 1-6.

Massault C, Hellemans B, Louro B,etal. 2010. QTL for body weight, morphometric traits and stress response in European sea bassDicentrarchuslabrax[J]. Animal Genetics, 41(4): 337-345.

Meng X, Zhou C, Hu J,etal. 2006. Musk deer farming in China[J]. Animal Science An International Journal of Fundamental & Applied Research, 82(1): 1-6.

Metzgar D, Bytof J, Wills C. 2000. Selection against frameshift mutations limits microsatellite expansion in coding DNA[J]. Genome Research, 10(1): 72-80.

Serbezov D, Bernatchez L, Olsen EM,etal. 2010. Mating patterns and determinants of individual reproductive success in brown trout (Salmotrutta) revealed by parentage analysis of an entire stream living population[J]. Molecular Ecology, 19(15): 3193-3205.

Sheng HL, Liu ZX. 2007. The musk deer in China[M]. Shanghai: The Shanghai Scientific & Technical Publishers.

Subramanian S, Mishra RK, Singh L. 2003. Genome-wide analysis of microsatellite repeats in humans: their abundance and density in specific genomic regions[J]. Genome Biology, 4(2): 1-10.

Tautz D. 1989. Hyper variability of simple sequences as a general source for polymorphic DNA markers[J]. Nucleic Acids Research, 17(16): 6463-6471.

Webster MT, Smith NGC, Ellegren H. 2002. Microsatellite evolution inferred from human-chimpanzee genomic sequence alignments[J]. Proceedings of the National Academy of Sciences of the United States of America, 99(13): 8748-8753.

Wierdl M, Dominska M, Petes TD. 1997. Microsatellite instability in Yeast: dependence on the length of the microsatellite[J]. Genetics, 146(3): 769-779.

Xia S, Zou FD, Yue BS. 2006. Six microsatellite loci in forest musk deer,Moschusberezovskii[J]. Molecular Ecology Notes, 6(1): 113-115.

Zou F, Yue B, Liu X,etal. 2005. Isolation and characterization of microsatellite loci from forest musk deer (Moschusberezovskii)[J]. Zoological Research, 22(5): 593-598.

Zhang SC, Yue BS, Zou FD. 2007. Isolation and characterization of microsatellite DNA markers from forest musk deer (Moschusberezovskii)[J]. Zoological Research, 690(24): 6227-6232.

Zhao SS, Xuan C, Fang SG,etal. 2008. Development and characterization of 15 novel microsatellite markers from forest musk deer (Moschusberezovskii)[J]. Conservation Genetics, 9(3): 723-725.

DistributionRegularityofMicrosatellitesinMoschusberezovskiiGenome

LU Ting1#, WANG Chen1#, DU Chao1, LIU Shu2, SHEN Yongmei2, ZHANG Xiuyue1, YUE Bisong1*

(1. Sichuan Key Laboratory of Conservation Biology on Endangered Wildlife, College of Life Sciences, Sichuan University,Chengdu 610064, China; 2. Sichuan Medicinal Animal Engineering Technology Research Center, Chengdu 610081, China)

Forest musk deer (Moschusberezovskii) is a critically endangered species. Perfect microsatellite number and distribution regularity of microsatellites in forest musk deer genome were analyzed by microsatellite search tool. A repertoire of 665 524 perfect SSRs with 1-6 bp nucleotide motifs accounting for 0.42% of forest musk deer genome (2.53 Gb) were scanned, and the abundance of microsatellites was 244 no./Mb. Mono-nucleotide was the most abundant category with the highest relative abundance (81.05 no./Mb), accounting for 33.22% of all the SSRs, followed by di-nucleotide (21.68%), pentra-nucleotide (21.09%), tri-nucleotide (18.08%), tetra-nucleotide (5.86%), and hexa-nucleotide (0.09%). The most abundant microsatellite repeats in forest musk deer genome were A, AACTG, AGC, AC, AT, AG, AAAT, AAC, AAT, and AAAC, totally accounting 93.2% of the scanned microsatellites and showed an apparent A and T preference. The number of microsatellites located on the coding sequences (n=2 530) was less than that on the non-coding sequence such as introns (n=200 906) and intergenic regions (n=454 596), and this was consistent with previous studies. This study provides adequate material for the future study of forest musk deer.

Moschusberezovskii; genome; microsatellite; distribution regularities

2017-02-17接受日期:2017-04-26

四川省科技支撑计划(2014NZ0107)

卢婷(1991—), 女, 硕士研究生, 从事动物分子生物学研究, E-mail:619016141@qq.com#同等贡献第一作者

*通信作者Corresponding author, E-mail:bsyue@scu.edu.cn

10.11984/j.issn.1000-7083.20170044

Q959.8

: A

: 1000-7083(2017)04-0420-05

猜你喜欢
微卫星碱基总数
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
绿鳍马面鲀全基因组微卫星分布特征
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
◆我国“三品一标”产品总数超12万个
哈哈王国来了个小怪物
枣转录组序列的微卫星特征分析