利用高通量测序技术分析核桃基因组微卫星特征1)

2014-09-18 11:11廖卓毅马秋月戴晓港张得芳李淑娴
东北林业大学学报 2014年2期
关键词:微卫星碱基核桃

廖卓毅 马秋月 戴晓港 张得芳 李淑娴

(林木遗传与生物技术省部共建教育部重点实验室(南京林业大学),南京,210037)

微卫星序列(microsatellite or simple sequence repeats,SSR)是指以1~6个核苷酸为基本重复单位的串联重复序列[1]。微卫星广泛分布于各种生物的基因组中,尤其是真核生物基因组中。在群体间和不同个体间,微卫星序列均表现出很高的变异性,其在基因组中的位置决定了它的功能,能够影响包括基因调控、发展和进化等各个方面。目前,SSR分子标记技术广泛应用于植物遗传多样性分析、连锁图谱制作、疾病连锁分析和品种鉴定等方面[2-4]。

目前,微卫星在遗传学领域得到了广泛应用,随着大规模物种基因组测序工作的开展,已经在脊椎和无脊椎动物(人类、蚊子、鸡、斑马鱼和中国对虾等)、植物(拟南芥、水稻和小麦等)以及一些原核生物等30个以上的物种进行了基因组微卫星分布特征分析[5-9]。这些研究结果表明,不同物种微卫星的分布特征存在着较大差异,微卫星的突变率也不相同[10-11],并且物种本身碱基组成也是选择的结果。所以基于物种间基因组水平上微卫星分布特征的比较分析,有助于从进化学的角度了解各重复类型分布特点及其功能。

核桃(Juglans regia L.)又名胡桃、合桃,属于胡桃科核桃属[12],果实富含碳水化合物、油脂、维生素和矿物质,享有“长寿之果”的美誉,是理想的滋补食品。不同学者对核桃微卫星已有了一定的研究,Woeste等[13]最早通过构建微卫星文库,从黑核桃中开发出30对SSR引物用于品种的鉴别;齐建勋等[14]通过检索核桃EST序列,开发了40对EST-SSR引物。Dangl等[15]应用SSR标记对主要来自欧美的48份资源进行了遗传多样性分析和品种的SSR鉴定。Wang等[16]用8个SSR标记研究了核桃和铁核桃天然居群的遗传结构。刘秀丽等[17]用7个SSR标记对3个核桃群体的遗传结构进行了分析,但从基因组水平上对核桃微卫星进行分析还没有报道。本研究利用Roche—454GSFLX高通量测序平台,对核桃进行低覆盖度的基因组测序,并分析其微卫星序列组成及特征、微卫星分布频率和丰度,旨在为从基因组水平上了解核桃微卫星进化和功能以及微卫星标记的开发、品种的真实性鉴定研究等工作提供一定的理论基础。

1 材料与方法

试验材料取自南京林业大学校园内。2012年春天采集刚萌发的嫩叶,采集后立即置于便携式冰盒中带回实验室,置于冰箱中-80℃备用。

1.1 DNA提取及测序

基因组DNA的提取和提纯采用植物DNA提取试剂盒DP305(上海玉博生物科技有限公司)。利用Roche-454GS FLX测序仪对核桃DNA样品进行测序。

1.2 分析方法

测序后所得数据利用454自带软件Roche Newbler 2.7进行序列拼接。采用 Misa(www.pgrc.ipkgatersleben.de/misa)程序进行所有重复单元长度微卫星的查找,其中参数设置为:单碱基重复最短为10个重复、二碱基重复最短为6个重复、三碱基重复最短为4个重复、四碱基重复最短为3个重复、五碱基重复最短为3个重复、六碱基重复最短为2个重复。不同重复单元微卫星密度的计算:D=N/L。其中,D为不同重复微卫星密度(个/Mb);N为各重复单元微卫星数量(个);L为核桃基因组重叠群总长(Mb)。

2 结果与分析

2.1 测序及拼接结果

本研究利用Roche-454 FLX高通量测序后,共测得104.5 Mb的核桃基因组序列,序列总数为541176条,碱基总数为194024314 bp,平均读长为358.5 bp。在所测得的序列中,CG碱基数为72563561 bp,CG碱基比例为37.41%。此外 Q20占总碱基百分比为85.5%。在高通量测序中,每测一个碱基就会给出一个相应的质量值,用以衡量测序的准确度,碱基的质量值为20,表示测序的错误率为1%,所以Q20含量是评价测序准确率的有效指标。本试验中Q20所占总碱基百分比为85.5%,表明测序具有较高的准确度。

通过Roche Newbler 2.7软件进行序列拼接和组装,产生了143078个完全组装序列,68799个部分组装序列,320318个单一序列以及1622个重复序列。其中大于500 bp的重叠群有9707个,重叠群的最大长度为47928 bp,部分拼接数据见表1。

表1 有效读长序列拼接结果

对核桃基因组进行测序查找,共获得SSR序列9787条,核桃基因组部分微卫星重复序列的信息见表2。

2.2 核桃基因组微卫星丰度及分布密度分析

通过对核桃基因组进行随机测序,从总长为9483541 bp的有效读长中找到9787个微卫星,平均每969 bp出现一个。对获得的SSR进行密度分析,因各重复类型的长度不一,所得密度也存在较大差异。进一步分析发现,在9787个核桃微卫星中,六碱基重复为最多重复类型,共5883个,占总数的60.11%;其次是单碱基重复,1289个,占总数的13.17%;再次分别是四碱基重复、二碱基重复、三碱基重复和五碱基重复(表3)。

2.3 核桃基因组微卫星的优势重复拷贝类型碱基组成分析

在单碱基重复中,A/T碱基为优势重复单元,共1268个,占单碱基重复序列总数的98.37%,C/G碱基重复占1.63%;二碱基中,重复单元最多的为AT/TA,共399个,占二碱基重复序列总数的51.95%,其次是AG/CT和AC/GT,分别为278个(36.20%)和88 个(11.46%),最少的 CG/GC,仅3 个,占总数的0.39%;在三碱基重复中,共发现9种重复单元,共计549个,其中AAT/ATT重复为181个,AAG/CTT重复151个,ATC/ATG重复72个,分别占三碱基重复序列总数的32.97%、27.50%和13.11%,三者共占总数的73.58%,其次是AGG/CCT重复为37个(6.74%)、ACC/GGT 重复 34 个(6.19%)、AAC/GTT重复 33个(6.01%)、ACT/AGT重复 21个(3.83%)、AGC/CTG 重复 16 个(2.91%),最少的为ACG/CGT重复,仅4个,占0.73%;在889个四碱基重复中,AAAT/ATTT最多,共293个,占四碱基重复总数的32.96%,其次是AAAG/CTTT,共106个,占总数的11.92%,另外AATG/ATTC重复57个(6.41%),AATT/AATT 重复 49 个 (5.51%),AAAC/GTTT重复 47个(5.28%),ACAT/ATGT 重复、ATGC/ATGC重复和AGCT/AGCT重复均为41个(4.61%),AGGG/CCCT 重复、AAGG/CCTT 重复和AATC/ATTG重复分别为26个(2.92%)、25个(2.81%)和24 个(2.70%);在五碱基重复中,总共25种重复类型,其中 AGATG/ATCTC重复和AAAAT/ATTTT重复为最多重复单元,分别为79个(19.31%)和 77 个(18.82%),其次是 AAAAG/CTTTT,为37 个(9.05%),另外,AAATG/ATTTC 重复18个(4.16%)、AAAAC/GTTTT重复17个(4.16%)、AATAT/ATATT 重复17个(4.16%)、ACCGG/CCGGT重复17个(4.16%)、ATATC/ATATG

重复14个(3.42%)、AACTC/AGTTG重复13个(3.41%)、AACAT/ATGTT 重复和 ACCCG/CGGGT重复均为11个(2.69%),剩余其他重复单元较少;在5883个六碱基重复微卫星中,重复单元类型多达118种,各重复单元所占总数的比例都很小,其中以AAAAAT/ATTTTT重复和AAAAAG/CTTTTT重复最多,分别为390个和299个,占总数的6.63%和5.08%,其它几种含量较多的六碱基重复拷贝类型中,AAAAAC/GTTTTT重复(145个)、AAAATT/AATTTT重复(129个)、AAAATC/ATTTTG重复(114个)、AAATAT/ATATTT重复(114个)、AAAGAG/CTCTTT重复(101个)、AAGAGG/CCTCTT重复(94个)、AAATTG/AATTTC重复(93个)、AAAAGG/CCTTTT重复(80个)依次减小。

总体而言,在核桃基因组微卫星序列中,六碱基重复是最丰富的微卫星类型,其次是单碱基重复。对这6种微卫星重复类型进行统计分析,我们还发现,五碱基重复微卫星中AGATG和AAAAT是最多的两类,而单碱基重复微卫星中,A/T占总数的98.37%;同样,二、三、四和六碱基重复微卫星中,含量最多的分别是AN、AAN、AAAN和AAAAAN(N表示除A碱基外的其他任何碱基)。总的来说,核桃微卫星中富含A和T碱基。

表2 核桃微卫星数据库的部分结果

表3 不同长度重复单元微卫星所占比例及分布密度

2.4 核桃基因组微卫星长度分布及变异分析

本研究中核桃基因组微卫星的平均长度为21.86 bp,最长578 bp,最短10 bp,这些微卫星以10 ~20 bp 为主,长度≥20 bp的微卫星仅占17.22%(图1)。

图1 核桃微卫星长度分布及不同长度微卫星频率

进一步对SSR相对丰度与重复次数的关系进行分析,结果表明,核桃中SSR相对丰度随着重复次数的增加而迅速下降,但不同基因序列长度类型的下降速度不同。总体看,单碱基重复次数超过17、二碱基超过19、三碱基超过8、四碱基和五碱基超过6、六碱基超过4之后,相对丰度就接近于零了。从柱状数量变化还可以看出,二碱基重复微卫星长度的变化次数明显多于其它重复类型。在这些重复类型中,六碱基重复微卫星长度的变化次数最少,这表明二碱基重复微卫星的变异程度最高,六碱基重复的变异程度最低(表4)。

表4 6种重复类型中长度变异情况

3 结论与讨论

在核桃总长为948354 bp的有效读长中有9787个微卫星,平均每969 bp出现1个微卫星,分布密度为1032个/Mb。在已见报道的一些植物微卫星密度中,油茶微卫星密度为539.5个/Mb,杨树基因组序列平均1883 bp出现1个微卫星,分布密度为531.1个/Mb,均低于核桃微卫星的分布密度。郑燕[18]等对水稻、玉米、高粱和二穗短柄草4种禾本科植物SSR的对比研究发现,不同植物的基因组中,SSR的积累速度及进化速度可能会有所不同,基因组中SSR数量与物种基因组大小有关,通过与其他植物已测定基因组序列的对比,可以为核桃基因组的测序工作提供有益帮助。

目前大多数木本植物微卫星的分析研究主要局限于少数微卫星位点的实验分析[19],而大量微卫星的生物信息学分析却仅限于极少数几个树种,已完成整个基因组SSR测序的杨树是为数不多的物种之一[20]。通过与杨树微卫星密度的对比,可以为核桃整个基因组微卫星测序工作提供参考。本试验对核桃基因组微卫星进行了低覆盖度的测序,结果表明,在核桃基因组微卫星序列中,六核苷酸重复的比例在所有重复类型中最多,占60.11%。目前已完成测序的微卫星生物信息学分析表明,玉米[16]、高粱[6]和杨树[20]主要以三核苷酸重复为优势重复类型;有的生物,如人、拟南芥和秀丽隐杆线虫则以单核苷酸重复为最优[6,21];有些生物,如果蝇、家蚕等以二核苷酸重复为主[6-8],而六核苷酸重复占优的现象则极为罕见。笔者认为可能是由于本试验只对核桃基因组微卫星序列进行了低覆盖度的测序,获得的结果不够全面所致,但确切的原因还有待进一步研究。已发表物种微卫星序列特征的报道中,对于六核苷酸重复在生物中作用的研究还比较少,所以六核苷酸重复占优势对核桃遗传学上的影响将是一个新的研究领域。

对核桃基因组微卫星进行分析发现核桃基因组微卫星中富含A和T碱基,而C和G的含量很少,但随着重复单元长度的增加,C和G的含量也在增加。在单碱基重复中,A/T含量高达98.37%,二核苷酸重复中,A/T含量占51.95%,这与人、有胚植物、酵母和真菌类生物基因组微卫星的分析结果类似[18]。随着碱基长度的增加,C和G碱基可以增加碱基重复的稳定性[22],而微卫星中富含A和T碱基,使得Tm值大大降低,DNA链容易解开,通过DNA复制滑动机制和重组机制,产生富含AT重复类型的机率更高。

本次还对核桃基因组不同单元类型微卫星的长度变异情况进行了分析,发现这些微卫星的长度变异与所含重复单元的长度成反比,除单核苷酸重复微卫星外,这些微卫星的长度变异程度随着重复单元长度的增加而降低。Samadi等[23]的模拟分析研究认为重复单位长度越长,经受的选择压力越大,因此它们的拷贝数就越少,长度变异越低。由于序列长度的分化情况反映了不同类型微卫星序列获得或失去重复单元的速率,所以这一特征与微卫星位点的多态性关系密切,这反映了由短重复单元构成的微卫星失去或获得重复单元的速率比长重复单元构成的微卫星要快。阎毛毛等[24]在对杨树、桉树和松树这3个树种的SSR对比之后,得出了同样的结果。这是否是林木表达序列所含微卫星的共同的变化规律?这一假设还需要在更多的树种中展开分析加以验证。Temnykh等[25]将按长度将微卫星分为两大类:长度大于等于20 bp的SSR为第一类,长度大于12 bp但小于20 bp的为第二类。本试验对9787个微卫星的长度进行统计分析,发现微卫星长度从10 bp到578 bp不等,微卫星的平均长度为21.86 bp,不同长度的微卫星的数量差异极显著,且不符合正态分布,微卫星主要第一类为主,第二类仅为17.22%。与第二类SSR相比,第一类SSR具有更高的多态性。这一规律是 Weber[26]最早于人类的微卫星实验数据中发现,并已在很多生物体中得到证实。第二类SSR由于片段长度较短,在滑链错配时可产生的错配位点就会相对较少,故多态性不如第一类,由于较长的微卫星具有更高的变异频率,因此会受到更强烈选择的影响,这对于研究核桃基因组的起源时间具有重要的意义,其多态性也为核桃微卫星位点的标记提供了可行性。

[1]Hayden M J,Sharp P J.Sequence-tagged microsatellite profiling(STMP):a rapid technique for developing SSR markers[J].Nucleic Acids Research,2001,29(8):1-8.

[2]李汝玉,李群,张文兰,等.利用SSR标记进行小麦品种鉴定和新品种保护研究[J].山东农业科学,2007(6):14-17.

[3]冯锦霞,张川红,郑勇奇,等.利用荧光SSR标记鉴别杨树品种[J].林业科学,2011,47(6):167-174.

[4]张亚东,胡兴宜,宋丛文.利用新型分子标记EST-SSR鉴定湖北省内的主栽黑杨品种[J].分子植物育种,2009,7(1):105-109.

[5]郭文久.微卫星在基因组上的分布与功能及其计算方法初步研究[D].雅安:四川农业大学,2004.

[6]Toth G,Gaspari Z,Jurka J.Microsatellites in different eukaryotic genomes:Survey and analysis[J].Genome Research,2000,10(7):967-981.

[7]Gao H,Kong J.The microsatellite and minisatellites in the genome of Fenneropenaeus chinensis[J].DNA Sequence,2005,16(6):426-436.

[8]Katti M V,Ranjekar P K,Gupta V S.Differential distribution of simple sequence repeats in eukaryotic genome sequences[J].Molecular Biology and Evolution,2001,18(7):1161-1167.

[9]Cruz F,Prez M,Presa P.Distribution and abundance of microsatellites in the genome of bivalves[J].Gene,2005,346:241-247.

[10]Oliveira E J,Pdua J G,Zucchi M I,et al.Origin,evolution and genome distribution of microsatellites[J].Genetics and Molecular Biology,2006,29(2):294-307.

[11]Ross C L,Dyer K A,Erez T,et al.Rapid divergence of microsatellite abundance among species of Drosophila[J].Molecular Biology and Evolution,2003,20(7):1143-1157.

[12]郗荣庭.中国核桃(Juglans regia L.)起源考证[J].河北农业大学学报,1990,13(1):90-94.

[13]Weoste K,Rhodes R B O,Michler C.Thirty polymorphic nuclear microsatellite loci from black walnut[J].The Journal of Heredity,2002,93(1):58-60.

[14]Qi J X,Wang K J,Wu C H L,et al.Development of EST-SSR markers in Juglans regia L.[J].Journal of Agricultural Biotechnology,2009,17(5):872-876.

[15]Dangl G S,Woeste K,Aradhya M K,et al.Characterization of 14 microsatellite markers for genetic analysis and cultivar identification of walnut[J].Journal of American Society for Horticultural Science,2005,130(3):348-354.

[16]Wang H,Hao J M,Wang B Q,et al.SSR analysis of genetic diversity of eight natural populations in China[J].Scientia Silvae Sinice,2007,43(7):120-124.

[17]Liu X L,Chen X S,Zhang M Y,et al.Population genetic structure analysis of Juglans regia L.using SSR markers[J].Journal of Fruit Science,2008,25(4):526-530.

[18]郑燕,张耿,吴为人.禾本科植物微卫星序列的特征分析和比较[J].基因组学与应用生物学,2011,30(5):513-520.

[19]Wyman J,Bruneau A,Tremblay M F.Microsatellite analysis of genetic diversity in four populations of Populus tremuloides in Quebec[J].Canadian Journal of Botany,2003,81(4):360-367.

[20]Tuskan G A,Gunter L E,Yang Z K,et al.Characterization of microsatellites revealed by genomic sequencing of Populus Trichocarpa[J].Canadian Journal of Forest Research,2004,34(1):85-93.

[21]Richard G F,Paques F.Mini and microsatellite expansions:the recombination connection[J].EMBO Reports,2000,1(2):122-126.

[22]Prasad M D,Muthulakshmi M,Madhu M,et al.Survey and analysis of microsatellites in the silkworm,bombyxmori:frequency,distribution,mutations,marker potential and their conservation in heterologous species[J].Genetics,2005,169(1):197-214.

[23]Samadi S,Artiguebielle E,Estoup A,et al.Density and variability of dinucleotide microsatellites in the part henogenetic polyploid snail Melanoides tuberculata[J].Molecular Ecology,1998,7(9):1233-1236.

[24]阎毛毛,戴晓港,李淑娴,等.松树、杨树及桉树表达基因序列微卫星比对分析[J].基因组学与应用生物学,2011,30(1):103-109.

[25]Temnykh S,Declerck G,Lukashova A,et al.Computational and experimental analysis of microsatellites in rice(Oryza sativa L.):frequency,length variation,transposon associations,and genetic marker potential[J].Genome Research,2001,11(8):1441-1452.

[26]Weber J L.Informativeness of human(dC-dA)n(dG-dT)n polymorphisms[J].Genomics,1990,7(4):524-530.

猜你喜欢
微卫星碱基核桃
绿鳍马面鲀全基因组微卫星分布特征
小核桃变身“致富果”
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
可赏可食可入药的核桃
红尾蚺和原矛头蝮基因组微卫星分布特征比较分析
林麝全基因组微卫星分布规律研究
黄龙核桃