瓦氏黄颡鱼全基因组微卫星的分布特征及其定位的初步研究

2022-03-02 10:10宁先会尹绍武
南方水产科学 2022年1期
关键词:微卫星拷贝数碱基

彭 冶,李 杰,王 涛,张 凯,宁先会,暨 杰,尹绍武

南京师范大学 海洋科学与工程学院/江苏省特色水产育种与绿色高效养殖技术工程研究中心,江苏 南京 210023

微卫星 (Microsatellite) 又称简单重复序列(Simple sequence repeats, SSRs),是指以少数几个核苷酸 (1~6个) 为基本单位串联重复的DNA序列。在真核生物和原核生物基因组中均有分布[1-3],甚至在病毒基因组中也有发现[4]。利用微卫星核心序列的差异性以及侧翼序列的保守性设计特异性引物,通过PCR扩增出多态性微卫星片段,可筛选出功能分子标记或探究种间以及种内不同群体的遗传多样性[5]。微卫星在群体中通常表现出高多态性、呈共显性遗传及杂合率高等特点,目前在遗传图谱的构建[6]、亲缘关系的鉴定[7]、遗传多样性分析以及标记辅助育种[8]等研究中得到广泛应用。

瓦氏黄颡鱼 (Pelteobagrus vachelli) 隶属于鲇形目、鲿科、黄颡鱼属,又名江黄颡鱼,主要生活在我国长江水系及与其干流相通的附属湖泊、河流中,具有生长速度显著快于普通黄颡鱼、体型大、肉质鲜嫩、无肌间刺等优点,深受养殖者和消费者的喜爱[9-11]。国内外关于黄颡鱼属的微卫星相关研究主要集中在微卫星标记的开发及其遗传连锁图谱的构建[12]、不同地理群体的遗传多样性和亲缘关系分析[13]等。在瓦氏黄颡鱼中主要集中在线粒体基因组分析[14]、群体遗传多样性分析[15]等。随着二代测序技术的发展,越来越多的在物种全基因组基础上的微卫星研究相继被报道[16-18]。微卫星筛选搜索软件MISA (MIcroSAtellite identification tool) 作为近年来使用较为快捷和高效的工具,具有指令简单、运行时间短、无需联网等优点,目前已在多种水生生物中得到广泛应用[19-21]。本文通过MISA软件在全基因组水平上对瓦氏黄颡鱼中的微卫星序列进行筛选、分析,探索了各碱基重复类型的丰度及其规律,并且对外显子区含有微卫星的基因进行了GO注释和KEGG富集,进一步探究了微卫星在瓦氏黄颡鱼全基因组中的潜在功能,为今后黄颡鱼属群体的微卫星筛选、遗传多样性分析等研究积累参考资料。

1 材料与方法

1.1 基因组序列

基于本实验室前期瓦氏黄颡鱼基因组测序和组装,确定其基因组大小为663.53 Mb,Contig N50为14.02 Mb,scaffold N50为26.78 Mb,contig长度锚定率为99.79%,定位到染色体上,基因组组装质量较好。

1.2 SSR搜索方法

本文利用微卫星搜索软件MISA (http://pgrc.ipk-gatersleben.de/misa/),在瓦氏黄颡鱼全基因组中筛选1~6碱基重复完整型微卫星序列。设置采用MISA默认参数,即1~6种碱基重复次数最少为10、6、5、5、5和5。本文在统计过程中将所有可循环的序列以及碱基互补序列归为一类。如ACG重复拷贝类别,与其归为同一类的重复拷贝类别是TGC、GCT、CTG、CGA和GCA。

1.3 微卫星所在外显子上的基因GO注释和KEGG富集分析

利用瓦氏黄颡鱼全基因组GFF注释文件和MISA软件得到的微卫星位置信息 (misa文件),对全基因组中所有微卫星进行定位。GO注释采用实验室编写的Python脚本结合Blast2 GO软件[22]进行,以瓦氏黄颡鱼全基因组的功能注释基因作为背景基因集,利用KOBAS 2.0在线软件进行GO富集和KEGG富集分析[23]。

2 结果

2.1 瓦氏黄颡鱼各微卫星分布特征

瓦氏黄颡鱼全基因组大小为663 534 018 bp,6种完整型微卫星总数为417 724个,相对丰度为630 个·Mb−1,微卫星长度共计 9 826 125 bp,占瓦氏黄颡鱼全基因组序列的1.48%,相对密度为14 809 bp·Mb−1。在6种重复类型中,二碱基类型的微卫星个数最多,有181 107个,占微卫星总数的43.36%,其次是单碱基、四碱基、三碱基、五碱基和六碱基类型微卫星。其中六碱基类型微卫星出现频率最低,为微卫星总数的0.12% (表1)。

表1 瓦氏黄颡鱼基因组中不同类型微卫星统计Table 1 Summary of different types of microsatellite in genome of P.vachelli

2.2 瓦氏黄颡鱼微卫星核心序列拷贝数变化分析

瓦氏黄颡鱼基因组中不同类型微卫星核心序列拷贝数变化趋势较为一致,但不同碱基类型微卫星核心序列拷贝数的优势范围有很大区别。在6种碱基类型拷贝数上,单碱基微卫星拷贝数以10次为最多,二碱基微卫星以6次为最多,三碱基、四碱基、五碱基和六碱基微卫星均以5次为最多。在微卫星核心序列拷贝数的变化范围上,单碱基和二碱基核心序列拷贝数分别主要集中在10~31次和6~41次;四碱基和五碱基核心序列拷贝数均集中在5~20次;三碱基核心序列拷贝数集中在5~25次;六碱基核心序列拷贝数集中在5~10次。1~6碱基类型在主要集中范围内的微卫星数量分别占该种类型微卫星总数的99.2%、99.12%、99.48%、98.22%、98.29%和95.74% (图1)。

图1 瓦氏黄颡鱼各类型微卫星核心序列数分布Fig.1 Distribution of different copy numbers of various types of microsatellites in P.vachelli

2.3 瓦氏黄颡鱼微卫星各重复类别特征分析

瓦氏黄颡鱼全基因组中不仅不同微卫星碱基类型的数量存在明显差异,同种碱基类型不同类别的数量也存在较大差别,其中出现频率最高的前10种微卫星重复类别见表2。

表2 次数排名前10的重复碱基类别Table 2 Top ten types of SSRs with most repeated copy numbers

单碱基类型中,以A类别 (A/T) 最为丰富,共计158 915个,占单碱基总数目的97.50%;C、G碱基微卫星重复数目则相对较少,共计4 072个,占该类型的2.50%。

二碱基类型中,AC类别最为丰富,共计130 224个,占二碱基总数目的71.90%;其次是AG类别和AT类别,分别占比20.19%和13.82%;最少的是CG类别,有172个,占比0.09%。

三碱基、四碱基、五碱基类型中呈现出典型的A/T碱基优势,三碱基类型中AAT类别最为丰富,占该类型的55.77%,其次是ATC、AAC类别;四碱基类型中AAAT类别最为丰富,占该类型的25.11%,其次是AATG、AGAT类别;五碱基类型中AATCT类别最为丰富,占该类型的7.78%,其次是AAAGA和AAAAT类别。

六碱基类型在整个基因组中所占比例较低,其中GGGTTA类别较为丰富,共计111个,占六碱基类型的22.5%,其余碱基重复类别较少 (表3)。

表3 瓦氏黄颡鱼基因组中排名前3的微卫星重复拷贝类别Table 3 Top three dominant base classes in each base repeat type in P.vachelli genome

2.4 GO功能注释和KEGG富集特征

对微卫星定位,定位在外显子上的微卫星有10 924个,共分布在5 788个基因中。对相关编码基因进行GO注释,共得到1 588个GO条目。涉及生物过程 (Biological process) 的条目最多,共986个,在总条目中占比62.09%,主要参与细胞过程 (GO: 009987) 和代谢过程 (GO: 0008152) 等;其次是细胞成分 (Cellular component),共384个条目,占比24.18%,主要参与细胞和细胞部分 (GO:0005623、GO: 00044464);分子功能 (Molecular function) 注释条目最少,共218个条目,占比13.73%,主要参与连接和催化活性 (GO: 0005488、GO:0003824)(图2)。GO功能富集较为显著的前10个条目主要参与结合、代谢、转录合成等过程,其中结合活性 (P=7.20×10−17)、细胞大分子代谢过程(P=1.49×10−14) 和核过程 (P=3.38×10−14) 最为显著(图2,表4)。

图2 瓦氏黄颡鱼微卫星分布于外显子的基因GO功能注释Fig.2 GO function annotation of genes with microsatellites in exons in P.vachelli

表4 瓦氏黄颡鱼微卫星分布于外显子的基因GO富集Table 4 GO enrichment of genes with microsatellites located in exons in P.vachelli

对瓦氏黄颡鱼外显子中含有微卫星的基因进行KEGG富集分析,共富集到273条通路中,其中黄酮与黄酮醇生物合成通路最为显著 (P=0),但只有1个基因;细胞的内吞作用通路上富集基因最多,有135个 (P=1.86×10−5)。这些通路可以分为有机体系统、代谢、遗传信息处理、环境信息处理和细胞过程5大类,其中有机体系统类别富集的通路条数最多 (80条,表5)。

表5 瓦氏黄颡鱼微卫星分布于外显子的基因KEGG富集Table 5 KEGG enrichment of genes with microsatellites in exons in P.vachelli

3 讨论

3.1 瓦氏黄颡鱼全基因组微卫星总体特征分析

基于瓦氏黄颡鱼的全基因组数据,利用生物信息学软件对瓦氏黄颡鱼基因组中的完整型微卫星进行搜索统计。在663.53 Mb全基因组数据中筛选得到417 724个完整型微卫星,总长度约9.83 Mb,占全基因组总长度的1.48%,相对丰度为629.54个·Mb−1。与人类 (Homo sapiens, 3%)[24]、小鼠(Mus musculus, 2.85%)[25]、牛 (Bos taurus, 4.7%) 和绵羊 (Ovis aries, 4.8%)[26]等哺乳动物相比微卫星含量在基因组中占比较小;与其他水生生物如红鳍东方鲀 (Takifugu rubripes, 0.77%)、黑青斑河鲀 (Tetraodon nigroviridis, 1.06%)[27]以及美丽硬仆骨舌鱼(Scleropages formosus, 0.79%)[19]等相比,微卫星含量所占比例较高,和其近缘物种黄颡鱼(Pelteobagrus fulvidraco, 1.8%)[28]相比含量比例相近。一方面支持了亲缘关系越近,物种基因组微卫星特征越相似的观点[29],另一方面造成这种微卫星含量存在差异的原因可能是由于不同物种之间基因组内部碱基组成和排列方式不同。

与大菱鲆 (Scophthalmus maximus)[30]、金钱鱼(Scatophagus argus)[20]等鱼类相似,瓦氏黄颡鱼基因组中二碱基类型微卫星含量最高,占微卫星总数的43.36%,其次是单碱基类型,占39.02%。在鸟类中,如红原鸡 (Gallus gallus)[31]、绿尾红雉 (Lophophorus lhuysii)[32]和鸬鹚 (Phalacrocorax carbo)[33]等全基因组中单碱基占据核心地位,且倾向于第二优势微卫星类型为四碱基类型;但在哺乳动物,如牛和绵羊[26]、猪 (Sus scrofa) 和马 (Equus caballus)[29]的基因组中均是单碱基类型占据核心地位,倾向于第二优势微卫星类型为二碱基类型。不同物种中的优势微卫星类型存在差异,推测可能与不同物种的进化程度有关。

3.2 瓦氏黄颡鱼中6种微卫星类型特征分析

在瓦氏黄颡鱼全基因组单碱基重复类型中,A/T类型占据绝对优势,C/G类型则分布较少,这种现象同样出现在已发布的人、秀丽隐杆线虫(Caenorhabditis elegans) 和拟南芥 (Arabidopsis thaliana) 等物种中[34]。

二碱基重复类型的前3类别为AC、AG、AT类别,和其他水生生物如金钱鱼、4种河鲀[27]、斑鳢 (Channa maculata)[35]以及其近缘物种黄颡鱼[28]相同;比例最少的GC类别 (0.09%) 在其他的水生生物二碱基类别比例中同样也很低,如美丽硬仆骨舌鱼 (0.86%)[19]、黄颡鱼 (0.17%)[28]、中华绒螯蟹 (Eriocheir sinensis, 0.39%)[18]、鲤 (Cyprinus carpio, 0.17%)[21]等。Schorderet和Gartler[36]对该现象的解释是,甲基化的C较易脱氨基转化为T,而GC又是维持DNA热力学稳定所必须的,导致GC比例不断缩小,相对应的TG比例则逐渐增加,瓦氏黄颡鱼中的二碱基重复类型中的AC类别较多则支持该观点。另一方面DNA序列发生滑动复制被普遍认为是微卫星的产生方式[4],进而推测可能是CG之间功能键相比于AT之间的更难断裂,导致了在GC含量高的序列段不容易发生滑动,所以GC类别在不同物种中含量均较低。

瓦氏黄颡鱼全基因组三碱基重复的10种类别中以AAT类别最多,ATC、AAG次之,和人类[24]基因组三碱基微卫星含量排序相同。作为所有微卫星重复类型中最为特殊的一类,三碱基重复微卫星可以通过复杂的环-折叠结构来形成各种各样稳定的DNA结构,如发卡结构和二重三叶草结构[37],这种稳定的结构更有利于转录过程中的解旋和蛋白质识别。另外,三碱基微卫星总体上的不稳定性也和一些遗传病的发生有关[38]。因此推测三碱基微卫星在瓦氏黄颡鱼的生长发育过程中起到重要作用,对其进一步的挖掘分析有利于瓦氏黄颡鱼早期遗传疾病的预防和诊断。

四碱基、五碱基、六碱基重复类型中,AAAT、AATG、AAAG、AATCT等类别微卫星占据优势,表明微卫星的存在形式在A和T碱基中较为丰富。四碱基重复类型中的AAAX (X代表除A以外的任何碱基)类别微卫星在灵长类中较为丰富[38],在瓦氏黄颡鱼中也有同样的现象。其中AATCT微卫星在黄颡鱼基因组中占比较多[28],而在其他水生生物中则分布较少,推测这可能是黄颡鱼属进化过程中特有的现象。关于五碱基类型微卫星的生物学意义相关报道较少,有发现可能与物种特异性相关[39],与三碱基类型微卫星进行联合分析可能对瓦氏黄颡鱼相关疾病发生机制的研究有着更深层次的意义。

3.3 瓦氏黄颡鱼6种微卫星核心序列拷贝数特征分析

经统计分析得到,6种完整型微卫星重复类型中,除二碱基和三碱基类型微卫星有轻微波动以外,所有微卫星类型核心序列拷贝数的变化趋势总体上是随着核心拷贝数的增加,微卫星数量逐渐递减;这与人[24]、鲤[21]等全基因组中微卫星的核心序列拷贝数的变化规律相同。Ellegren[40]研究认为,在基因座上,长等位基因趋向于变短,阻碍微卫星无限延伸,一定程度上解释了该种现象产生的原因。另外,微卫星的突变率和其重复次数相关,重复次数越多,突变率就越高[41],因此长微卫星序列和数目就倾向于减少,进而微卫星核心序列拷贝数出现了不同程度的波动。

3.4 瓦氏黄颡鱼微卫星相关基因GO注释和KEGG富集分析

外显子是重要的基因表达区域,本文对瓦氏黄颡鱼基因组外显子上含有微卫星的基因进行GO功能注释和KEGG富集分析,GO功能注释结果显示,注释到生物学过程中的相关基因主要定位在细胞和代谢进程;注释到细胞组分的相关基因主要参与细胞、细胞组分和膜组分;定位到分子功能的相关基因主要集中在结合和催化活动。GO富集最为显著的是结合活性和细胞大分子代谢。KEGG富集分析得到代谢类别富集的通路数最多,其中前5条通路在所有的通路中富集最为显著。GO注释和KEGG富集联合分析表明,瓦氏黄颡鱼微卫星定位到基因编码区域的微卫星可能和其体内的生物代谢过程密切相关,为以后研究瓦氏黄颡鱼与生长代谢相关的基因及相关通路等提供了数据支持。本研究通过对瓦氏黄颡鱼全基因组中完整型微卫星信息、外显子上含有微卫星基因的GO注释以及KEGG富集进行了联合统计分析,为后续黄颡鱼属鱼类的微卫星标记开发、遗传多样性分析工作等提供了基础数据。

猜你喜欢
微卫星拷贝数碱基
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
绿鳍马面鲀全基因组微卫星分布特征
线粒体DNA拷贝数在儿童脑性瘫痪患者中的表达及临床意义
基于转录组西施舌微卫星标记开发及隐种鉴定
线粒体DNA拷贝数变异机制及疾病预测价值分析
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
小麦Glu-3位点基因拷贝数的变异分析
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
胎儿染色体组拷贝数变异与产前超声异常的相关性分析