杨汶珊,唐荣叶,苏孟园,徐杰杰,王 涛,尹绍武
(1.南京师范大学海洋科学与工程学院,江苏 南京 210023) (2.江苏省特色水产育种与绿色高效养殖技术工程研究中心,江苏 南京 210023)
巨魾(Bagariusyarrelli)属于脊椎动物亚门(Vertebrate),硬骨鱼纲(Teleostei),鲇形目(Siluriformes),鮡科(Sisoridae),魾属(Bagarius). 巨魾的皮肤为棕栗色,身体呈流线形,头部宽大、略扁. 因肌肉呈黄色,俗称“面瓜鱼”“黄鱼”,个体可超过50 kg[1]. 巨魾在自然环境下,以摄食鱼虾和水生昆虫等为主,偶食植物碎屑;在人工驯养条件下,仅摄食动物饵料[2]. 此外,巨魾肉质风味独特,深受云南各地人民的喜爱. 目前,云南省水产研究所等单位已成功地对巨魾进行了人工繁殖[3].
微卫星又称简单序列重复(simple sequence repeats,SSRs),是指以1~6 bp核苷酸为基本重复单位组成的重复序列,在自然界的各种生物基因组中均有分布[4]. 微卫星因具有易于检测、多态信息含量高、高效稳定、分布广泛等优点,已被广泛应用于鱼类种群遗传多样性分析[5-6]、遗传育种[7]、亲子鉴定[8]等研究中.
目前巨魾全基因组已完成测序,Scaffold N50=3 129 371 bp,Contig N50=1 854 961 bp,并于2019年在线公布,但还未见巨魾基因组水平上微卫星相关的研究报道. 本研究通过对巨魾全基因组中的微卫星进行筛选,统计其所含不同类型的微卫星的数量、丰度、密度等数据,分析其分布特征及组成情况,为今后开发巨魾高质量的微卫星标记奠定一定的基础.
巨魾全基因组从NCBI数据库(https://www.ncbi.nlm.nih.gov/genome/?term=Bagarius+yarrelli)下载,该基因组序列总大小约为570 Mb,下载的巨魾全基因组所有序列均以FASTA文件格式保存.
利用微卫星筛选软件MISA(http://pgrc.ipk-gatersleben.de/misa/)对巨魾全基因组进行扫描,筛选符合条件的完整型微卫星序列,在筛选后的结果中统计出1~6个碱基重复的完整型微卫星,使用EXCEL统计分析出各碱基类型的数量和分布情况,分别列出其分布特征和占比情况. 搜索标准参考MISA默认参数设置,即要求单碱基重复≥10次,二碱基重复≥6次,三、四、五、六碱基重复≥5次. 经过前期的大量研究可知,以此标准搜索全基因组微卫星得出的结果最优[9]. 根据起始碱基顺序的差异及碱基互补配对原则,对属于同一类别的微卫星进行同类合并,如三碱基AAT,可以与之兼并的有ATA、TAA、TTA、TAT和ATT.
如表1所示,巨魾全基因组完整型微卫星总数为360 235个,6种完整型微卫星的总长度为6 998 449 bp,占基因组的1.23%,丰度为631个/Mb,密度为12 261 bp/Mb. 6种微卫星丰度与微卫星数量变化的情况相同,即微卫星数量越多则丰度越大. 每种微卫星的密度与微卫星的长度有关,即某一类型微卫星的长度越长,其密度越高.
表1 巨魾全基因组中不同类型微卫星统计Table 1 Different types of microsatellite statisticsin the B.yarrelli genome
如图1所示,数量最多的是单碱基类型,其次是二碱基类型,其余微卫星占比均小于10%,依次为三碱基、四碱基、五碱基类型,占比最少的是六碱基类型. 丰度随着1~6 bp碱基的基本重复单位的增加而降低.
如图2所示,在巨魾1~6个碱基重复的6种完整型微卫星中,长度最长的是二碱基类型,其余根据降序排列依次为单碱基、四碱基、三碱基、五碱基. 长度最短的为六碱基.
图1 巨魾不同类型微卫星数量占比Fig.1 The proportion of microsatellites of different typesin B.yarrelli
图2 巨魾不同类型微卫星总长度占比Fig.2 The proportion of different types of total length ofmicrosatellites in B.yarrelli
图3 巨魾各类型微卫星不同拷贝数分布Fig.3 Distribution of different copy numbers ofvarious types of microsatellites in B.yarrelli
巨魾基因组中各类型微卫星重复次数集中在5~30次之间,数量占全部微卫星的99.66%. 在6种重复类型微卫星中,微卫星数量最多的拷贝次数均为MISA软件筛选出来的最小重复次数. 如图3所示,单碱基重复的分布范围最广,最低重复次数为10次,最高重复次数为249次,其中微卫星主要重复次数为10~20次,其数量占单碱基SSR总数的95.26%;二碱基重复的分布范围也较广,最低重复次数为6次,最高重复次数为130次,其中微卫星主要重复次数为 6~30次,其数量占二碱基微卫星总数的96.16%;三碱基微卫星重复拷贝数分布在 5~35 次之间,其中微卫星主要重复次数为5~15次,数量占三碱基微卫星总数的99.18%;四碱基最低重复次数为5次,最高重复次数为63次,微卫星主要重复次数为5~20次,数量占四碱基微卫星总数的96.81%;五碱基重复拷贝数分布在5~40次,微卫星主要重复次数为5~15次,数量占比为96.53%;六碱基重复拷贝数分布范围最小,最低重复次数为5次,最高重复次数仅为21次,微卫星主要重复次数集中在5~10次,数量占比为94.90%.
如图4所示,巨魾全基因组微卫星中的优势拷贝类别按照数量从高到低排列分别为:A、AC、AG、AT、AAT、C、ATAG、AAAT、ACT和ATC,这10种拷贝类别总数为339 090个,占微卫星重复拷贝类别总数的94.13%.
图4 巨魾全基因组中分布最多的不同重复拷贝类型微卫星Fig.4 Distribution of the most frequent microsatellite motifs of B.yarrelli
如表2所示,单碱基类别中,单碱基数量以A类别(A/T)为主,占有绝对的碱基优势,其次是C类别. 二碱基类别中,AC类别是主要的重复单元,其次分别是AG类别和AT类别;CG类别数量最少,仅有138个,占比0.09%. 三碱基类型中,AAT类别数量最多,其次分别是ACT类别和ATC类别;CCG类别在三碱基10种类别中数量最少,只有93个,占比0.42%. 四碱基类型中,ATAG类别重复数量最多,其次分别是AAAT类别和AGAC类别. 五碱基类型中,AATCT类别重复数量最多,其次分别是AAGAG类别和AATAT类别. 六碱基类型中,AACCCT类别重复数量最多,其次是AGGGTT类别,其余类别重复数量较少.
表2 巨魾全基因组中各碱基重复类型中的优势碱基类别Table 2 The dominant base classes in each base repeat type in the B.yarrelli genome
本研究以巨魾全基因组为基础,利用生物信息学软件对巨魾基因组中6种完整型微卫星进行搜索,共搜索到360 235个完整型微卫星,其长度为6 998 449 bp,占基因组序列总长度的1.23%. 分析表明,巨魾全基因组微卫星含量(1.23%)与已公布的人(Homosapiens)(3%)[10]、啮齿目的大鼠(Rattusnorvegicus)(1.41%)[11]和小鼠(Musmusculus)(2.85%)[12]相比较低,但高于偶蹄目的牛(Bostaurus)(0.48%)、牦牛(Bosmutus)(0.58%)、藏羚羊(Pantholopshodgsoni)(0.54%)[13-15],食肉目的大熊猫(Ailuropodamelanoleuca)(0.64%)、北极熊(Ursusmaritimus)(0.79%)[16],鲀形目的红鳍东方鲀(Takifugurubripes)(0.73%)、菊黄东方鲀(Takifuguflavidus)(0.73%)、双斑东方鲀(Takifugubimaculatus)(0.84%)、黑青斑河鲀(Tetraodonnigroviridis)(1.06%)[9]. 巨魾全基因组微卫星含量与同为鲇形目的黄颡鱼(Pelteobagrusfulvidraco)(1.8%)[17]有一定差异. 这些结果表明,不同物种的微卫星在全基因组中含量具有较大的差异,这种差异一方面可能是不同物种基因组大小的区别造成的,另一方面可能还有物种进化差异的原因.
对比同属于鱼纲的物种,结果显示巨魾基因组中的优势碱基类型排序与骨舌鱼目的美丽硬仆骨舌鱼(Scleropagesformosus)[18]以及鲀形目的红鳍东方鲀、菊黄东方鲀、双斑东方鲀[9]的分布顺序一致,也与鲤形目的鲤鱼(Cyprinuscarpio)[19]的优势碱基类型分布顺序完全一致. 但与同为鲇形目的黄颡鱼[17]的优势碱基类型分布顺序不同,也与鲽形目的大菱鲆(Scophthalmusmaximus)[20]的优势碱基分布不同.
对比动物界各纲的物种,结果显示鱼纲(如巨魾、美丽硬仆骨舌鱼、红鳍东方鲀、鲤鱼、黄颡鱼和大菱鲆)[9,17-20]主要以单碱基和二碱基占优势. 鸟纲(如白鹭(Egrellagarzetta)、藏鸡(Gallusgazettedomesticus)、绿尾虹雉(Lophophoruslhuysii)、红原鸡(GallusLophophores)和虎皮鹦鹉(Melopsittacusundulatus))[21-25]和哺乳动物(如猪(Susscrofa)、林麝(Moschusberezovskii)、大熊猫、北极熊、耗牛和水牛(Bubalusbubalis))[14,16,26-27]的优势碱基类型排序均以单碱基微卫星占优势,而六碱基微卫星最少,但哺乳动物中的大鼠以二碱基微卫星占优势,六碱基微卫星最少[11],说明大部分鸟纲动物和哺乳动物的微卫星分布顺序以单碱基微卫星占优势,六碱基微卫星占比最少,个别鸟纲和哺乳动物分布规律略有不同. 而对比低等无脊椎动物中的一些昆虫纲动物,如草地贪夜蛾(Bubalusbubalis)、果蝇(Drosophilamelanogaster)、蚊子(Anophelesgamblae)[28-30],其优势碱基类型排序各有不同,优势碱基排序较为随机. 在原核生物和酵母(Saccharomycescerevisiae)的基因组中,处于优势的重复序列类型是三碱基[18].
从以上对比结果中可发现,巨魾与鸟纲、昆虫纲以及硬骨鱼纲中的鲀形目与鲤形目中的一些物种的优势微卫星类型排序相同,但与同为鲇形目的黄颡鱼的优势碱基类型排序不同,这表明物种的亲缘关系与其优势碱基类型排序并无明显联系. Webster等[31]研究了黑猩猩与人类基因组的微卫星分布,研究结果表明,即使物种的亲缘关系相近,其微卫星分布也存在很大差别. 本研究中对鸟纲、哺乳动物、昆虫纲以及硬骨鱼纲的一些物种的比较分析也支持了这一说法. 另外可发现,大多数物种为单碱基或二碱基占优势,少部分真菌及低等动物则为三碱基或六碱基数目最多,如酵母[32]和二斑叶螨(Tetranychusurticae)[33]以三碱基占优势,蚊子以六碱基占优势[30]. 黄杰等[5]认为高等生物基因组更倾向于单碱基微卫星占优势,鱼纲和鸟纲以单碱基或二碱基占优势,未见三碱基占优势的报道. 在原核生物和酵母的基因组中,处于优势的重复序列类型是三碱基,而比其更高等的生物基因组则倾向于二碱基和单碱基重复序列类型[18]. 这些结果一方面说明不同物种基因组的优势类型微卫星不同,另一方面说明物种在向高等动物的进化过程中倾向于选择二碱基和单碱基重复序列类型.
在巨魾6种碱基类型微卫星中,A、AC、AAT、ATAG、AATCT和AACCCT类别分别为1~6碱基重复类型中数量最多的一类,可以看出明显的A/T优势.
在巨魾单碱基重复中,A类别(A/T)数目最多,在单碱基微卫星中占比93.94%,这与已公布的人、黄颡鱼、红鳍东方鲀、中华按蚊(Anophelessinensis)[9-10,17,34]等大部分已公布的物种全基因组微卫星特征一致.
在二碱基重复中,AC类别微卫星数量最多,其次是AG与AT类别,与人、黄颡鱼、美丽硬仆骨舌鱼和红鳍东方鲀[9-10,17,21]等物种二碱基前三类别排序相一致. 与其他物种对比发现,大多数高等哺乳动物和硬骨鱼纲的二碱基优势重复类型均为AC类别,而鸟纲的二碱基优势重复类型为AT类别,推测高等哺乳动物、鸟纲和硬骨鱼纲的优势重复类型的差别可能与物种进化有关. 有研究表明,AT类别重复为陆地生物的优势重复类型,而海洋生物海鞘(Cionaintestinalis)中CG和AG类别的重复次数较多,可看出微卫星优势碱基类型在陆地和海洋生物间并不相同[35]. 同时对比显示,巨魾、美丽硬仆骨舌鱼和黄颡鱼均属于淡水生物,其结果与海洋生物海鞘的分析有相同和不同之处,相同之处是AG类型均为排序第二的优势碱基类别,差异之处在于海鞘的CG类别重复次数较多,而在这三种鱼中CG类型均最少. 造成这种异同的原因可能是海洋生物和淡水生物生存环境的差别所致. 另外关于CG类别比AT类别少的原因,有研究认为,在DNA复制的过程中会产生滑移,从而形成了微卫星[36],推测可能是由于AT之间的双键比CG之间的三键更容易断裂,因此更容易造成碱基滑动,从而导致AT重复拷贝类别比CG重复拷贝类别在数量上更具优势.
在三碱基重复中,AAT类别占绝对优势,这与虎皮鹦鹉、红原鸡和黄颡鱼[17,25-26]相同. 此外与其他高等动物、鸟纲和硬骨鱼纲的三碱基优势类别对比中并未发现明显规律. 有研究表明,某些遗传性病变与三碱基重复有关[37],某些微卫星会由于其不稳定性改变基因的表达从而导致某些遗传性病变的发生[38]. 因此,通过研究巨魾的三碱基微卫星可以了解巨魾某些疾病的发生原因,同时还可以帮助确定和预测一些人类疾病相关的基因.
在四碱基重复中,ATAG和AAAT类别的数量排在前二. 通过对微卫星作用的研究表明,在遗传标记上四碱基微卫星相比于二碱基和三碱基微卫星更为精确和可靠[39]. 因此在开展巨魾遗传多样性分析、物种鉴定以及亲子鉴定等研究中,巨魾的四碱基多态性微卫星标记可能能提供参照. 研究结果显示,巨魾四碱基微卫星共有17 279个,同时其统计到的重复类别有31个,大量的微卫星和较多的重复类别在开发巨魾四碱基微卫星标记中将提供较大帮助. 吴旭东等[40]研究表明,鲇形目鱼类的微卫星侧翼序列在同目内种间具有保守性,同目鱼类的部分微卫星引物与其他的鱼类也存在一定的通用性. 这说明微卫星序列可能随着物种的进化而不断变化,由于选择压力等原因,使得亲缘关系相近的物种其微卫星侧翼序列也接近. 本研究可为同为鲇形目的其他鱼类的微卫星开发提供参照.
AATCT、AAGAG和AATAT类别为五碱基中的前三类别,六碱基中的AACCCT和AGGGTT类别占主导地位. 基因组中重复最多的前10种微卫星拷贝类型表明,微卫星中存在明显的A/T优势,而C/G数量较少. 魏朝明等[41]研究认为,由于不同碱基排列编码的基因其蛋白质拥有不同的功能,所以位于编码基因上的微卫星也行使着不同的功能. 因此A/T的碱基组合可能拥有某些功能,与物种的某些生物特性有关. 同时还有研究表明,物种基因组中微卫星标记数越多,A和T碱基所占比例越高[42]. 对于这一现象,Schlötterer等[36]认为,基因组DNA由于甲基化的发生,胞嘧啶C容易脱氨基从而转变成胸腺嘧啶T. 基因组内CG含量少也是维持DNA热力学稳定性的必要条件之一[43]. 另外,CG碱基重复的测序工作较为困难也可能是数据中CG含量少的原因[44].
研究表明,在巨魾基因组中,除了细微的波动外,6种碱基类型均随着重复拷贝数的增加其微卫星数量逐渐递减. 同时数据显示,即使不同筛选软件的参数设置不同,最低参数的微卫星数量也远超过倒数第二参数设定的微卫星重复拷贝数量. 这种现象同样出现在黄颡鱼、藏羚羊、虎皮鹦鹉和红原鸡等物种全基因组微卫星中. 对此,Wierdl等[45]认为,一方面与微卫星稳定性有关,即随微卫星长度的增加,其稳定性会下降,因此当重复拷贝数越高时越容易发生碱基突变而成为不完整型微卫星或非微卫星序列,这使得重复数越多的微卫星数量越少;另一方面,Harr等[46]认为,微卫星重复拷贝数越高,突变率就越高,使得越长的微卫星序列数目越少. 同时还有研究表明,长等位基因倾向于变得更短,从而抑制了微卫星长度变长的趋势,因此,微卫星长度越长,即重复拷贝数越多,该种微卫星越不易存在[47].
综上所述,在对巨魾全基因组微卫星进行统计与分析,并对比其他物种的微卫星分布特征后得出如下结论:
不同物种的微卫星在全基因中含量具有较大差异,且不同物种的优势碱基类型与物种的亲缘关系无关;
原核动物以三碱基占优势,高等动物以单碱基和二碱基占优势;
各物种的重复类别微卫星都表现出明显的A/T碱基类别的优势;
6种碱基类型基本随着重复拷贝数的增加其微卫星数量逐渐递减.
目前本研究已统计了微卫星在巨魾全基因组中的数量、丰度和密度等数据,并分析了其特征和组成情况,为巨魾种群遗传多样性分析、图谱构建和品系亲缘关系鉴定等提供了数据支持,期望能对巨魾微卫星标记开发提供帮助.