苏孟园,杨汶珊,唐荣叶,徐杰杰,王 涛,尹绍武
(1.南京师范大学海洋科学与工程学院,江苏 南京 210023)(2.江苏省特色水产育种与绿色高效养殖技术工程研究中心,江苏 南京 210023)
微卫星(microsatellite)是指以1~6个碱基为基本单位重复串联组成的DNA序列[1],在真核、原核生物以及病毒基因组中均广泛分布[2-3]. 微卫星具有共显性遗传、多态性信息丰富和易于检测等特点,在物种保护[4-5]、种质资源评价[6]、种群遗传多样性研究[7-12]、亲缘关系鉴定[13]及物种鉴定[14]等方面的应用越来越广泛.
花斑无须鲶(Ageneiosusmarmoratus)隶属于脊椎动物亚门(Vertebrata)、辐鳍鱼纲(Actinopterygii)、鲇形目(Siluriformes)、项鳍鲶科(Auchenipteridae)、无须鲶属(Ageneiosus),主要分布于南美洲秘鲁、阿根廷、圭亚那、厄瓜多尔以及苏里南淡水流域的底层水域,适宜的水体pH为6.5,适宜温度为23~26 ℃,体长可达18.5 cm,可作为观赏鱼类[15]. 与鲶鱼类大多具有发达的须不同,花斑无须鲶的两颌无须,是在基因组水平上研究胡须形成发展机制并以此揭示脊椎动物生理学重要过程的一个理想的自然模型,目前以花斑无须鲶为模型在无须机制这一方面的研究已取得了一定的进展[16]. 保护、开发花斑无须鲶遗传资源并对花斑无须鲶基因组进行进一步的研究有重要意义.
目前国内外对于花斑无须鲶这一物种的研究相对较少,对于花斑无须鲶遗传资源的保护重视程度不够. 迄今为止,花斑无须鲶微卫星相关的研究尚未见报道. 本研究根据NCBI已公布的花斑无须鲶全基因组序列,利用生物信息学软件对花斑无须鲶全基因组微卫星丰度及分布情况进行分析,旨在为花斑无须鲶遗传资源的保护与开发、遗传多样性研究及与鲇形目中其他物种微卫星特征比较分析提供数据基础.
花斑无须鲶全基因组序列从NCBI数据库(https://www.ncbi.nlm.nih.gov/genome/71451)下载,基因组总长度约1.03 Gb,所有序列均以FASTA格式保存.
利用微卫星筛选软件MISA(http://pgrc.ipk-gatersleben.de/misa/)对花斑无须鲶全基因组中符合条件的微卫星进行搜索. 考虑到对微卫星软件参数设置的不同会造成微卫星分析结果存在差异,根据前期工作积累的经验[17-18],采取默认参数设定得到的分析结果最优,即单碱基重复类型的最小拷贝数设置为10,二碱基、三碱基、四碱基、五碱基、六碱基重复类型的最小拷贝数分别设置为6、5、5、5、5. 用Excel对搜索结果中6种碱基重复类型的完整型微卫星进行统计分析,将可循环的微卫星序列以及各自互补的序列归为一类,例如,对于AAC重复拷贝类别,ACA、CAA、TTG、TGT和GTT可与其归为一类. 总体来说,单碱基包括A和C类别,共2类;二碱基包括AT、AC、AG和CG类别,共4类;三碱基包括AAC、AAG、AAT、ACC、CTG、TGA、CAG、GAG、CAT和GGC类别,共10类;四碱基、五碱基、六碱基分类方法相同且由于类型较多在此不一一列举.
在1.03 Gb花斑无须鲶全基因组序列中,共筛选出符合条件的完整型微卫星共336 037个,丰度为326个/Mb,微卫星序列总长度为7 720 686 bp,占基因组总长度的0.75%,密度为7 496 bp/Mb.
在所统计的6种重复类型的微卫星中,数量最多的为二碱基,其余依次为单碱基、三碱基、四碱基、五碱基和六碱基(见图1). 微卫星序列长度分布情况及所占比例基本与微卫星数目分布情况相同(见图2). 各类型微卫星数量、长度、丰度及密度的变化趋势也是按照从二碱基、单碱基、三碱基、四碱基、五碱基到六碱基逐渐递减(见表1).
图1 花斑无须鲶全基因组微卫星各重复类型数目占比Fig.1 Distribution of number of SSRs repeat typesin A.marmoratus genome
图2 花斑无须鲶全基因组微卫星各重复类型长度占比Fig.2 Distribution of length of SSRs repeat typesin A.marmoratus genome
表1 花斑无须鲶全基因组中不同类型微卫星统计Table 1 Different types of microsatellite sequences in A.marmoratus genome
如表2所示,在微卫星重复类型相同的情况下,不同重复拷贝类别的微卫星数目也存在很大差异.
表2 花斑无须鲶各类型微卫星中前3种优势碱基类别及占比Table 2 The three dominant base types and proportions in each microsatellite of A.marmoratus
单碱基重复中拷贝类别为A的微卫星数量占绝对优势,C拷贝类别微卫星数量则相对较少. 二碱基中重复类别为AC的微卫星数量最多,接下来依次为AG、AT,CG拷贝类别微卫星数量最少. 三碱基重复中拷贝类别为AAT的微卫星数量最多,其次分别为AAG、AAC,GGC类别微卫星数目最少. 四碱基重复中数量最多的拷贝类别为AAAT,其次是TATC类别,其余重复拷贝类别微卫星数量较少,在此不一一列举,其中GGCC拷贝类别在统计中未发现. 五碱基重复中数量最多的拷贝类别为AATAT,其次分别为AATAG、ATTCT,其余重复拷贝类别数量较少. 六碱基重复类型中各拷贝类别总体分布较为分散且数量均较少,无优势拷贝类别.
花斑无须鲶基因组序列筛选出的微卫星中出现次数最多的前10种拷贝类别均出自除五碱基和六碱基以外的其他4种重复类型,总微卫星数量为305 243个,占筛选出的全部微卫星数量的90.84%,从拷贝类别可以看出有明显的A、T优势(见表3).
表3 花斑无须鲶出现次数最多的10种重复拷贝类别Table 3 Top 10 repeated copy categories in A.marmoratus
花斑无须鲶基因组微卫星核心拷贝数在5-4 158次范围均有分布,分布范围较大,其中集中分布在 5-32 次之间的微卫星共有330 150个,占微卫星总数的98.25%.
如图3所示,单碱基类型微卫星的核心拷贝数主要集中在10-25次,共有122 383个,占该类型微卫星总数的98.12%;以拷贝数为10的微卫星数量最多,共44 325个,占该类型微卫星总数的35.54%. 二碱基类型微卫星的核心拷贝数主要集中在6-30次之间,共138 034个,占比为94.99%;以拷贝数为6的微卫星数量最多,占该类型微卫星总数的16.49%. 三碱基类型微卫星的核心拷贝数主要集中在5-20次之间,共有35 165个,占比为95.13%;以拷贝数为5的微卫星数量最多,占该类型微卫星总数的27.57%. 四碱基类型的核心拷贝数主要集中在5-20次之间,共有24 396个,占比为98.29%;以拷贝数为5的微卫星数量最多,占该类型微卫星总数的32.61%. 五碱基类型的核心拷贝数主要集中在5-14次之间,共有3 320个,占比为95.18%;以拷贝数为5的微卫星数量最多,占该类型微卫星总数的44.47%. 六碱基类型的核心拷贝数主要集中在5-7次之间,共有665个,占比为93.01%;以拷贝数为5的微卫星数量最多,占该类型微卫星总数的64.48%. 6种重复类型微卫星数量最多的拷贝数均是对应类型设定的最小重复次数. 总体上,随着核心拷贝数的增加,6种微卫星数量呈下降趋势.
图3 花斑无须鲶微卫星各重复类型中重复类别拷贝数分布Fig.3 Distribution of different microsatellite repetitions in A.marmoratus
本研究利用生物信息软件在全基因组范围对花斑无须鲶的微卫星分布情况进行研究,相比于使用磁珠富集、锚定PCR、FIASCO等技术对微卫星进行筛选,本研究所利用的方法能够大批量搜索SSR标记,对于物种构建遗传连锁图谱、分子标记的开发等有重要意义. 筛选得到的微卫星序列长度占基因组总长度的0.75%,这与已公布的鲀形目红鳍东方鲀(Takifugurubripes)微卫星含量(0.77%)[19]相似,但小于人类(Homosapiens)(3%)[20]、食蟹猴(Macacafascicularis)(0.89%)[21]以及黄颡鱼(Pelteobagrusfulvidraco)(1.8%)[17]微卫星含量,而与普通鸬鹚(Phalacrocoraxcarbo)(0.23%)[22]以及红原鸡(Gallusgallus)(0.49%)[23]微卫星含量相比又较大. 这表明不同物种基因组中微卫星含量不尽相同,且与物种间亲缘关系的远近没有直接关系. 甘丽萍等通过对6种鳞翅目昆虫全基因组长度与微卫星含量进行分析比较时发现微卫星数量与基因组长度之间不存在正比关系[24]. Hancock则推测微卫星含量与染色体长度存在联系,随着染色体长度的增加,微卫星含量相应增加[25].
花斑无须鲶全基因组微卫星中的优势重复类型为二碱基重复,这与已公布的黄颡鱼[17]、红鳍东方鲀[19]、大鼠(Rattusnorvegicus)[26]、果蝇(Drosophilamelanogaster)[27]和蜜蜂(Apismellifera)[28]的微卫星优势类型结果一致,而红原鸡[23]、绿尾虹雉(Lophophoruslhuysii)[29]、普通鸬鹚[22]、四川山鹧鸪(Arborophilarufipectus)[30]、牛(Bostaurus)[31]、绵羊(Ovisaries)[31]和猪(Susscrofa)[32]则是单碱基类型占优势. 此外,二斑叶螨(Tetranychusurticae)[33]、酵母(Saccharomycescerevisiae)[34]以及德国小蠊(Blattellagermanica)[35]的优势重复类型为三碱基重复,蚊子(Anophelesgambiae)[36]则是六碱基重复占优势. 这表明,物种之间的优势微卫星类型并不是统一的. 崔建洲等认为二碱基重复类型为物种优势碱基类型的现象较为普遍[19],花斑无须鲶的微卫星分布特征支持了这一观点. 且根据花斑无须鲶6种微卫星的分布情况,尽管二碱基重复类型占优势,但单碱基重复类型的微卫星数目占微卫星总数的37.12%,其他类型微卫星都相对较少,这基本符合微卫星数量会随着重复基本单位的增加而减少的规律[37].
花斑无须鲶单碱基中A类别占绝对优势,占比为97.61%,在已报道的黄颡鱼[17]、人类[20]、红原鸡[23]和中华按蚊(Anophelessinensis)[38]等大多数物种中都存在相同的现象.
二碱基重复类型中数量最多的类别是AC,这与已公布的黄颡鱼[17]、红鳍东方鲀[19]、普通鸬鹚[22]、蚊子[36]、大熊猫(Ailuropodamelanoleuca)[39]和美丽硬仆骨舌鱼(Scleropagesformosus)[40]相同,其次分别为AG和AT,而CG类别最少. 对于二碱基重复类型中AC与CG类别数量差距如此悬殊的现象,在研究者普遍认为DNA复制过程中会产生滑移而形成微卫星的基础上[41],推测可能是由于连接AT的双键比连接CG的三键更易断裂,因此更易造成碱基滑动,从而导致AT类别比CG类别在数量上更具优势.
三碱基重复类型中数量最多的类别是AAT,这与已公布的黄颡鱼[17]、人类[20]、红鳍东方鲀[19]、普通鸬鹚[22]和恒河猴(Macacamulatta)[42]相一致. 有研究表明,6种重复类型微卫星中,在基因编码区中三碱基重复类型发现的最多[43],推测三碱基重复类型微卫星在生物性状的表达中起着更重要的作用,且在人类基因组中三碱基重复与某些遗传疾病关系密切[44],例如亨廷顿病的患病风险会随着(CAG)n核心拷贝数的增加而增大,根据这一规律,可通过分析该序列长度从而预测个体患病的风险以及患病情况[45]. 因此,通过对花斑无须鲶三碱基重复类型微卫星与该种鱼患病情况建立联系,可能会对鱼类疾病的研究有所帮助.
四、五、六碱基重复类型中数量最多的类别分别为AAAT、AATAT和AAATGT,未发现GGCC类别的微卫星. 从出现次数最多的前10种类别微卫星可以看出花斑无须鲶基因组微卫星碱基含量存在明显的A、T碱基优势. 研究表明,物种中出现的微卫星数量与基因组中A、T碱基含量的高低呈正相关,与C、G含量负相关[46]. 对于A、T碱基含量丰富的一种解释是基因组序列中的CpG发生甲基化,这会使得胞嘧啶(C)非常容易通过脱氨基作用而转变为胸腺嘧啶(T),因而C/G碱基数量减少的同时A/T碱基数量增加[47-48].
在花斑无须鲶全基因组微卫星中,除二碱基和三碱基有少许波动外,总体上,随着拷贝数增加微卫星数量减少. 这与黄颡鱼[17]、红原鸡[23]、中华按蚊[38]和虎皮鹦鹉(Melopsittacusundulatus)[49]等绝大多数物种的微卫星分布规律相同. 对于这种现象有以下解释,Wierdl等在对微卫星序列的突变率进行研究时发现,对于GT序列,长度为105 bp时的突变率是长度为15 bp时突变率的500倍,据此得出结论认为微卫星的稳定性会随着长度的增加而降低,微卫星长度越长越不稳定,而微卫星数量也会减少[50];Leopoldino等认为微卫星的突变率随着拷贝数的增加而增大[51],因此微卫星核心拷贝数越大微卫星发生突变的概率就越大,该微卫星数量就会减少;Ellegren研究认为,在基因座上,长等位基因倾向于变得更短,从而抑制了微卫星长度变长的趋势[52]. 因此,一般情况下核心序列拷贝数较多的微卫星数目较少.
综上所述,在对花斑无须鲶全基因组微卫星分布情况进行研究得出如下结论:基因组中微卫星含量与物种间亲缘关系并不存在直接联系;优势重复类型为二碱基重复验证了物种多以二碱基重复为优势类型的规律;各重复类别微卫星都表现出明显的A、T优势;随着拷贝数的增加,微卫星数量减少. 本研究对花斑无须鲶遗传多样性的研究以及不同物种间微卫星分布特征的对比分析等提供了基础资料.