绿鳍马面鲀全基因组微卫星分布特征

2022-06-30 08:08王九龙李洪莉胡振辉张盼盼
关键词:碱基类别基因组

王九龙,李洪莉,尹 硕,胡振辉,叶 苗,张盼盼

(烟台大学海洋学院,山东 烟台 264005)

微卫星(Microsatellites)标记,也称为简单重复序列(Simple sequence repeats, SSRs),其广泛、随机地分布在真核生物的基因组中,具有多态性水平和杂合度较高、共显性遗传、易于PCR扩增且可重复性高等特点,现已广泛应用于生物育种[1]、种质鉴定及亲权鉴定[2-4]、基因定位[5]等多个研究领域。传统的微卫星标记开发方法存在步骤繁琐、覆盖率低等问题,尤其对于缺少遗传背景信息的物种,大规模开发微卫星标记面临诸多困难,通常只能获取少数的微卫星标记引物用于遗传学分析[6-7]。随着测序技术的快速发展,公共数据库中积累了大量生物的测序序列,利用相关软件筛选其中的重复序列并设计引物成为一种快速筛选和开发微卫星标记的途径,并已在多个物种中成功应用[8-10]。目前,科研工作者完成了包括绿鳍马面鲀在内的大量物种的全基因组测序和组装工作[11-12],为研究微卫星标记在全基因组中的分布特征以及大规模开发微卫星标记奠定了重要基础。

绿鳍马面鲀(Thamnaconusmodestus)隶属鲀形目(Tetraodontiformes)、单角鲀科(Monacanthidae)、马面鲀属(Thamnaconus),主要分布在中日韩附近海域,因肉质鲜嫩、营养丰富而深受人们的喜爱,具有很高的经济价值。由于过度捕捞和产卵场生态环境受到破坏等原因,绿鳍马面鲀的种群资源锐减,渔业捕捞已不能满足正常的市场需求,价格不断攀升。关于绿鳍马面鲀的研究主要集中在资源评估和分布[13]、苗种繁育[14]以及基于线粒体DNA序列的群体遗传结构分析[15-16]等方面,只有少量涉及微卫星标记开发的研究报道[17-18]。微卫星标记的匮乏,严重限制了绿鳍马面鲀遗传连锁图谱构建及QTL定位等研究的开展。本研究根据数据库中已公布的绿鳍马面鲀基因组序列信息进行微卫星标记的筛选,旨在阐明全基因组水平上微卫星标记的分布特征,深化对绿鳍马面鲀基因组的认识,为利用微卫星标记开展群体遗传学、分子标记辅助育种等研究奠定基础。

1 材料与方法

1.1 绿鳍马面鲀全基因组序列来源

绿鳍马面鲀组装基因组序列从NCBI网站上下载(https://www.ncbi.nlm.nih.gov/, GenBank assembly accession: GCA-009823395.1)。组装基因组总长度为474.31 Mb,占该鱼基因组估计大小的96.45%。该基因组包含242个contigs,其中contigs N50为22.46 Mb;重复序列总长度为67.35 Mb,占总基因组序列的14.2%;20条组装为染色体水平的序列总长度占总组装序列的99.44%。

1.2 微卫星筛选及分析

1.2.1 微卫星标记统计术语说明 微卫星相关术语的定义及统计方法参照崔建洲等[19]的研究:(1)重复类型:指重复序列中每个重复单元由几个核苷酸组成,本研究包含单核苷酸重复、二核苷酸重复、三核苷酸重复、四核苷酸重复、五核苷酸重复和六核苷酸重复;(2)重复单元类别:指各重复类型具体由哪几个核苷酸组成,如二核苷酸重复类型中的AC与AG属于不同的重复单元类别;(3)重复拷贝数:对于某一特定微卫星位点,该序列中重复单元重复的次数,如(AC)5代表AC这个重复单元的重复拷贝数为5;(4)重复数目:指每种重复单元类别在基因组中出现的次数。

在结果中对微卫星统计分析时,保持微卫星原始的重复单元类别,如A与T、AC与GT、CAA与TTG虽然分别为互补的重复单元类别,但仍看作不同的重复单元类别,不进行归类而单独统计;而在讨论部分为方便与其他研究的结果进行比较,对重复单元类别进行了归类。

1.2.2 微卫星标记搜索及分析 采用微卫星识别工具(Microsatellite identification tool,MISA)(http://pgrc.ipk-gatersleben.de/misa/)在参考基因组中搜索微卫星位点,搜索所采用的参数如下:单核苷酸重复次数≥10次,二、三、四、五、六核苷酸重复次数≥5次。使用Excel 2019以及SPSS 26进行相关统计分析和作图。

2 结 果

2.1 绿鳍马面鲀基因组中微卫星的分布特征

在474.31 Mb的基因组序列中共筛选得到566 561个完整型微卫星标记,平均每隔837个碱基有1个微卫星标记,微卫星出现的频率为1 195个/Mb。全部微卫星标记的重复序列总长度为13 754 954 bp,约占整个基因组序列的2.90%。对6种重复类型的微卫星进行统计分析,各类型微卫星的数目分布相差较大(表1):二碱基重复类型最多,有336 653个,约占微卫星标记总数的59.42%;其后依次是三碱基重复类型113 998个(20.12%)、单碱基重复类型70 087个(12.37%)、四碱基重复类型39 059个(6.90%)、五碱基重复类型3 694个(0.65%)和六碱基重复类型3 070个(0.54%)。虽然单碱基重复类型的微卫星数量比四、五、六碱基重复类型多,但其微卫星序列的平均长度却较短,仅为四、五、六碱基重复类型微卫星平均长度的3/10~4/10。

表1 绿鳍马面鲀基因组中不同重复类型微卫星统计

对每种重复类型微卫星的重复单元类别进行进一步的统计分析,结果发现单碱基重复单元类别中以单碱基A重复单元数量最多,占单碱基微卫星总数的45.15%;二碱基重复单元有12种类别,数量最多的是CA,占二碱基微卫星的16.17%;三碱基重复单元有60种类别,数量最多的是GAG,占三碱基微卫星的4.84%;四碱基重复单元有238种类别,数量最多的是AAAT,占四碱基微卫星的3.46%;五碱基重复单元有638种类别,数量最多的是AAAAC,占五碱基微卫星的9.87%;六碱基重复单元有520种类别,数量最多的是CCTAAC,占六碱基微卫星的12.93%(表2)。

表2 6种重复类型中数量最多的5种微卫星类别

2.2 微卫星在染色体上的分布特征

此处只统计分析组装为染色体水平序列上的微卫星分布特征(表3),不考虑135条scaffold上微卫星的分布情况。

绿鳍马面鲀1号染色体上分布的微卫星数量最多,有40 917个,占微卫星总数的7.12%;其次是2号和3号染色体上分别含有40 805和28 369个微卫星。19、18号染色体上微卫星数目较少,分别含有20 456个和19 381个;20号染色体上微卫星数量最少,为19 078个,仅占微卫星总数的3.37%。皮尔逊相关性分析表明,绿鳍马面鲀微卫星数量与其所在染色体DNA序列长度呈显著的正相关关系(r=0.937)。不同染色体上微卫星出现的频率不同:微卫星出现频率最高的为2号和1号染色体,分别为1 195.13个/Mb和1 175.58个/Mb;而5号和6号染色体上微卫星出现的频率最低,分别为937.62个/Mb和939.01个/Mb。分析表明,绿鳍马面鲀微卫星的出现频率与其所在染色体DNA序列长度不相关(r=0.029)。

表3 微卫星在染色体上的分布特征

2.3 微卫星重复单元的重复拷贝数及重复区序列长度分布

绿鳍马面鲀基因组中,6种重复类型微卫星的重复拷贝数变化范围较大,从5~815拷贝数不等,且微卫星数量随核心序列拷贝数的增加而减少(图1)。单碱基重复单元拷贝数主要分布在10~20,数量占单碱基微卫星总数的95.52%,最大拷贝数为815;其中重复拷贝数为10的数目最多,为21 692个。二碱基重复单元拷贝数主要分布在5~30,数量占二碱基微卫星总数的93.51%,最大拷贝数为574;其中重复拷贝数为5的数目最多,达到75 188个。三碱基重复单元拷贝数主要分布在5~20,数量占三碱基微卫星总数的97.28%,最大拷贝数为131;其中重复拷贝数为5的数目最多,达到37 703个。四碱基重复单元拷贝数主要分布在5~15,数量占四碱基微卫星总数的96.47%,最大拷贝数为61;其中重复拷贝数为5的数目最多,达到14 875个。五碱基重复单元拷贝数主要分布在5~9,数量占五碱基微卫星总数的95.67%,最大拷贝数为41;其中重复拷贝数为5的数目最多,达到1 896个。

六碱基重复单元拷贝数主要分布在5~9,数量占六碱基微卫星总数的93.62%,最大拷贝数为44;其中重复拷贝数为5的数目最多,达到1 440个。随着重复单元中碱基数目的升高,平均重复拷贝数呈下降趋势(图2)。

图2 平均重复拷贝数随重复单元碱基数的变化

绿鳍马面鲀基因组DNA序列中发现的566 561个微卫星重复区序列长度存在极显著差异,在10~1 148 bp之间变化。其中,59.80%的微卫星重复区序列长度小于20 bp,重复区序列长度大于30 bp的微卫星占总数的20.92%(图3)。

图3 不同重复区序列长度的微卫星数量分布

3 讨 论

3.1 影响微卫星数量统计结果的因素

微卫星识别软件是影响微卫星查找筛选结果和效率的重要因素之一。目前,已开发的基于生物信息学分析的微卫星识别筛查软件有Tandem Repeat Finder(TRF)[20]、MISA[9]以及SciRoko[21];而有些软件,例如SSRLocator[22]和SSRPoly[23],不仅可以进行微卫星的挖掘,还可以进行引物的设计。不同的软件采用了不同的策略进行微卫星的挖掘,对同一基因组序列筛查微卫星的效率和准确性也差异显著。有些软件对长DNA序列直接分析,筛查微卫星的速度较慢;而有些软件将长DNA序列分割成适当的长度,以提高挖掘速度。软件中微卫星筛选的参数设置直接决定了最终得到的微卫星数量,如微卫星最小序列长度及最小重复次数等。EDWARDS等[24]提出,为减少方法学上的不同所造成的结果差异,可以统计计算相对丰度RA(relative abundance,重复单元类别的微卫星个数除以总微卫星个数)和相对频度RF(relative frequency,重复单元类别的重复长度除以全部微卫星序列重复区长度,即本研究结果中的密度)两个指标,以获得在不同研究中具有可比性、通用性的数据。此外,微卫星统计分类标准在不同研究中也有所不同,导致不同研究中微卫星的数量需要重新统计后才可以进行比较。有些研究将简单重复序列及其互补重复序列由一种重复单元类别来表示,如重复单元类别GCC可以代表(GCC)n,(CCG)n,(CGC)n,(GGC)n,(GCG)n以及(CGG)n共6种微卫星,并将6种微卫星归为一类进行统计分析。按照这一标准,理论上可能的不发生重复的基本单元类型减少到501类,其中单碱基有2类(A、C),二碱基有4类(AT、AG、AC、GC),三碱基有10类(AAT、AAC、AAG、ATC、ACG、ACT、AGC、GCC、AGG、ACC),四碱基有33类,五碱基有102类,六碱基有350类[25]。

3.2 绿鳍马面鲀基因组中微卫星分布特征分析

在绿鳍马面鲀基因组序列中,微卫星重复序列总长度为13 754 954 bp,约占整个基因组序列的2.90%,这一比例与人类基因组序列中微卫星含量(3%)相近;而红鳍东方鲀基因组中微卫星含量仅为0.77%[19],造成两种鱼类微卫星含量差异较大的原因可能是两者基因组本身存在较大差异,或是因为微卫星搜索软件及设置参数的不同所致。

在所有微卫星中,二碱基重复类型的数量最多(59.42%),六碱基重复类型最少(0.54%)。数量最多的重复单元类别为二碱基重复的CA(CA/AC/GT/TG),达到206 045个,占全部微卫星数量的36.37%。此外,重复单元类别为CA(CA/AC/GT/TG)的微卫星在总长度、平均长度、频率和密度等指标上都排名第一,这与小鼠[26]、红鳍东方鲀[19]等物种微卫星中重复单元类别AC最为丰富的结果相似,而在灵长类、猪、鸡等物种基因组中最丰富的重复单元类别为单碱基重复的A/T[27]。

3.3 绿鳍马面鲀不同重复单元类别特征分析

单核苷酸重复类型中,在人、果蝇、线虫、拟南芥、黄颡鱼等物种中A/T重复单元类型的数量最多,而G/C数量较少[27-28],在本研究中也得到相同的结果。二核苷酸重复类型的微卫星在大多数物种中最为丰富,如在人类、拟南芥、酵母、红鳍东方鲀中,数量最多的二碱基重复类型分别是AC、AT、AT、AC,而CG重复单元数量相对较少[19,27]。本研究中,绿鳍马面鲀基因组中CA重复单元最为丰富,同样CG重复单元数量较少,仅占全部微卫星的0.64%。三碱基重复类型中,AGG(26 479)、AAT(14 249)是数量最多的两种重复单元类别,最少的是ATC(2 939);而在黄颡鱼和人类基因组中,数量较多的重复单元类别同为AAT、AAC和AAG;需要特别注意的是,人类的多种遗传性疾病与三碱基微卫星重复次数的增加有关,如脆性X综合征[29]、亨廷顿舞蹈症[30]等。

在绿鳍马面鲀四碱基、五碱基、六碱基重复类型中,优势微卫星分别为AAAT、AAAAC和CCTAAC,同样表现出A/T碱基优势,这与虾夷扇贝[31]、中国对虾[32]、红鳍东方鲀[19]和黄颡鱼[28]等水产动物基因组中微卫星特征一致。关于微卫星产生的机制,普遍认可的观点是DNA复制过程中发生滑移错配而使重复单元的重复次数发生变化,而DNA复制发生滑移错配的概率与序列的GC含量呈反比[33-34]。这可能是因为C/G碱基之间通过三个氢键连接,而A/T之间只有两个氢键,GC含量高的DNA序列需要更多能量打开双链而不易发生滑动,因此,微卫星中GC/CG类型的发生频率较低[31]。此外,基因组DNA中CpG岛中的胞嘧啶C常常是甲基化的,甲基化的胞嘧啶C易脱氨基转换为胸腺嘧啶T,也可能是导致微卫星中A/T类型较多的原因之一[33]。

3.4 绿鳍马面鲀不同重复类型的重复拷贝数特征分析

研究结果表明,随着重复拷贝数的增加,绿鳍马面鲀基因组中不同重复类型微卫星的数目随之减少。这一现象也在多个物种的基因组微卫星中出现[28],其原因可能是:(1)重复拷贝数减少导致微卫星长度变短,其稳定性会越高;(2)微卫星重复拷贝数越高,发生突变的频率也越高,使得越长的微卫星数目减少[35]。

4 结 语

对于缺乏分子资源和分子生物学研究的绿鳍马面鲀这一重要水产经济鱼类而言,微卫星分子标记的开发对于其种群遗传多样性评估、遗传结构分析、经济性状解析等研究领域都有着十分重要的意义。本研究对绿鳍马面鲀基因组范围内的微卫星分布特征进行了分析,为后续开发高质量绿鳍马面鲀微卫星标记提供了有用信息和数据资源。下一步,我们将根据微卫星的类型、重复次数以及侧翼序列等特征设计合适的引物,筛选并验证具有多态性的高质量微卫星标记。

猜你喜欢
碱基类别基因组
“植物界大熊猫”完整基因组图谱首次发布
我国小麦基因组编辑抗病育种取得突破
宏基因组测序辅助诊断原发性肺隐球菌
第一代基因组设计的杂交马铃薯问世
基因“字母表”扩充后的生命
一起去图书馆吧
创建新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
简析基于概率预测的网络数学模型建构