基于高通量转录组测序技术的龙头鱼微卫星信息分析

2021-10-27 08:28黄新芯蒋艳琳蒋小姿杨天燕
关键词:基元微卫星碱基

黄新芯,蒋艳琳,蒋小姿,杨天燕

(浙江海洋大学水产学院,浙江舟山 316022)

微卫星DNA(Microsatellite DNA)又称为简单重复序列(simplesequence repeat,SSR),是生物基因组,尤其是高等生物基因组中广泛分布的以1~6 个核苷酸为基元,首尾串联而成的重复序列[1],具有遗传变异水平高、重复序列多、数量丰富、呈共显性遗传、引物具有通用性等特点[2-4]。微卫星最早发现于人类基因组中[5],有关鱼类微卫星的研究是从虹鳟Oncorhynchus mykiss 开始的,而后大西洋鲑Salmo salar、大西洋鳕鱼Gadus morhua、罗非鱼Oreochromis niloticus 等多种鱼类微卫星位点也得到了开发[6]。发展至今,高度多态性的微卫星分子标记技术已十分成熟[7],在多种水产动物群体遗传结构和遗传多样性、遗传连锁图谱构建,系统发育和亲缘关系鉴定等研究领域得到了广泛应用[8]。

龙头鱼Harpadon nehereus 俗称豆腐鱼、水潺或狗母鱼,隶属于是灯笼鱼目Myctophiformes,龙头鱼科Harpadontidae,龙头鱼属Harpadon[9],是广泛分布于印度洋和西太平洋沿岸水域的中下层鱼类,在我国主要集中于黄海南部、东海以及南海河口[10]。20 世纪80 年代以来,以龙头鱼为代表的中小型鱼类生物量呈迅猛增加趋势,已成为我国近海渔业优势种,经济地位和生态价值也得到提升[11]。然而近年来,由于海洋生态环境破坏和捕捞压力的增大,包括孟加拉湾以及我国东海在内的部分海区龙头鱼群体逐渐呈现出低龄化、小型化趋势[12-14]。如何保护与合理开发利用龙头鱼生物资源已成为亟待解决的现实问题。

已有的研究工作主要立足于通过种群的动态监测和生物学特征的测定来反映龙头鱼资源状况,从群体遗传学角度揭示其遗传多样性水平的研究报道则多以线粒体基因组序列分析为主。李海燕等[15]和XU T J,et al[16]曾采用磁珠富集法开发龙头鱼微卫星标记,但由于操作步骤繁琐、技术难度大,开发微卫星位点数量有限,难以满足进一步研究需求。近年来,随着以Roche 公司的454 技术、Illumina 公司的Solexa、Hiseq 技术和LifeTechnologies 公司的Solid 技术为代表的二代高通量测序技术的发展[17],多种海洋生物微卫星分子标记的大规模开发得以实现,然而至今未见到采用高通量测序数据开发龙头鱼微卫星分子标记的相关报道。本研究采用新一代Illumina 高通量测序技术对龙头鱼肌肉组织转录组进行测定分析,挖掘微卫星序列信息,探讨其分布、组成和长度等特征,以期为龙头鱼及其近缘物种多态性分子标记的有效开发及遗传多样性研究提供基础信息,为其资源的合理开发与可持续利用政策的制定提供遗传学依据。

1 材料与方法

1.1 实验材料

用于转录组测序的龙头鱼样品于2020 年5 月采自浙江舟山近海。剪取适量样品背部肌肉装入含有RNAhold 保存液的冻存管中保存,送至上海生工生物工程股份有限公司进行cDNA 文库构建和基于Illumina HiseqTM2500 平台的转录组测序。

1.2 RNA 测序数据的拼接及组装

测序获得的龙头鱼样本转录组Raw data 经FastQC 和Trimmomatic[18]软件进行质量评估和剪切,去除接头、样品标识序列、低质量reads 以及带N 碱基较多的reads,获取Clean data。使用Trinity 软件[19]对纯净读数进行De nove 组装成Transcript,去冗余取每个转录本聚类中最长的转录本作为Unigene,用于后续分析研究。

1.3 SSR 位点筛选

使用Micro-Satellite(MISA)[20]软件对龙头鱼转录组Unigenes 中潜在的微卫星序列(SSR)进行搜索,设置筛选条件为:基元长度1~6 bp,单碱基重复次数≥10,二碱基重复次数≥6,三、四、五、六碱基重复次数≥5。若2 个SSR 之间的距离小于100 bp,记为1 个复合微卫星[21]。

1.4 数据分析

使用Excel 软件统计SSR的数量、发生频率、出现频率、分布距离与密度、重复类型、重复区段长度变化、重复基元类别。在微卫星初始统计时,保持其原始重复类别,不进行归类,如将G 和C 单独统计,而在讨论部分为与他人结果进行比较,考虑碱基互补配对的原则。通过以上数据的统计整理,分析龙头鱼转录组微卫星序列的分布特征。

SSR 发生频率=含SSR的Unigenes 总数/ Unigenes 总数

SSR 相对丰度=筛选获得的SSR 总数/转录组Unigenes 总长度

SSR 平均距离=Unigenes 总长度/筛选获得的SSR 总数

SSR 出现频率=检测所得SSR 总数/ Unigenes 总数

2 结果与分析

2.1 转录组测序、拼接和组装

基于Illumina HiseqTM2500 平台测序,总计产出41 886 302 条Raw reads,经质控得到39 233 566 条Clean reads,共计5 584 743 187 个核苷酸,GC 含量为51.39%、N 碱基比例0.02%,Q20(质量值≥20的碱基数目所占百分比)为97.94%,Q30(碱基质量值≥30的碱基数目所占百分比)为91.58%。经Trinity 从头组装获得35 859 条Transcripts,去冗余后得到29 756 条Unigenes,平均长度为570.45 bp,N50 为797 bp,N90为249 bp(表1)。长度大于1 Kb的Unigens 有4 120 条,占总Unigenes的13.84%,大于500 bp的有9 634条,占比32.38%。表明,本研究中转录组文库的测序和组装结果较好,可以进行后续生物学研究。

表1 转录组数据组装结果统计表Tab.1 Statistical table of transcriptome data assembly of H.nehereus

2.2 龙头鱼转录组SSR 数量及分布

使用MISA 软件对总长16 974 320 bp的29 756 条Unigenes 序列进行筛选,发现共有6 023 个SSR 位点分布在5 085 条Unigens 中,发生频率为17.1%,其中4 215 条Unigenes 含有单一的SSR 位点,约占序列总数的83%。去除以复合形式存在的551 个SSR 位点,获得6 类完美型SSR 共5 652 个,总长度86 517 bp,相对丰度为332.97 个/Mb,即平均每3 Kb 出现1 个SSR 位点。在完美型SSR 位点中,67.59%为单碱基重复类型(3 820 个),二碱基重复类型(1 171 个)占比20.72%,三、四、五、六碱基重复类型相对较少,仅11.69%,发生频率、相对丰度、总长度也呈现出同样的趋势(表2)。

表2 龙头鱼转录组不同重复类型完美型微卫星位点分布特征Tab.2 Distribution of perfect SSR loci with different repeat types in H.nehereus transcriptome

2.3 龙头鱼转录组SSR 重复基元类型

龙头鱼转录组微卫星中共检测出重复基元148 种,其中三、四碱基重复基元种类最为丰富,分别有51、63 种,单碱基受碱基数量的限制,重复基元种类最少,仅有4 种,但在数量上占据了绝对优势,其中A、T 重复基元占到了总SSR 数量的65.20%,相对而言五、六碱基重复基元种类与数量分布均较少(表3)。从基元在各自重复类型中的含量来看,A 在单碱基重复中最多,达到了1 848 个,C 最少为54 个;二碱基重复以GT(16.74%),TG(16.57%),AC(16.23%),CA(12.98%)为主;三碱基重复中,占比较高的有GAG(5.72%),GAT(4.93%),TTG(4.54%),AAT(4.34%),CCT(4.34%),TTA(3.94%);四碱基重复出现频率较多的是TTTG(8.21%),AAAC(7.46%),CTGT(5.22%);五、六碱各重复类型数量分布较为均匀,无明显优势重复基元(图1)。

表3 龙头鱼转录组SSR 中优势重复碱基类别Tab.3 Dominant base classes in each base repeat type in H.nehereus transcriptome

图1 龙头鱼转录组中各类型微卫星重复数分布Fig.1 Distribution of different copy numbers of various types of microsatellites in H.nehereus transcriptome

2.4 龙头鱼转录组SSR 序列重复次数分布

龙头鱼转录组微卫星位点中,10 次重复的SSR 数量最多,达1 313 个,占SSR 总数的23.23%;其次是6,11,12 次重复,位点数量均在500~800 个之间,约占总SSR 数目的33.78%(图2)。统计表明,单碱基重复次数分布在6~58 次,其中11~15 次最多,占单碱基总数的47.70%;二碱基重复拷贝数在6~46 次之间,以6~10 次重复居多,共894 个,达到了该类型核苷酸总数的76.34%;三、四碱基重复次数分别分布在5~26次和5~20 次之间,尤其是5~10 次重复,分别占其重复类型总数的96.45%、88.81%;五、六碱基基元重复次数均小于16 次,以5~10 次居多(表4)。

图2 龙头鱼转录组中SSR 重复次数分布Fig.2 Distribution of the repeats number of SSR repeats in H.nehereus transcriptome

总的来说,该研究中SSR基元重复次数主要分布在6~10 次,对应的SSR 位点共2 431 个,占总SSR 数目的43.01%;其次是11~15 次,共2 009 个,占比33.54%;重复次数大于25 次的位点相对较少,主要由单碱基和二碱基组成,共163 个,占SSR总数的2.89%(表4)。此外,当SSR 重复次数达到了10 次,随着重复次数的增加其位点总数呈显出递减的趋势,且单碱基重复所占的比例逐渐增大。

表4 龙头鱼转录组不同类型微卫星重复次数区间分布特征Tab.4 Distribution interval of the copy number in different microsatellite motifs for H.nehereus transcriptome

2.5 龙头鱼转录组SSR 长度分布及多态性评价

龙头鱼微卫星序列长度区间跨度较大,范围在10~92 bp,其中六碱基重复序列长度变化最小在30~42 bp 之间;二碱基重复序列长度范围最大,为12~92 bp;单、三、四、五、核苷酸重复序列长度范围分别为10~58、15~78、20~80 和25~60 bp。微卫星的多态性源于等位基因间重复单位数的不同导致的序列长度差异,根据长度的不同可将微卫星分为2 类:具有高度多态性的Ⅰ型(重复序列长度大于等于20 bp)和中度多态性Ⅱ型(重复序列长度在12~20 bp 之间),当重复序列长度小于12 bp 时多态性较低[22]。Ⅰ与Ⅱ型微卫星作为分子标记的潜在可用性较高[23]。在本研究中,Ⅰ型SSR 共896 条,占SSR 总数的15.85%,Ⅱ型SSR 有2 819条,占SSR 总数的49.88%(图3)。

图3 龙头鱼转录SSR 长度分布特征Fig.3 Length distribution of transcriptomic SSR in H.nehereus

3 讨论

近年来,随着转录组测序技术在非模式生物遗传学研究中的广泛应用,基于转录组数据挖掘微卫星位点逐渐成为微卫星标记开发的重要手段之一[24]。ZHENG Jian,et al[25]通过转录组测序开发得到了7 490 个小黄鱼Larimichthys polyactis SSR 标记;SONG Chenyu,et al[26]从斑尾刺虾虎鱼Acanthogobius ommaturus 测序数据中筛选出4 756 个SSR 位点。而目前有关龙头鱼的相关研究报道较少。本研究对龙头鱼肌肉组织进行转录组测序,从组装所得序列中鉴定出大量SSR 位点。相较于XU T J,et al[16]采用链霉亲和素磁珠吸附这种传统方式开发龙头鱼微卫星,转录组测序经济、快捷且高效。同时,由于转录本具有较高的保守性,通过转录组开发得到的微卫星在近缘物种中具有更高的通用性[27]。此外,来源于转录组的微卫星标记具有特异性并与某些功能基因紧密连锁,可为后续遗传图谱构建、QTL 定位等奠定基础。

本研究通过对龙头鱼转录组进行SSR 位点分析,在29 756 条Unigenes 中共识别位点5 652 个,出现频率为18.99%,与江鳕Lota lota(16.61%)[28]和缺须盆唇鱼Placocheilus cryptonemus(12.08%)[29]转录组微卫星数据相比,龙头鱼转录组中SSR 出现频率较高,但低于银鲳Pampus argenteus(28.49%)[23],总体来说,龙头鱼转录组中SSR 数量保持在较为丰富的水平。从相对丰度来看,龙头鱼(0.333 SSR/Kb)远大于大口黑鲈Micropterus salmoides(0.153 SSR/Kb)[30]、双须骨舌鱼Osteoglossum bicirrhosum(0.101 SSR/Kb)[31],低于黄唇鱼Bahaba flavolabiata(0.429 SSR/Kb)[32]。造成这种差异的原因可能与物种间差异、转录组结构、检测标准、搜索软件选择以及SSR 位点所在基因的表达丰度有关[33]。此外,尽管本研究未采用多组织混合样本,无法进行基因差异化表达研究,但从微卫星标记开发角度来看,转录组数据质量及微卫星含量均处在中上水平,能够为分子标记开发及遗传学研究提供充足的序列资源。

所获得的龙头鱼转录组中不同类型的SSR 丰度差异较大,其中单碱基重复为最主要的重复类型。有研究推测,多数脊椎动物(包括鱼类)基因组微卫星中单碱基重复丰度最高,而在转录组中似乎也有同样的趋势,这可能与微卫星序列越长,突变率就越高,因此稳定性就越差有关[34]。由于单碱基重复出现极低多态性位点的可能性相对较大[35],为提高后续分子标记开发的可用性,在对重复碱基类型进行统计时可将其扣除,则余下的微卫星以二碱基重复居多,其次是三碱基重复。一般认为,重复基元的含量与物种进化水平的高低有紧密的联系,低级重复基元出现频率高的物种进化水平较高,而高级重复基元的大量存在表明了进化时间较短或变异频率较低,即高级基元微卫星多态性普遍比低级基元低[36]。龙头鱼中1~3 碱基重复类型约占总SSR的97.28%,表明其可能具有较长的进化历史较长或较高的变异频率,开发潜力较高;4~6 碱基重类型相对较少,与团头鲂Megalobrama amblycephala[37]等研究结果相似。

龙头鱼二碱基重复以GT/AC 基元为主,与牙鲆P.olivaceus[38]一致。相对来说,GC 含量十分稀少,这一特点在翘嘴鳜Siniperca chuatsi[39]、草鱼Ctenopharyngodon idella[40]、红鳍东方鲀Takifugu rubripes[41]等水生生物转录组微卫星序列中均有体现。已有研究表明在脊椎动物基因组中GC 重复类型较为罕见,这可能是基因组DNA 由于CpG 甲基化,胞苷酸C 易通过脱氨基作用转变为胸腺嘧啶T[42]。值得注意的是,三碱基重复类型中AGG/CCT 含量较为丰富,脊椎动物和木本植物均有类似报道,但在鱼类研究中并不常见[43]。AGG与生物早期生长和发育密切相关,加之三碱基重复在某些遗传疾病控制上的特殊作用,推测AGG的高频率分布可能有助于龙头鱼早期生长调控以及控制致病基因的表达[44]。在单、四碱基重复中A/T、TTTG/CAAA 和AAAC/GTTT 基元含量丰富,体现出一定的A/T 优势,也在一定程度上对GC 含量的稀少起到了支撑作用。总的来说,SSR 各碱基类型的优势基元分布在不同物种间存在差异,但仍然保留了一定程度的相似性。

分子标记的性能优劣及可用性主要通过其多态性来评价,微卫星凭借其丰富的长度多态性,成为了一种理想的分子标记[45]。目前认可度较高的有关SSR 多态性形成机制主要有2 种:一种是DNA 复制过程中聚合酶的滑移造成重复次数的差异[46];另一种是在减速分裂过程中,同源染色体及非姐妹染色单体的不对等交换和重组[47]。微卫星多态性在基元特征上主要表现为重复次数的不同以及碱基数不同形成的片段长度差异。一般情况下,随着重复次数的增加,微卫星序列的变异性也会增加,其多态性潜力也就越大[33]。从重复次数来看,龙头鱼微卫星基元重复次数在5~58 之间,主要集中在5~25 次,若不考虑容易发生错配的单碱基重复类型,重复数最高达到46 次。从片段长度来看,超过60%的SSR 位点具有中度及以上水平的多样性,表明龙头鱼转录组来源的SSR 具有较高的多态性潜能。

生物种群资源量的衰退常伴随着遗传多样性水平的下降及遗传结构的改变。龙头鱼作为我国重要的海水经济鱼类,其资源的保护与开发利用理应受到充分的关注。本研究通过高通量测序揭示龙头鱼转录组中SSR 分布特征和规律,提供了高效开发多态性微卫星标记的数据基础。这些分子标记将应用于龙头鱼群体遗传多样性与遗传结构研究,评估龙头鱼种质资源,探讨不同地理群体的遗传差异,阐明其系统地理格局,进而为龙头鱼渔业管理单元的划分提供科学依据,促进龙头鱼资源的合理开发、利用与保护。同时由于微卫星侧翼序列的保守性,经过筛选的SSR 标记有望用于其它亲缘关系较近物种的研究。

猜你喜欢
基元微卫星碱基
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
绿鳍马面鲀全基因组微卫星分布特征
面向异构履带车辆的统一运动规划方法
基于转录组西施舌微卫星标记开发及隐种鉴定
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
基于多重示范的智能车辆运动基元表征与序列生成
基因“字母表”扩充后的生命
应用思维进阶构建模型 例谈培养学生创造性思维
有级转向履带车辆的驾驶员操控行为模型
生命“字母表”迎来新成员