原麝基因区和基因间隔区微卫星分布规律及其功能分析

2023-06-01 04:58张琪刘凤燕赵琪罗雷赵贵军戚文华
四川动物 2023年3期
关键词:内含子微卫星碱基

张琪,刘凤燕,赵琪,罗雷,赵贵军,戚文华*

(1.重庆三峡学院生物与食品工程学院,重庆 404100;2.重庆市药物种植研究所,重庆 408435)

偶蹄目Aritiodactyla麝科Moschidae麝属Moschus动物体型较小、生性温和胆怯,是亚洲的特有物种。麝属所有物种是我国一级重点保护野生动物,被列入CITES 附录Ⅰ(Huanget al.,2013),包括5 个种(Yanget al.,2003):林麝M.berezovskii、原麝M.moschiferus、黑麝M.fuscus、马麝M.sifanicus和喜马拉雅麝M.leucogaster。雄性个体分泌的麝香具有重要的经济价值,是名贵香料和药材。

原麝分布于黑龙江、内蒙古等地的针阔叶混交林。随着全基因组序列的测定(Fanet al.,2018;Yiet al.,2020),从基因组水平分析基因区和基因间隔区微卫星分布规律,了解微卫星序列具有的生物学功能具有重要的意义,有利于了解麝类动物的起源及进化特征,为其研究提供科学依据和思路(肖宇辰等,2019)。

微卫星又称简单重复序列(simple sequences repeats,SSRs),广泛存在于真核生物、原核生物及细菌基因组中,多数分布于非编码区,少数分布于编码区(甘丽萍等,2018;Qiet al.,2020)。SSRs 具有高重复性、高多态性特征,并参与染色体组成、蛋白质功能、基因转录、表达与调控等过程。本研究利用R 脚本和TBtools 提取和互相验证,提取原麝基因组中基因区和基因间隔区序列,基因区序列包括5’非翻译区(5’untranslated region,5’UTR)、3’非翻译区(3’untranslated region,3’UTR)、外显子区和内含子区,统计、分析并比较这些区域SSR 的分布规律及其特征,并对5’UTR 和3’UTR 含SSR的编码基因进行GO 富集分析,探索SSR 的潜在功能。

1 材料和方法

1.1 材料来源

从Ensembl 数据库(http://ftp.ensembl.org/pub/current_fasta/)下载原麝基因组序列,并使用R 脚本和TBtools 提取原麝基因组中提取3’UTR、5’UTR、外显子区、内含子区和基因间隔区序列,以FASTA格式保存。

1.2 数据分析

1.2.1 微卫星识别与鉴定 利用MSDBv2.4(Duet al.,2013)和Krait(Duet al.,2018)对原麝基因区和基因间隔区中完美型微卫星序列进行识别和鉴定,搜索和统计标准为单碱基至少重复12次,二碱基至少重复7 次,三碱基至少重复5 次,四碱基、五碱基、六碱基至少重复4 次;重复序列两端的侧翼序列为200 bp;其他统计标准及SSR 序列统计术语参考戚文华等(2013)和蒋雪梅等(2015)的研究。

1.2.2 GO 富集分析 利用Perl 和R 语言编程对原麝基因组中3’UTR、5’UTR含有SSR序列的基因进行同源性分析。使用将其含有SSR 的基因与TBtools 提取进行比对,设置E-value<1E-5(Chenet al.,2020),其比对结果利用TBtools 进行GO 功能注释。按照分子功能、细胞组成和生物学过程进行GO功能富集分析。

2 结果

2.1 全基因组分析

原麝全基因组长度2.96 Gb,SSR共757 705 个,长度13 556 887 bp,占0.45%,总丰度为255.60 个/Mb,总密度为4 573.27 bp/Mb。单碱基类型的数量最多,256 990 个(33.92%),丰度为86.69 个/Mb;其次为五碱基(21.71%)、二碱基(20.92%)、三碱基(17.11%)、四碱基(6.22%)和六碱基(0.12%)(表1)。

表1 原麝基因组中完美型微卫星分布概况Table 1 Distribution of the perfect microsatellites in Moschus moschiferus genome

2.2 基因区和基因间隔区SSR分布规律

在5’UTR、3’UTR、外显子区、内含子区和基因间隔区,不同重复类型SSR 的丰度差别较大,而相同重复类型的丰度较相似。在5’UTR 和外显子区,三碱基最丰富而六碱基最少;而在3’UTR、内含子区和基因间隔区,单碱基最丰富而六碱基最少(图1)。

图1 原麝基因组不同区域不同类型SSRs的丰度Fig.1 Abundance of different types of SSRs in different regions of Moschus moschiferus genome

2.3 重复拷贝类别比较

2.3.1 5’UTR和3’UTR 在5’UTR中,单碱基A重复类别多于C 重复类别;二碱基CG 重复类别高于AC、AG 和AT 重复类别;三碱基CCG 重复类别丰度最高,AAG 重复类别丰度最低;四碱基CCCG重复类别多于AAAC 重复类别。在3’UTR 中,单碱基A 重复类别多于C 重复类别;二碱基AC 重复类别高于AG、AT 和CG 重复类别;三碱基ACG 重复类别丰度最高,AAG 重复类别的丰度最低;四碱基AAAC重复类别多于CCCG重复类别(图2)。

图2 原麝基因组5’UTR和3’UTR不同重复拷贝类别SSRs丰度Fig.2 Abundance of SSRs of different repeat categories in the 5’UTRs and 3’UTRs of Moschus moschiferus genome

2.3.2 内含子区、基因间隔区和外显子区 内含子区中,单碱基A 重复类别多于C 重复类别;二碱基AC 重复类别多于AT、AG 和CG 重复类别;三碱基ACG 和AGC 重复类别丰度最高,AAG 重复类别丰度最低;四碱基AAAC 重复类别多于CCCG 重复类别。基因间隔区,单碱基A 重复类别多于C重复类别;二碱基AC 重复类别多于AT、AG 和CG 重复类别;三碱基ACG和AGC重复类别丰度最高,AGG重复类别丰度最低;四碱基AAAC 重复类别多于CCCG 重复类别。外显子区中,单碱基A 重复类别多于C 重复类别;二碱基AC 重复类别多于AT、AG和CG 重复类别;三碱基CCG 重复类别丰度最高,AAT 重复类别丰度最低;四碱基CCCG 重复类别多于AAAC重复类别(图3)。

图3 原麝基因组内含子区、基因间隔区和外显子区不同重复拷贝类别SSRs丰度Fig.3 Abundance of SSRs of different repeat categories in the intron,intergenic,and exon regions of Moschus moschiferus genome

2.4 5’UTR 含SSR 编码基因的GO 注释与富集分析

5’UTR 含SSR 序列的编码基因富集到150 个条目,分布于2 446 个编码基因中,其中生物学过程中多生物体细胞膜组织(GO:0044803)、多生物体膜融合(GO:0044800)富集较显著;分子功能主要与细胞骨架的结构成分(GO:0005200)、宿主细胞表面结合(GO:0046812)、短链羧酸酯酶活性(GO:0034338)和磷脂酰肌醇结合(GO:0035091)有关;细胞组分主要与有丝分裂纺锤体的形成(GO:0072686)、细 胞 间 桥 的 调 控 作 用(GO:0045171)、皮质细胞骨架(GO:0030863)和核体(GO:0016604)有关。富集前10的GO 条目主要与代谢、合成过程和转录有关,其中细胞骨架的结构成分富集最显著(P=2.81E-07),有65个条目(图4)。

图4 原麝5’UTR含SSR序列的编码基因的GO注释与富集分析Fig.4 GO annotation and enrichment analysis of coding genes of SSR sequences in the 5’UTRs of Moschus moschiferus genome

2.5 3’UTR 含SSR 编码基因的GO 注释与富集分析

3’UTR 含SSR 序列的编码基因富集到480 个条目,分布于1 655 个编码基因中。生物学过程中跨膜反应(GO:0055085)、对异种生物刺激的反应(GO:0009410)和分泌物(GO:0046903)富集较显著,细胞组分中主要与转移酶复合物(GO:1990234)和染色体(GO:0005694)有关,分子功能中主要与基因结合(GO:0003677)有关。GO 富集前10的条目主要与代谢、合成过程和转录有关,其中,跨膜转运富集最显著(P=0.003),有15 个条目(图5)。

图5 原麝3’UTR含SSR序列的编码基因的GO注释与富集分析Fig.5 GO annotation and enrichment analysis of coding genes with SSR of SSR sequences in the 3’UTRs of Moschus moschiferus genome

3 讨论

本研究利用生物信息学方法测定和统计了原麝基因区和基因间隔区SSR序列。全基因组SSR总数是757 705 个,这与牛Bos taurus(798 778 个)、绵羊Ovis aries(689 671个)、山羊Capra hircus(668 360个)(王月月等,2015)全基因组SSR 总数量较接近,但是低于犬Canis lupus(1 436 242 个)和猪Sus scrofa(1 265 197 个)(Chenet al.,2020)全基因组SSR 总数量,高于马Equus caballus(430 760 个)。原麝基因组中3’UTR、内含子区和基因间隔区SSR 序列中,单碱基SSRs 占优势,而在5’UTR 和外显子区SSR 序列中,三碱基SSRs 明显占优势,这与牛、绵羊(戚文华等,2013)、大熊猫Ailuropoda melanoleuca、北极熊Ursus maritimus(李午佼等,2014)等物种基因组中SSR 序列分布规律相似。在编码区SSR 的GC 含量较高,而GC 含量高的SSR 更加稳定,由此推测GC 含量高的SSR 序列在蛋白质翻译过程中不易产生移码突变(Qiet al.,2016)。原麝全基因组SSR 序列中,以单碱基SSRs 占优势(33.92%),与绵羊(戚文华等,2013)、牛(戚文华等,2013,2019)、大熊猫、北极熊(李午佼等,2014)、林麝(卢婷等,2017)等物种基因组中SSR序列研究基本一致。原麝与牛、羊系统进化关系较近,与马、犬、猪系统进化关系较远。推测物种系统进化关系越近,其基因组微卫星特征越相似,这与相关研究报道结论一致(张涛等,2010)。

随着微卫星的深入研究,发现微卫星序列与基因表达和疾病的发生密切相关。微卫星在复制过程中发生的错误常造成微卫星重复数目的改变,从而使微卫星序列具有不稳定性,其发生的机制为错配修复缺陷(赵璐璐等,2022)。BRAF、PIK3CA、PTEN 等大量原癌基因和抑癌基因具有微卫星不稳定性,容易发生基因突变,在患病动物基因中微卫星不稳定性的发生率增加100~1 000 倍,导致其体内细胞增殖失去调控,进一步加重疾病(Linet al.,2015;Dudleyet al.,2016)。微卫星不稳定性与多种疾病的发生发展密切相关(付煜,杜小燕,2012)。SSRs 重复次数的增加或减少直接影响DNA 修复基因、转录调控基因、细胞凋亡基因相关基因的表达(Duvalet al.,1999;Duval & Hamelin,2002;Vassilevaet al.,2002)。微卫星序列也与染色质折叠、基因重组/复制、蛋白质表达水平、蛋白质功能有关(张涛等,2010)。蛋白质翻译过程中每3 个碱基形成1 个三联体密码,当编码区SSR 重复序列增加,会使其基因功能丧失,从而导致相关疾病。在人类基因中,三碱基SSRs 重复次数的增加与脆性X 综合征(Schwartset al.,1999)、肌强直性营养不良(Timchenkoet al.,2001)、亨廷顿氏病和几种共济失调(Sermonet al.,2001)等神经系统疾病发生发展密切相关。在内含子区域,(CA)n类型SSRs 重复次数增加,可通过增强表皮生长因子受体的基因转录,参与乳腺癌的发生发展(Qiet al.,2020)。微卫星序列还与性别决定密切相关。Subramanian 等(2003)的研究发现,在蛇Serpens、家鼠Mus musculus和 酵母Saccharomyces中(GATA)n区与性别决定有关,但在人类Y染色体上暂未发现性别决定基因与(GATA)n区相关。张琳琳等(2008)的研究结果表明,SSR 的数量随着重复次数的增加而呈现减少的趋势,这可能与SSR 的长度有关,重复次数越多其长度越长,不稳定性越高,变异速率越快,受到的选择压力越大。

本文利用生物信息学方法提取原麝基因组中基因区的序列和基因间隔区序列,基因区包括5’UTR、3’UTR、外显子区和内含子区,统计和分析这些区域SSRs 分布规律及其特征,比较它们在基因区和基因间隔区SSR分布的规律,并对其5’UTR和3’UTR 含SSRs 的编码基因进行GO 富集分析,探索SSR 序列具有的潜在功能。原麝在不同区域的单碱基SSRs 到六碱基SSRs 的分布模式不同,相同区域的SSRs 在相同重复类型的分布差别不大。在5’UTR 多为三碱基SSRs,重复拷贝类别多为AAC、ACC、ACG、AGC、AGG、CCG 等;六碱基SSRs数量较少。在3’UTR、外显子区和内含子区,多为单碱基SSR,重复拷贝类别多为A、C。5’UTR 含SSR 的编码基因主要参与多生物体细胞膜组织、细胞骨架的结构成分、有丝分裂纺锤体的形成等功能。3’UTR含SSR的编码基因主要参与跨膜反应、转移酶复合物、基因结合等功能。

猜你喜欢
内含子微卫星碱基
梅花鹿基因组微卫星分布特征研究
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
不同方向内含子对重组CHO细胞中神经生长因子表达的影响
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
更 正
内含子的特异性识别与选择性剪切*
林麝全基因组微卫星分布规律研究