崔凯, 岳碧松
(四川大学生命科学学院,生物资源与生态环境教育部重点实验室,成都610065)
微卫星每个单元长1~6 bp,广泛分布于真核生物的基因组中,包括编码区和非编码区(Beckman & Weber,1992)。研究表明,可能是DNA复制过程中的“滑链(strand slippage)”现象造成微卫星DNA多态性信息容量较高(Levinson & Gutman,1987)。由于多态性信息丰富、易于检测、数量多、在基因组内分布均匀等优点,微卫星被作为优良的遗传标记得到了广泛的应用(Guptaetal.,1996;Pérezetal.,2001;Maetal.,2004)。
绿尾虹雉Lophophoruslhuysii隶属于鸡形目Galliformes雉科Phasianidae,中国特有种,国家Ⅰ级重点保护野生动物,世界自然保护联盟(IUCN)濒危物种红色名录将其列为易危(VU)物种(BirdLife International,2016)。绿尾虹雉主要分布于四川、云南西北部、西藏东南部、甘肃东南部和青海南部(郑光美,2015),常栖息于海拔3 000~4 500 m的高山草甸、灌丛和裸岩地带,缺少食物的冬季会垂直迁徙到海拔2 000 m左右的地区活动(何芬奇,卢汰春,1985;卢汰春等,1986)。由于人类活动和自然灾害等因素,绿尾虹雉的种群数量持续下降(刘梦瑶等,2013)。本研究从基因组水平对绿尾虹雉的微卫星特性及相关功能进行分析,可对该物种的群体遗传多样性和亲缘关系的研究提供数据支持,为该物种的保护提供有用信息。
绿尾虹雉的全基因组序列由本实验室测序组装,基因组全长1.01 Gb,Scaffold N50为6.9 Mb。相关研究项目信息及测序数据已上传至NCBI(Bioproject ID:PRJNA321629)。基因组的相关基因结构注释也由本实验室分析所得。
1.2.1微卫星搜索统计和定位微卫星的搜索和统计利用本实验室自主开发的Krait(Duetal.,2017)完成,该软件可从Github(https://github.com/lmdu/krait/releases)下载。对绿尾虹雉全基因组Scaffolds的FASTA序列上的微卫星序列进行搜索和统计,得到相关的类型和位置信息。本研究微卫星的搜索标准为:单碱基重复12次以上,二碱基重复7次以上,三碱基重复5次以上,四到六碱基重复次数均为4次以上。进一步利用自编脚本与基因组注释GFF文件和得到的微卫星注释文件进行比较查找,定位外显子中所含的全部微卫星序列,并进行统计分析,得到所含微卫星外显子的基因FASTA序列。
1.2.2微卫星所在外显子的基因序列注释分析注释分析主要利用Gene Ontology(GO)和KEGG通路注释。GO注释要先将编码基因的蛋白质序列与NR库进行BLAST比对(参数:E-value<1E-5),随后的结果导入Blast2GO(Conesaetal.,2005)进行GO条目注释。注释到的条目利用网页版的WEGO(Jiaetal.,2006)进行分类统计并作图。注释得到所有GO分为三大类:细胞组分、分子功能和生物学过程。GO富集和KEGG通路富集分析利用KOBAS 2.0(Xieetal.,2011)网页提交注释的编码蛋白质序列执行,统计检验利用卡方检验,显著水平设置为α=0.05,最终获得GO富集条目和KEGG富集相关通路。
对微卫星的重复类型和数量进行统计(表1)。绿尾虹雉的全基因组中,6种完美型微卫星总数为292 430个,总长度达5 465 549 bp,占基因组的0.54%,相对丰度为290.47个/Mb。其中,数量和长度最多的是单碱基类型,达209 830个(71.75%),相对丰度为208.43个/Mb。其余微卫星占比都小于10%,依次是四碱基(9.99%)、二碱基(7.07%)、三碱基(6.38%)、五碱基(3.93%),最少的是六碱基(0.88%,相对丰度为2.56个/Mb)。
表1 绿尾虹雉基因组中完美型微卫星分布概况Table 1 The perfect microsatellite types in Lophophorus lhuysii
绿尾虹雉不同类型微卫星的重复次数分布差异较大,单碱基重复次数最多,主要为12~32次(71.75%),12次最多,有39 900个;其余5种类型的重复次数和长度都较低,均低于10%,主要为4~11次(图1)。微卫星偏倚十分明显,主要集中在单碱基,其中,A最丰富,有195 729个,占66.93%,C相对较少,有14 101个,占4.82%;二碱基中,AT最多,有9 849个,占3.37%,其次是AC(2.56%)和AG(1.13%),CG最少,仅有37个,占0.01%;三碱基中最多的是AAT,有5 535个,占1.89%;四碱基中AAAC和AAAT最多,分别占3.81%和2.80%;五碱基中AAAAC最多,占1.07%(表2,图2)。
对微卫星进行全基因组定位,其中,分布于外显子的有2 816个,分布于1 314个编码基因中,数量最少,只占0.96%;分布于内含子和基因间区的数量庞大,分别有101 791个(34.81%)和187 823个(64.23%)。外显子是编码蛋白的翻译区,对基因行使的功能具有重要作用,所以对在外显子中定位到微卫星的编码基因进行了GO和KEGG注释分析。
2.3.1GO注释和富集分析GO注释主要分为三大类:细胞组分、分子功能和生物学过程(图3)。所得GO条目为599个,分布于695个基因中。WEGO分析发现,268个归于细胞部分,135个与分子功能有关,196个参与到生物学过程中。细胞组分中主要与细胞和细胞部分(GO:0005623,GO:0044464)有关,分子功能中主要与连接(GO:0005488)有关,生物学过程中主要与细胞过程和代谢过程(GO:0009987,GO:0008152)有关。GO条目富集前10的主要与代谢、合成过程和转录有关,其中,RNA代谢过程富集最显著(P=7.92E-16),有122个(表3)。
2.3.2KEGG注释和富集分析对绿尾虹雉外显子中含有微卫星的基因进行KEGG注释,得到903个KO number,将这些条目进行富集分析,富集到了14个通路中。这些通路中,黏着连接富集最显著,有14个基因,P值为2.03E-04;黏着斑的基因总数最多,有21个,P值为5.11E-03。将这些通路进行功能分类,主要分为机体系统、细胞过程、环境信息处理、遗传信息处理、人类疾病和代谢。其中,环境信息处理相关的通路最多,7个通路含有80个基因;其次是细胞过程,2个通路含有35个基因;机体系统的最少,只有1个通路6个基因(表4)。
利用全基因组数据对绿尾虹雉微卫星序列进行鉴定和分类注释,可为其分子标记和种群遗传多样性研究等提供有用信息。本文对绿尾虹雉全基因组微卫星进行了搜索分析,1.01 Gb基因组中完美型微卫星292 430个,长度主要在10~43 bp,总长度5 465 549 bp,占全基因组的0.54%,相对丰度290.47个/Mb。雉科鸟类中,红原鸡Gallusgallus共有28 272个微卫星(0.49%)(黄杰等,2012),火鸡Meleagrisgallopavo有177 733个(0.28%)(李午佼等,2012)。与人类3%微卫星含量(Subramanianetal.,2003)相比,绿尾虹雉等雉科鸟类的微卫星数量较少,这或许与哺乳动物基因组较大且重复序列较多有关。人类基因组大小为2.91 Gb,重复序列占基因组的66%~69%(Koningetal.,2011),而鸟类基因组较小且重复序列少,如绿尾虹雉基因组中重复序列只占9.9%。这些证据说明,人类基因组会有相对较多的微卫星。在所有微卫星类型中,绿尾虹雉的单碱基型微卫星最多,达71.75%,其中An含量最高(66.93%)。该结果与红原鸡相似,都以An和Tn为主,单碱基占65.1%(黄杰等,2012)。重复单位增加,微卫星位点的总数会相应减少(Bennett,2000)。在许多动植物中,都表现出微卫星A和T碱基偏倚,如红原鸡(黄杰等,2012)、核桃Juglansregia(廖卓毅,2015)、林麝Moschusberezovskii(卢婷等,2017)、虎皮鹦鹉Melopsittacusundulatus(黄杰等,2017)和天麻Gastrodiaelata(周天华等,2017)等。真核生物中普遍存在的ployA(Gallie,1991)或许是大部分物种全基因组微卫星预测结果表现强烈偏倚的原因,此外,真核生物非编码区的CpG岛易被甲基化(Bird,1986),或也与这种偏倚有关。此外,绿尾虹雉和其他几种雉科鸟类比其他物种有较明显的A碱基偏倚,重复次数最多的重复单元类型分别是A、AT、AAT、AAAC,这种雉科鸟类普遍特点也有待深入研究。
图1 绿尾虹雉中各重复单元微卫星重复次数分布Fig. 1 Repeat distribution of each microsatellite type in Lophophorus lhuysii
图2 绿尾虹雉全基因组中相对丰度最高的微卫星基序分布Fig. 2 Relative abundance of the most relative abundant microsatellite motifs in the genome of Lophophorus lhuysii
图3 绿尾虹雉微卫星分布于外显子的基因GO功能注释Fig. 3 The GO function annotation of exon microsatellites in Lophophorus lhuysii
表4 绿尾虹雉微卫星分布于外显子的基因KEGG富集Table 4 The KEGG enrichment of exon microsatellites in Lophophorus lhuysii
外显子区是重要的表达区域,本文对绿尾虹雉微卫星进行了外显子定位分析,发现外显子中有2 816个(0.96%)微卫星,分布于1 314个编码基因中。GO注释到695个基因中,其中涉及较多关于细胞和细胞部分,富集前10的条目主要与代谢、合成过程和转录有关。KEGG富集到14个通路中,其中最显著富集到黏着连接通路,而大分类下环境信息处理条目最多。微卫星属于不稳定DNA序列,易发生扩增,而位于外显子中的微卫星发生移码突变可能会造成基因突变,而这些基因又与绿尾虹雉处理环境信息、代谢和细胞的基本组分息息相关,若发生突变可能会使这些信号通路的信息传递和一些物质的代谢过程受到影响。
微卫星在真核生物中分布多、分类广,有着多方面的用途:可用于个体识别和亲缘鉴定;是一种常用的遗传标记,可用于研究遗传多态性揭示物种的起源、迁徙和进化等;也可用于遗传病肿瘤诊断等医学有关用途(张云武等,2001)。本文利用软件预测首次对绿尾虹雉的全基因组微卫星进行了搜索鉴定,并对其分布规律进行了探究,为后续的微卫星筛选提供数据基础。