刘晓懿,蔡钰东,郑惠玲,姜 雨
(西北农林科技大学 动物科技学院,陕西 杨凌 712100)
基因渗入是指通过种间杂交将遗传物质从一个物种移动到另一个物种的过程。基因渗入提高了物种的遗传多样性,使其能够更快地适应不断变化的环境[1]。例如:牦牛(Bosgrunniens)通过将低氧适应性等位基因EGLN1、EGLN2、HIF3a渗入到青藏高原普通牛(Bostaurus)基因组中,提升了普通牛在高海拔地区的适应性[2];北美野兔(Lepusamericanus)基因组中与季节性毛色变化相关等位基因ASIP来自于长耳大野兔(Lepuscalifornicus)的渗入[3];盘羊(Ovisammon)基因组中氧运输相关的等位基因HBB渗入到青藏高原绵羊(Ovisaries)基因组中,提高了青藏高原绵羊的高原适应性[4]。
山羊(Caprahircus)作为人类最早驯化的动物之一,对人类文明的进步和发展具有重要意义。有证据表明,山羊是由多个遗传背景不同的伊朗野山羊(Capraaegagrus)群体驯化而来,之后随着人类的迁徙传播至世界各地[5-6]。除了伊朗野山羊之外,全世界范围内还分布着其它山羊野生近缘种。这些野生近缘种通过基因渗入的方式,对家山羊基因组产生了十分重要的影响。目前已有研究发现,位于驯化地附近的西高加索北山羊(Capracaucasica)通过对MUC6基因区域的渗入,提高了胃肠道线虫抗性,可能帮助家山羊适应了圈养环境[6]。
本研究对收集的现代家山羊、古代家山羊以及山羊野生近缘种基因组数据进行全基因组遗传变异检测,在家山羊基因组中找到一段长达85 kb的来自山羊野生近缘种渗入的基因序列,探究了该片段的渗入来源、渗入历史以及在不同群体中的渗入频率。同时探讨了该渗入片段如何对家山羊环境适应产生影响。
本研究一共收集到了世界范围内163只现代家山羊、81只古代家山羊以及69只山羊野生近缘种的基因组数据[7-10],其中现代家山羊采集地包括非洲(n=56)、欧洲(n=24)、西亚(n=32)、南亚(n=9)、东亚(n=42)。山羊野生近缘种包括30只阿尔卑斯北山羊 (Capraibex),4只伊比利亚北山羊(Caprapyrenaica),5只西伯利亚北山羊(Caprasibirica),2只努比亚北山羊(Capranubiana),1只西高加索北山羊(Capracaucasica),3只捻角山羊(Caprafalconeri)以及24只伊朗野山羊(Capraaegagrus)。
使用BWA v0.7.17将质控合格的测序序列比对到最新版山羊参考基因组ARS1 (GCF_001704415.1),其中现代山羊使用BWA-MEM算法[11],古代山羊使用BWA-backtrack算法[12]。使用Picard去除PCR重复,然后通过GATK v4.0.12[13]进行基因变异的检测,并去除深度异常的位点,保留整体深度在所有样本平均深度加和的1/3到3倍之间的位点。过滤后的SNP位点使用Beagle v5.1进行填充和phase[14]。利用SnpEFF对SNP进行注释[15]。
使用RapidNJ (v2.3.2)[16]对85 kb渗入片段构建Neighbor-joining(NJ)树。使用iTOL[17]对系统发育树进行了可视化分析。使用R语言中Pegas库[18]进行单倍型网络图分析。
蛋白序列通过ExPASy (https://www.expasy.org/)[19]预测其亲水性,并通过AlphaFold v2.1.0 (https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb)[20]预测蛋白质结构。
通过比较所有山羊基因组发现,家山羊基因组在位于chr1:116 312 kb~116 397 kb的这段长达85 kb的序列中存在2种差异很大的单倍型(图1B)。通过FST和dxy将不同单倍型的家山羊群体与山羊野生近缘种进行比较,发现其中1种单倍型与家山羊的野生祖先伊朗野山羊的基因组相近,另1种单倍型与北山羊的基因组相近(图1A)。
图1 山羊受选择分析及基因型差异A.山羊受选择信号分析;B.山羊基因型差异分析Fig.1 Selection analysis and genotype difference of goatsA. Selection analysis of goats; B. Genotype difference of goats
本研究利用这段长达85 kb的基因组序列进行NJ树和单倍型网络图的构建。结果显示所有山羊基因组共分为2种单倍型。其中1种单倍型包含伊朗野山羊、捻角山羊以及部分家山羊,另1种单倍型包括其他山羊野生近缘种以及部分家山羊(图2)。结合前面基因型热图(图1B)可以得出,家山羊基因组在chr1:116 312 kb~116 397 kb序列上存在来自山羊野生近缘种的渗入。同时,我们发现在被渗入的家山羊群体中,与其遗传距离最近的野生近缘种是阿尔卑斯北山羊和伊比利亚北山羊。说明这段85 kb序列可能来自于阿尔卑斯北山羊或伊比利亚北山羊的渗入。
图2 山羊渗入片段NJ树图与单倍型网络图A.山羊渗入片段NJ树图;B.山羊单倍型网络图Fig. 2 NJ tree and haplotype network of goat introgression regionA. NJ tree of goat introgression region; B. Haplotype network of goat introgression region
为了进一步探究chr1:116 312 kb~116 397 kb序列在家山羊群体中的渗入频率,选取该片段内的所有的渗入位点,并依此计算家山羊与伊朗野山羊之间的匹配度。结果显示家山羊片段的匹配度呈现双峰分布,这与上述结果相符(图3A)。将匹配度大于0.6的单倍型命名为野生型单倍型,匹配度小于0.6的单倍型命名为渗入型单倍型。不同地区渗入频率结果显示,该单倍型主要分布在欧洲和非洲两地。其中,欧洲渗入频率为52.1%,非洲渗入频率为32.1%,其他地区渗入频率为0.9%(图3B)。此外,利用81只古代山羊基因组来探究该单倍型的渗入历史。结果显示,距今3 000 a前,一只来自于英国的家山羊存在该渗入单倍型(图4)。结合上述结果说明,该单倍型的渗入事件发生不晚于距今3 000 a前的欧洲,并对现代欧洲、非洲的山羊群体产生了重要影响。
图3 单倍型相似度与渗入频率A.单倍型匹配度;B.单倍型渗入频率分析Fig. 3 Haplotype similarity and introgression frequencyA. Match proportion of haplotype; B. Introgression frequency of haplotype
图4 古代山羊chr1:116 312 kb~116 397 kb基因型Fig. 4 Ancient goat chr1:116 312 kb~116 397 kb genotype
为了进一步探究渗入单倍型chr1:116 312 kb~116 397 kb的功能,本研究在该范围内的基因组中只发现了2个完整的蛋白编码基因,P2RY12和P2RY13。二者在多种炎症中发挥着重要作用[21],并在绵羊的巨噬细胞中存在表达[22]。体细胞数(somatic cell count,SCC)是反应乳腺炎的重要指标之一,在奶牛的选育过程中起到十分重要作用[23]。有研究表明P2RY12和P2RY13与奶牛体细胞数相关[24]。我们对P2RY12和P2RY13渗入位点进行基因注释,发现这2个基因存在2个来自渗入单倍型的错义突变(表1)。此外,分别对P2RY12和P2RY13突变前后的蛋白序列进行亲水性统计以及蛋白结构预测。结果发现,P2RY12和P2RY13蛋白序列上突变的氨基酸均会导致周围氨基酸的亲水性的变化(图5A,图5B)。同时,发现P2RY12上Pro317Ser的变化会导致其末端α-螺旋延长(图5C,图5D)。猜测该渗入单倍型可能是通过基因的错义突变影响了蛋白质结构的变化,进而影响了泌乳相关性状的差异。
表1 渗入单倍型突变位点Table 1 Missense variant of introgressed haplotype
山羊是人类最早驯化的家养动物之一,早在距今11 000年前的新月沃地就被驯化[25]。作为家山羊驯化的野生祖先,伊朗野山羊与家山羊的遗传距离比北山羊更近[5]。但是本研究发现在山羊基因组chr1:116 312 kb~116 397 kb区域内,部分家山羊基因组反而与北山羊差异更小与伊朗野山羊差异更大。随后又通过构建NJ树与建立单倍型网络方法对这段长达85 kb的基因组序列进行探究。结果均显示,家山羊该区域的基因型存在明显差异。部分家山羊基因组受到了北山羊的影响,其中对家山羊该基因组影响程度最大的北山羊为阿尔卑斯北山羊和伊比利亚北山羊。该结果也证实家山羊存在来自阿尔卑斯北山羊或伊比利亚北山羊的基因渗入。
随后该研究在这段长达85 kb的渗入单倍型中发现了2个完整的蛋白编码基因P2RY12和P2RY13。二者都来自于嘌呤受体家族基因,在炎症等病理反应中有着重要影响[21],并在绵羊的巨噬细胞中高表达[22]。有研究表明,P2RY12可以通过激活血小板释放各种细胞因子和趋化因子,进而激活中性粒细胞和单核细胞,从而在不同炎症中发挥关键作用[21]。体细胞数作为乳腺炎的重要指标之一,在奶牛选育中起到重要作用[23]。有研究证明P2RY12和P2RY13与奶牛体细胞数存在关联[24]。此外我们在P2RY12和P2RY13这2个基因中共找到2个来自渗入单倍型的错义突变,并发现P2RY12上的突变Pro317Ser会导致蛋白末端α-螺旋增长。猜测该渗入单倍型正是通过改变P2RY12的蛋白结构来影响乳腺炎的发生,进而影响山羊的产奶性状。
欧洲作为世界范围内重要的奶山羊培育地,培育了多种奶山羊品种。其中包括萨能奶山羊,吐根堡奶山羊等优秀品种。此研究发现该渗入单倍型主要分布于欧洲和非洲的现代家山羊群体中,频率分别为52.1%和32.1%,并且在距今3 000 a前的英国家山羊的基因组中发现了该渗入单倍型。由此推测欧洲人由于对于产奶的需求和产奶性状的选择,使得至少距今3 000a前渗入的单倍型在家山羊基因组中得以保留,并最终在非洲、欧洲等地的高产山羊基因组中扩散开来。
本研究通过收集世界范围内共163只现代家山羊、81只古代家山羊以及69只山羊野生近缘种的基因组数据。发现在家山羊基因组chr1:116 312 kb~116 397 kb范围内,存在来自阿尔卑斯北山羊或伊比利亚北山羊的渗入。该单倍型的渗入时间不晚于3 000 a前,并且主要存在于现代欧洲和非洲家山羊群体中。该渗入单倍型包含两个与乳腺炎相关的蛋白编码基因P2RY12和P2RY13。其中P2RY12上Pro317Ser的变化会导致其末端α-螺旋增长。