刘玲玲,孟 军,菲茹扎,王 琼,曹 行,刘武军
(新疆农业大学动物科学学院,新疆乌鲁木齐 830052)
毛色是动物的一种重要特征,其能够在伪装、模仿、社会交流和抵御太阳辐射有害影响等方面保护动物[1]。毛色还与某些动物疾病有关,例如银色马的先天性眼异常综合症[2]。人类对毛色具有偏好性。20 世纪50 年代初,花马仅出现在爱尔兰,因英国人对此毛色的马匹不感兴趣,无法引入英国,但吉普赛人对花马比较偏爱,且以此马为亲本培育出毛色以黑白相间为主的吉普希凡尼马品种[3]。决定马匹毛色的主要因素是黑色素[4],影响毛色的基因能够调节黑色素的产生与分布,进而形成各种各样的毛色。影响家养动物猪[5]、牛[6]、羊[7]毛色性状的主要基因及机制已有相关研究。Cho 等[8]利用全基因组关联分析对杂交猪的毛色进行研究,发现KIT(V-Kit Hardy-Zuckerman 4 Feline Sarcoma Viral Oncogene Homolog)是影响杂交猪毛色的基因。KIT基因也是决定韩国济州岛马与纯血马的杂交后代马中毛色呈斑点状的主要基因[9]。Edea 等[6]基于高密度芯片对187 头埃塞俄比亚牛进行全基因组关联分析,发现MITF基因是影响牛毛色呈斑点状的基因。关于影响马毛色性状的主要基因和突变位点研究也有报道,如Brunberg 等[10]研究发现PME17基因第11 外显子处发生缺失突变导致该处氨基酸排列从精氨酸突变为半胱氨酸,该突变显示与多种马品种的银色表型完全相关。
为进一步鉴别影响马毛色性状的主要基因和突变位点,本研究基于马670K SNP 芯片,利用全基因组关联分析(GWAS)方法,对控制马骝毛和栗毛毛色性状的基因进行研究,旨在挖掘影响伊犁马毛色性状的关键基因,探究马毛色性状的遗传基础。
1.1 实验动物 研究群体包括119 匹伊犁马(年龄5~7岁),来自伊犁哈萨克自治州昭苏马场。
1.2 血样采集 颈静脉采血5 mL,枸橼酸钠抗凝,-20℃保存。
1.3 DNA 提取及测序 将采集的血样送至北京博奥公司,提取马基因组DNA 及芯片测序。
1.4 表型数据测定 伊犁马毛色以栗毛和骝毛居多,根据毛色分类方法和实验群体的毛色种类将毛色分为骝毛和栗毛,栗毛对应编码为1,骝毛对应编码为2。
1.5 基因型数据的质量控制 利用Plink(v1.9)软件,对119 个个体及670 796 个SNPs 数据进行质量控制。实验剔除了检出率小于90% 的个体;剔除了分型成功率(call rate)小于90%的染色体位点和等位基因频率(MAF)小于0.03 的染色体位点。
1.6 群体分层评估 为消除连锁不平衡对个体间遗传相关估计的偏差,选用独立的SNPs,利用Plink(1.9)进行SNPs 筛选,以50 个位点为一个窗口,以5 个位点为步长,r2设为0.2。利用主成分分析(PCA)方法对群体结构进行分析,应用Rv3.4.4 作图[11]。
1.7 统计分析模型 全基因组关联分析使用Plink1.9 软件(http://www.cog-genomics.org/plink/1.9/)中的卡方检验进行Case-Control 设计。
1.8 多重校正 应用Bonferroni 方法进行多重校正,并确定全基因组显著阈值,计算方法是常规的显著P值除以检测的SNP 个数,对检验的SNP 的P<0.05/N 或P<1/N 分别表示SNP 达到基因组水平显著关联或潜在关联(N 为质控后和连锁不平衡后的独立SNP 数目)[12];即P<5.19E-7(0.05/96 903)时,SNP 与毛色性状显著关联;SNP 的P<1.03E-5(1/96 903)时,SNP 与毛色性状潜在关联。
1.9 位置候选基因注释 利用马基因组EquCab2.0 序列信息结合NCBI(http://www.ncbi.nlm.nih.gov/)、UCSC(http://genome.ucsc.deu/)、Ensembl(http://asia.ensembl.org/index.html)等生物信息学数据库,对显著的SNPs位置进行定位,没有处在基因内部的SNPs 标记,考虑到标记之间的连锁不平衡,则分别检索显著SNP 位点上、下游1 000 kb 范围内的候选基因。通过在线软件Genecards(www.genecards.org/)和KEGG 来查找和分析候选基因功能。
2.1 毛色性状表型描述性统计 在本研究的119 匹伊犁马中,栗毛色的马匹为41 匹,骝毛色的马匹为78 匹。
2.2 质控结果 合格的样本经过Affymetrix 的GTC 平台分型,经过严格的质量控制之后,检出率<90%的SNP标记有22 649 个,MAF<0.03 的SNP 标记有154 010 个,最终剩余494 137 个SNPs 和119 个个体用于后续分析;经过连锁不平衡分析,估算的独立SNP 数目为107 680,去除未知染色体上的SNP 数后,独立SNP 数为96 903(用于计算Bonferroni 校正P值)。
2.3 群体结构 由图1 可知,实验群体不存在分层现象。为保证结果更准确,同样将群体因素作为协变量加入到全基因组关联分析模型中。
图1 群体主成分分析图
2.4 GWAS 结果 图2 反映了对应毛色性状显著相关的SNPs,且能看到位点在各个染色体上的分布情况。Y值为6.285 所对应的线代表全基因组显著水平阈值,位于此线之上的位点表示其与目标性状相关性达到全基因组显著水平。GWAS 结果表明,有2 个SNPs 达到全基因组显著水平。
图2 GWAS 曼哈顿图
2.5 基因注释结果 注释结果如表1 所示,2 个SNP 共注释出39 个基因,其中2 个SNP 的共同基因为CPNE7、DPEP1、CDK10、PATA2L、VPS9D1、ZNF276、FANCA、SPIRE2、TCF25、MC1R、DEF8、GAS8,且AX-104199007是显著性最高的SNP。
表1 毛色性状基因注释结果
2.6 富集分析结果 基因功能分析结果发现MC1R通过调节细胞内cAMP 水平对酪氨酸酶进行调控,最终形成不同毛色。
随着高通量测序技术的革新,GWAS 方法逐渐成为研究哺乳动物基因的主要方法。在牛上,利用GWAS成功找出与生产和繁殖性状相关的基因[13-14];在马上,目前仅找出与疾病相关的基因[15]。本研究旨在找出与伊犁马毛色性状关联的基因。Sponenberg 等[16]将马的毛色分为2 类,即黑色和非黑色。Thiruvenkadan 等[4]将毛色分为3 类,第1 类毛色为基础毛色,即黑色、骝色、栗色;第2 类毛色为稀有毛色,即奶油色、褐色、银棕色、香槟色;第3 类为以白色为基础的毛色。韩国才等[17]将毛色分为单毛色和复毛色两大类(13 个小分类)。伊犁马群体中毛色较多的为骝毛和栗毛。本研究将毛色分为骝毛和栗毛,属于韩国才[17]一书中单毛色的分类。
黑素皮质素受体1(MC1R)能够调节产生黑色素细胞刺激激素(α-Melanocyte Stimulating Hormone,α-MSH),同时它是G-偶联蛋白家族受体之一[18]。环磷酸腺苷cAMP(Cyclic Adenosine 3’,5’-Monophosphate,cAMP)信号通路为真黑素形成的关键调节通路。MC1R 与α-MSH 结合使cAMP 被激活,升高细胞内的cAMP 水平,随后激活酪氨酸激酶,从而活化粗面型内质网以及游离核糖体上合成的酪氨酸酶。黑色素细胞被催化,并且酪氨酸从血液中被摄取,多巴被高尔基复合体形成,当黑色素小体内的多巴积累到一定程度后,黑色素被释放,形成动物的毛色[19]。Agouti 位点编码刺鼠信号蛋白(ASIP),它能与α-MSH 进行竞争性结合MC1R,使得cAMP 水平下降,减少黑色素含量[20]。本研究得出MC1R基因可能是影响伊犁马毛色的主要基因之一。根据NCBI 收录信息,MC1R基因位于马3 号染色体,全长1 721 bp,外显子区954 bp。在家养动物猪[21]、羊[22]、鸡[23]、狗[24]、猫[25]中,关于MC1R基因的研究较多。Mahmoud[26]研究沙特阿拉伯绵羊品种MC1R基因的DNA 多态性,在MC1R基因中检测到5个单核苷酸多态性(SNPs),显性Ed 等位基因最常见的单体型(H3)分别与Najdi 和Sawaknee 绵羊的黑色或棕色毛色相关。在缅甸猫中发现一种新的毛色,被称为赤褐色,MC1R基因是影响这一毛色的候选基因[25]。在马中关于MC1R基因的研究较少,Marklund 等[27]研究发现MC1R基因的一个错义突变(83 bp)与栗色毛的产生有关。Wanger 等[28]利用限制性TaqI 的方法发现MC1R基因84 bp(GAC →AAC)处具有突变位点,导致MC1R基因中第2 个氨基酸替换(Asp →Asn),进而产生栗毛。Rieder 等[29]研究发现杂合子的表型为浅棕色,而纯合子表型为深棕色。赵姗姗等[30]利用限制性内切酶片段长度多态性(RFLP)对马MC1R基因多态性与毛色进行关联分析,发现MC1R基因存在3个多态位点,在骝毛马群体中存在EE 和Ee 2 种基因型,栗毛马中存在ee 和eea2 种基因型。在本研究中虽没有发现其他注释的基因与毛色有关,但它们可能未被发掘,后续将继续挖掘。
本研究首次利用马670K 高密度芯片对马毛色性状进行全基因组关联分析,经过Bonferroni 校正后,发现2 个与马毛色性状显著相关的SNPs,注释出已知与毛色性状相关的基因MC1R,为进一步的基因功能验证提供前期基础数据。