基因拷贝数变异(CNV)的作用机理及其在动物遗传育种中的研究进展

2021-03-27 23:49田全召陈炳旭赵杨杨汪聪勇王红利鲁沛佳张子敬周森森杨国杰王二耀雷初朝黄永震
中国牛业科学 2021年5期
关键词:拷贝数染色体变异

田全召,陈炳旭,赵杨杨,汪聪勇,王红利,鲁沛佳,张子敬,周森森,杨国杰,王二耀,雷初朝,陈 宏,黄永震*

(1 河南省鼎元种牛育种有限公司,河南 郑州 450000;2 西北农林科技大学 动物科技学院,陕西 杨凌 712100;3. 郏县畜牧局,河南 郏县 467100;4. 河南省农业科学院 畜牧兽医研究所/河南省畜禽繁育与营养调控重点实验室,河南 郑州 450002)

1 基因拷贝数变异CNV概述

基因变异是生物界普遍存在的现象。基因变异使生物体具有多样性,使生物体通过自然选择而进化。遗传信息改变的发生既可以在染色体水平上,它也可以在分子水平的DNA。染色体水平的变异称为染色体畸变,分为染色体数目变异和结构变异。由拷贝片段的缺失、重复、反转和易位引起的突变是基因拷贝数的突变,但不包括由转座子插入和缺失引起的突变,这些微小的变异却会造成巨大的遗传效应。2004年IAFFRATE等和2007年SeBAT等在自然遗传学中发表了两篇关于CNV的文章,他们首次报道了人类基因组中大量拷贝数变异多态性的存在[1-12]。在人类基因组中,CNV的分布是有规律的。在同源重复序列或DNA重复片段中经常出现,呈显著正相关,同时CNV的形成还与非同源突变有关。

2 基因拷贝数突变机理

根据人类基因组的研究,在基因组中CNV分布是具有规律性的,常发生在特定的重复序列区域或低拷贝重复区(LCRs)中。基因组DNA重复序列(SD)与CNV呈显著极性正相关,SD在全基因组的平均密度在4%~5%;在CNV含量丰富的区域可达25%;在CNV含量匮乏的区域中只有2%~3%。在对数据进行分析研究后,目前CNV的突变机理仍不确切,科学家有很多猜测,包括非等位同源重组(NAHR)、非同源末端连接(NHEJ)、DNA错误复制的FoSTeS机理等[12]。

2.1 在减数分裂中非等位同源重组(NAHR)

在减数分裂过程中,基因组上不同位点的DNA序列与其重复序列具有高度的同源性,发生重组,即非等位同源重组(NAHR)。由于同源序列的倒位、重复、缺失会引起基因拷贝数的改变而使染色体结构改变,导致基因组不稳定和疾病的产生[1]。NAHR存在重组热点(hotspot)具有序列倾向性,在其重组热点中发现了与同源重组(AHR)相同的序列,说明这段序列很可能是与重组相关的蛋白质的识别位点,它们具有类似的分子机制[13]。

2.2 非同源末端连接(NHEJ)

非同源末端连接(NHEJ)是两个不具有同源性的DNA序列在末端连接,与DNA的非β结构相关(即左旋Z型DNA和十字型DNA),使染色体重排导致CNV[1]。

2.3 DNA错误复制

复制叉停滞和模板转换 (Fork Stallingand Template Switching)机制,是DNA复制叉停滞后,在滞后链上由DNA及一系列酶形成的微小片段从模板上脱落,转换到另一个模板上继续合成DNA,导致DNA重复或缺失,产生大量CNV[1]。

3 基因拷贝数CNV的检测方法

3.1 全基因组范围内寻找CNV

3.1.1 CGH芯片 比较基因组杂交(CGH),是一种分子细胞遗传学技术,最初用于癌症生物学。通过基于微阵列技术,将不同荧光素标记的样本和对照样本与构建的文库同时杂交,检测两个基因拷贝数的变异[2-8]。CGH结合消减杂交和FISH技术检测两个或多个基因组之间的相对DNA拷贝数的变化,并将这些异常的拷贝数变化定位在染色体上,因此也被称为DNA拷贝数核型技术[4-10]。CGH芯片是一种高灵敏度、高精度、高分辨率的高通量分析方法,检测精度高。科学家根据制备过程中探针的来源,将比较基因组杂交CHG芯片分为细菌人工染色体CGH芯片和寡核苷酸探针CGH芯片[14]。

3.1.2 高密度SNP芯片 高密度SNP芯片技术只能用于单杂交,而无需使用两个DNA样品(实验组和对照组)和探针进行双杂交[2-4]。通过监测被测样品的SNP信号强度,可以进行比较确定基因拷贝数变异[5-8]。与CGH芯片相比,SNP芯片样本量少,成本低,可噪比低,假阳性高,Affymetrix和Illumina公司相继引进了人类全基因组SNP 6.0和Illumina 1M芯片,可用于检测全基因组CNV多态性,构建高分辨率CNV图谱[14]。

3.1.3 新一代测序技术 新一代的测序是将基因组分成大约100 kb的片段,每个片段分别进行测序,然后由大型计算机进行拼接[2]。测序时,将待测DNA片段作为模板,合成互补链[4]。对每个基部延伸进行激光扫描,以确定哪一个基底(四个碱基没有被预处理),同样的标记在激光下显示不同的颜色,很容易完成测序[5-11]。新一代CNV检测测序技术可分为两种方法:基于序列对的方法和基于读取深度的分析方法[10]。新一代测序技术具有高通量、低成本、高速度、操作简单、不需要大量专业知识等优点[11]。它可以应用于大规模物种测序和人类基因组研究,费用比CGH芯片低廉。缺点是不能准确描述基因重排的断裂点和基因结构式[7-14]。

3.2 对于已确定的CNV的检测

对于已知序列的CNV进行检测可用以下这四种方法:Southern杂交(Southern 荧光原位杂交(FISH)、实时定量PCR(qPCR)、短荧光片段定量多重PCR(QMPSFQ)、多重扩增探针杂交(MAPH)和依赖链多重连接依赖探针扩增(MLPA)。这四种方法具有快速可靠,可检测多个位点,提高了通量等优点[2-4]。

4 基因拷贝数CNV的研究进展

4.1 CNV与人类疾病

4.1.1 帕金森 帕金森病(PD),又称特发性帕金森病(PD),又称惊厥性麻痹(震颤性麻痹),是老年人神经系统常见的退行性疾病。它的特点是静态震颤,缓慢运动,增加肌肉张力和不稳定的姿势。基因组中存在许多与PD相关的基因,至少有13个基因被发现[1]。例如,SNCA的CNV鉴定是由于基因拷贝数的增加,表明基因的剂量效应是帕金森病的原因之一[6-8]。

4.1.2 阿尔茨海默病 阿尔茨海默病(AD),又称老年性痴呆病,是一种中枢神经系统退行性疾病,是最常见的老年痴呆病。主要神经精神症状为使人发生进行性记忆障碍、认知障碍、人格改变和语言障碍,严重影响人的社会、职业和生活功能。AD的病因和发病机制尚未阐明,基因组中有许多与AD相关的基因,研究人员已鉴定出至少15个基因影响AD的发生,如APP基因编码淀粉样蛋白早期蛋白[1],APP基因拷贝数的增加是治疗阿尔茨海默病的机制,APP蛋白的过度表达是阿尔茨海默病的原因。AD还与21三体综合征有关[6]。

4.1.3 艾滋病 艾滋病,又称后天性免疫缺陷综合征(或获得性免疫缺陷综合征,AIDS),是由人类免疫缺陷病毒(HIV)引起的逆转录病毒感染,因免疫系统受到损伤和各种病毒的侵袭,导致各种临床症状的集合,被称为综合征。简单的疾病可以通过直接接触口腔、生殖器、肛门等的粘膜组织(粘膜)或病毒血液、精液、阴道分泌物和母乳传播[1]。例如,CC3L1蛋白是一种抑制HIV的趋化因子,研究表明携带CCL3L1拷贝数较低的人群更容易感染HIV[6]。

4.1.4 孤独症 自闭症,也被称为孤独症或自闭症,是弥漫性发育障碍(PDD)的代表性疾病。它表现为人类语言交际能力的丧失、社会交际的障碍、狭隘的兴趣和刻板的重复行为。塞巴特等研究了165个孤独症家庭和99个控制家庭,以找出CNV是否导致孤独症。在这些ASD患者中,新突变产生的CNV数量显著增加,而对照组中很少,但患者中大部分表现为CNV缺失[1],他们得出结论CNV是孤独症的一个重要因素,特别是缺失型 CNV,是孤独症的一个重要的风险因素[6]。

4.1.5 智障 精神发育迟滞(MR),又称精神发育迟滞俗称智障,一般指认知活动的持续性障碍,是指大脑器官损伤或发育不完全引起的整个心理活动的障碍。例如,弗洛尼亚等人对X连锁精神发育迟滞(XLMR)患者的300个家系进行了研究[1],在六个不相关的非综合征性XLMR男性个体的Xp11.22上鉴定出6个重复CNV,表明重复型CNV增加了智力低下的风险[6]。

4.2 CNV与畜禽遗传育种

为了实现CNV与表型的关联分析,需要准确定位CNV基因组的位置,找出准确的断点。我们还应该充分了解CNV等位基因在群体中的数量和频率分布,并建立客观可行的标准,以减少假阳性。但由于CNV分型精度差、畜禽CNV图谱清晰度差、CNV基因分型精度低、成本高,目前尚处于起步阶段[2]。

4.2.1 猪 2008年,FadistaJ等在12个无亲缘关系的杜洛克公猪的4、7、14和17号染色体上发现了37个拷贝数变异区域(CNVRs)[15-20,13]。2010年,Yuliaxis等在利比亚长白猪的全基因组中发现了49个CNVRs[17]。2011年,余少波等在通城猪、杜洛克猪及它们的后代中发现了44个CNVRs,在猪的13号染色体上存在32个CNVR;牛玉娜等发现在KIT基因上,长白猪的实际拷贝数为2,杜洛克猪的实际拷贝数为1,大白猪的实际拷贝数为2,她推测五指山猪的拷贝数应为1;王韬测定出在KIT基因上,红毛杜洛克猪拷贝数为2,白毛杜洛克拷贝数为3~6,大白猪的拷贝数为5或6;而KIT基因与猪的毛色相关,使显性白色毛,拷贝数增加会使猪毛色变黑[19-20,13]。2015年,Wang等[15]对猪基因进行研究,发现了3个CNVs与肉质关联的QTL区域重叠。 2017年,Revilla等发现与CNV关联的CLGA4、CYP4X1、GPAT2、PLA2G2A、MOGAT2和PRKG1基因与猪的脂肪等生长性状相关[16]。

猪繁殖与呼吸综合征(PRRS)是一种破坏性疾病,对养猪业造成重大经济损失。Hay等人为检测与PRRS病毒感染的群体特异性宿主反应相关的拷贝数变化(CNVs),利用SNP60串珠芯片在660只猪上进行全基因组CNV分析,发现了7 097个CNVs和271个CNV区域(CNVRs)。该研究结果表明,CNVs可能与PRRS病毒的群体特异性宿主反应有关。基于特异性CNVRs的基因注释,研究结果表明干扰素和白细胞介素等分子与宿主对PRRS病毒感染的反应密切相关。该研究为利用基因变异,特别是CNVs,可作为消除或减轻PRRS影响的一种补救或方法,可能对猪肉行业有利。结合基于SNP的结果,该研究的CNV结果可能有助于鉴定易感动物,或允许使用标记辅助选择类型来减轻这种疾病的影响[21]。

RAN等人采用实时定量聚合酶链反应(qPCR)方法,验证了用单核苷酸多态性(SNP)阵列检测香猪6号染色体上一个496 kb CNV区域的MTHFSD基因。该实验的统计分析表明,MTHFSD基因CNVs显著改变湘猪产仔数性状,获得CNV的个体产仔数大于缺失CNV的个体。得出MTHFSD作为RNA结合蛋白,在猪繁殖过程中发挥着重要作用,调控MTHFS mRNA代谢的结论[22]。

Anderson等检测了美国肉类动物研究中心72头实验猪群的全基因组序列。结果发现,在抽样的群体中,从24头公猪和48头母猪中发现了4566个拷贝数变异。与CNVs重叠的基因在感官感知、G蛋白偶联受体和细胞对刺激的反应方面得到了富集。此外,CNVs与许多经济相关性状的QTL重叠,包括胴体重量、平均日增重、脂肪与肉的比值、估计胴体瘦肉含量和初生重[23]。

4.2.2 牛 2009年,张良志等发现CNV与肉用性状呈正相关[20]。2011年,Stothard等在黑色安格斯牛和荷斯坦牛中进行研究,发现CNV与牛的免疫、产奶等性状相关[20]。2011年,Hou等[13]对牛的基因组进行研究,发现了811个拷贝数候选区域,它们与牛的免疫力和抵抗力提高有重要影响。Kijas等将CNVs与牛的特征联系起来,发现大约有0.5%的牛基因共有51个CNVs,82%的CNVs至少包含一个基因,影响表型变异,CNV在基因多样性中占有重要地位。L.Y.Xu等[3]对在世界范围内的8个品种牛进行分析,发现不同牛种CNV与牛种群体结构和在地理上不同分布有很高的相关性。2012年,Brickhart等在牛的全基因组中测序,发现了1 265个CNV区域,在CNV区域中发现多个QTLs与牛的生长肉质相关[19,13]。2013年Xu等[25]对秦川、南阳、鲁西三个牛品种研究,发现CNV与MICALL2基因转录表达呈负相关性,对牛的表型有积极影响;2015年,Shi和Xu[b]对秦川、南阳、晋南、咸安牛等品种研究,发现I3DNACNVs与LEPR基因表达呈显著负相关,对牛的体重、体高、体长有积极影响;2016年,Dasilva等对牛的基因组研究发现688个CNVRs中与牛的采食量、妊娠期时长、脂肪、肌肉、体重等重要经济性状相关的286个QTL区域重叠;2017年,Letaief等1 095个CNV与牛奶质量相关的10个QTL区域重叠,与产奶量相关的43个QTL区域重叠,与健康状况相关的27个QTL区域重叠,与胴体相关的73个QTL区域重叠[17]。

鸟苷酸结合蛋白2(GBP2)基因在细胞增殖中起重要作用。zhang等确定了中国6个主要牛种的466个个体中存在GBP2 CNV(相对于安格斯牛),并确定其与生长的关系。统计分析显示GBP2基因CNV1和CNV2与生长性状显著相关。该研究表明GBP2基因的CNVs可被作为中国肉牛分子育种的标志[26]。

Strillacci等人对瓦尔多斯坦红皮牛(VRP)进行拷贝数变异扫描,并将VRP中检测到的CNVs与意大利Brown Swiss (IBS)和墨西哥Holstein (HOL)发表的研究中检测到的CNVs进行了比较。VRP与IBS之间有474个区域重叠,而VRP与HOL之间只有313个区域重叠,说明在同源种群中,如阿尔卑斯山脉其遗传背景更为相似[4]。

为了鉴定表型相关的CNVs (paCNVs),促进育种的研究进展。Cao等人将已发表的CNV数据映射到个体数量性状位点图谱上,将致因基因与表型联系起来。该研究报道了黄牛常染色体3 (BTA3)中潜在的CNV,检测出了官能结合蛋白4 (GBP4)内的CNV与成年牛的体高显著相关[27]。

4.2.3 羊 2009年,Fontanesi等将牛的13号染色体序列来获得羊中含有ASIP和AHCY基因区域,发现品种之间的CNV具有差异,且CNV使羊的毛色发生变化[15-19,13]。 2008年,Zhao等在内蒙古白绒山羊和陕北白绒山羊中的KAP基因中发现,CNV与绒山羊的羊绒品质有相关性[20]。2011年,杨树猛等对16只不同毛色藏羊的有关毛色的Agouti基因进行研究,发现CNV具有稳定性和遗传性[13]。2015年,王维[28]发现Y染色体的ZNF280BY基因的拷贝数变异影响种山羊的繁殖性能[g]。2016年,Menzi等发现与波尔山羊毛色相关的EDNRA基因拷贝数影响山羊白色毛的覆盖度[16]。2017年,Yang等[29]在世界范围的绵羊基因进行CNV检测,发现与CNV重叠的BTG3、PTGS1和PSPH基因与胎儿、肌肉、骨骼有相关性。2017年,Ma等对富含CNV区域与胚胎骨骼相关,其中DLX3基因影响羊毛弯曲程度[16]。

Liu等利用ADAPTmap项目生成的山羊SNP50基因分型数据,研究了山羊CNV分布的多样性。该研究利用PennCNV在50个山羊品种的1 023个样本中鉴定了6 286个假定的CNV。研究显示,在不同地理区域,包括西亚、东地中海、阿尔卑斯和地中海地区,群体中CNV存在差异。该研究发现了几个重要的CNV重叠基因(如EDNRA、ADAMTS20、ASIP、KDM5B、ADAM8、DGAT1、CHRNB1、CLCN7、EXOSC4),它们参与了局部适应,如皮毛颜色、肌肉发育、代谢过程、骨转移和胚胎发育。该研究在全球山羊种群中生成了广泛的CNV图谱,为山羊基因组及其功能注释提供了新的见解[30]。

4.2.4 禽 2008年,Griffin等绘制的鸡和火鸡的遗传图谱,发现了16个品种间的CNV[18-20]。2008年,Elferink[31]等对鸡催乳素受体基因和精子鞭毛蛋白2基因进行CNV的研究,发现CNV与鸡羽毛生长有关。2008年,贾先波[32]对2个品种的蛋鸡进行检测,发现了265个CNVR,占鸡的全基因组的3%。2009年,Wright等对性别决定域Y-box5基因的第一内含子拷贝数变异与鸡冠表型豆冠有关[20]。2009年,Skinner等将北京鸭中存在32个CNV,其中5个也在鸡和火鸡的CNV区域中存在[15]。2010年,Wang等[33]对科尼什肉鸡、来航鸡、洛岛红鸡3个品种的鸡进行研究,发现96个CNVs,占鸡的全基因组等编码基因的序列。2010年,张荣等对杏花鸡、隐性白洛克鸡及同胞后代560个个体进行研究,发现了3824个CNV[18]。2011年,Wang等[34]使用400k AgilentCHG基因芯片绘制了中国地方鸡和商业鸡的部分染色体CNV图谱,发现了130个CNVRs。

鸡嘴畸形导致采食量减少,降低生产性能。为了揭示喙畸形背后的遗传机制,Bai等使用Affymetrix鸡高密度600 K数据芯片对48只畸形喙和48只正常鸡进行全基因组CNV检测。最终结果表明LRIG2基因在鸡畸形喙中表达较低,可以将其视为畸形喙的关键因素[35]。

性别决定区Y-box 6 (Sox6)在斑马鱼和小鼠的快速肌纤维分化中起关键作用,但Sox6是否在鸡骨骼肌发育中起作用尚不清楚。通过AccuCopy和CNVplex分析,Lin等鉴定了两种与鸡基因组水平上的不同性状显著相关的拷贝数多态性(CNPs)。研究结果表明,SOX6的拷贝数数量与SOX6的表达水平呈正相关,SOX6通过上调鸡肌肉生长相关基因的表达水平,促进骨骼肌细胞的增殖和分化[36]。

马立克病(MD)是一种主要影响鸡群的高传染性、致病性和致癌性疾病,鸡家系 63 和72它们的重组同源菌株(RCS)对MD具有不同的易感性,是研究MD遗传抗性复杂机制的理想模型,Xu等使用Affymetrix Axiom HD 600k SNP基因分型阵列研究了这些自交鸡系的拷贝数变异(CNV)。结果表明,家系 72两个CNV缺失可能有助于MD易感性[25]。

5 问题与展望

目前,CNV的研究取得了一系列的重要成果,但仍有许多问题没有得到解决,例如,大多数的物种的CNV仍是未知的;人类基因组中还有很多CNV等待我们去发现,对于已知的CNV我们还不能深入的了解其原理功能。未来,我们需要探索更加深层次的方面,对CNV的产生、分布、生物效应、选择进行研究,将CNV与基因表达调控的关系挖掘出来,在某一阶段可能会利用这些发现治愈这些复杂的疾病,并为畜禽的遗传育种提供分子层面的理论基础。

猜你喜欢
拷贝数染色体变异
线粒体DNA拷贝数变异机制及疾病预测价值分析
变异危机
变异
胎儿染色体组拷贝数变异与产前超声异常的相关性分析
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
能忍的人寿命长
HBV相关性肝细胞癌组织及癌旁组织PDCD1基因拷贝数差异分析
变异的蚊子
再论高等植物染色体杂交