曹修凯 王珊 葛玲 张卫博 孙伟,
(1. 扬州大学教育部农业与农产品安全国际联合研究实验室,扬州225009;2. 扬州大学动物科学与技术学院,扬州225009)
过去人们认为遗传变异和可变多样连接重组(V(D)J recombination)是造成同一个体不同组织或相同组织不同细胞间基因组DNA异质性的主要原因。而最近研究表明从基因组上脱离形成的环形DNA是基因组DNA异质性的重要来源,在基因组进化和环境适应性等方面具有重要意义。染色体外环形DNA(extrachromosomal circular DNA,eccDNA)指来源于基因组DNA并游离于染色体之外的双链环状DNA分子,它在真核生物中普遍存在,如酵母、线虫、果蝇、植物、哺乳动物等,通常携带部分或完整的基因以及功能元件,通过特殊的方式参与机体衰老、耐药性、肿瘤等的发生发展进程。
我国动物育种正处在现代分子生物学技术与传统育种手段相结合的阶段,而分子标记的鉴定对畜禽早期选种具有重要意义。最新研究表明作为癌症研究热点的eccDNA或许也可用于畜禽标记辅助选择:(1)eccDNA介导KIT基因调控牛白色背线性状[1];(2) 包 含 肌 肉 发 育 相 关 基 因 AGRIN 的eccDNA在肉用王鸽肌肉中显著富集[2];(3)包含EPSPS基因的eccDNA使长芒苋对除草剂产生耐药性,并且可以稳定传递到子代[3-4]。但eccDNA与单核苷酸变异(SNP)、插入/缺失(Indel)和拷贝数变异(CNV)等DNA分子标记不同,它存在一定的组织特异性。本文将综述eccDNA的分类、产生机制、功能研究及鉴定方法等,并就eccDNA在动物育种中的应用前景进行讨论。
从1869年Friedrich首次鉴定出DNA,到1953年Watson和Crick揭示DNA双螺旋结构,前后历经85年,人们才确信染色体中的线性双链DNA是遗传信息的主要载体[5-6]。但基于细菌基因组环形DNA的现象,1962年Stahl提出真核生物可能存在染色体环形DNA分子。1965年,Hotta和Bassel[7]利用电镜技术发现猪精子存在基因组染色体外环形DNA 分子,长度在 0.5 μm-16.8 μm(注 :1 μm ≈3 100 bp[8]),初步证实了 Stahl的推测。同年 Cox 等[9]利用光学显微镜在有丝分裂中期的成神经细胞瘤细胞中发现了游离于基因组染色体之外的数目众多、成对出现和大小不等的染色体(双微体,doubleminute,DM)。1967年,Radloff等[10]将 Hela细胞核内环形DNA与线粒体DNA比较分析发现,细胞核内环形DNA长度在0.2 μm-19.8 μm,而线粒体DNA长度在(4.81±0.24)μm,前者个数占后者的20%左右,这项研究进一步证实了真核细胞中存在除线粒体之外的环形DNA。
1972 年 Smith 等[11]将长度在 0.05 μm-2.0 μm的染色体外环形DNA定义为小多分散环状DNA(small polydisperse circular DNA,spcDNA),并且发现放线酮处理或细胞接触抑制会使Hela细胞spcDNA的数目增加至少10倍以上。深入研究发现同种细胞或组织的spcDNA在长度和个数上存在较高异质性[12-14]。20世纪80-90年代,人们利用Sanger双脱氧链终止法、Dot blot、Southern blot和酶切等技术发现spcDNA存在大量基因组重复序列,如 SINE[15-16]、LINE[17]、串联重复序列[18-19]、转座子序列[20]、rDNA 序列[21]和端粒重复序列[22]等,其中,人染色体外环形rDNA(extrachromosomal rDNA circle,ERC)长度在 2 kb-20 kb[23],人染色体外环形端粒(telomeric circle,t-circle)长度在0.7 kb-56.8 kb[24-25],但有关非重复序列型spcDNA的研究报道很少[26-27]。DM是肿瘤特异的,并且存在完整癌基因序列,如肺癌[28]、软骨肉瘤[29]、神经胶质瘤[30-31]、淋巴瘤[32]和骨髓性白血病[33]等,但DM出现的频率很低:182/200种肿瘤中鉴定出DM;DM阳性肿瘤类型的病例检出比为0.26%-44%;DM阳性肿瘤细胞水平检出比例最低为7%[34-36]。因此,科学家们一度认为spcDNA是eccDNA的主要存在形式,并且spcDNA主要是由重复序列构成的。但随着高通量测序技术的发展,人们开始对eccDNA有了新的认识。2012年,Shibata等[37]在小鼠组织和多种细胞系中鉴定出大量长度在200 bp-400 bp的小分子eccDNA,它们主要来源于5′ UTR、外显子和CpG岛等区域,并将其命名为microDNA。随后Møller等[38]在正常人类肌肉组织和白细胞中也鉴定出大量microDNA。2017年,Turner等[39]提出染色体外DNA(extrachromosomal DNA,ecDNA)概念,他们发现在17种癌症117种肿瘤细胞系中大约30%的ecDNA是以DM形式存在。之后人们用ecDNA特指肿瘤细胞中长度较大(数百 kb-数Mb)并且至少包含一个完整基因的染色体外环形DNA,而将长度较小的染色体外环形DNA用eccDNA(extrachromosomal circular DNA,eccDNA,狭义,笔者划分为 < 100 kb)表示[40-42]。
值得注意的是在早期研究染色体外环形DNA时,人们提出了一些相关概念,在此笔者做出区分。1985年,Kinoshita和Kunisada等[43-44]在烟草和小麦中鉴定出cccDNA(covalently closed circular)和spcDNA,随后认为它们是不同分离富集方法下的同一类分子的两种不同形态。1987年,Carroll等[45]将CAD基因重组质粒转染CAD-/-CHO细胞系,研究DM的形成机制,结果发现有些细胞基因组整合了质粒,而有些细胞存在包含部分质粒序列和基因组序列环形分子(作者命名为episome)。深入研究发现,删除的基因组序列环化形成episome,episome多聚化形成DM,DM又可以重新整合到基因组,因此游离体是DM的前体[46-51]。eccDNA分类如图1所示。下文除明确指出外,eccDNA指广义eccDNA。
图1 eccDNA的分类Fig.1 eccDNA classification
由上可知,eccDNA在序列长度和特征上有很大的异质性,因此eccDNA的产生可能涉及了不同分子机制,但这些机制似乎都与基因组DNA修复过程有关[52]。笔者将这些机制概括为4大类:同源重组(homologous recombination,HR)、非同源末端连接(non-homologous end joining,NHEJ)、DNA 复 制和转录(图2),其真实性仍需进一步验证。
图2 形成eccDNA的潜在机制Fig.2 Possible mechanisms of forming eccDNA
在DNA双链断裂的情况下,rDNA和tDNA可通过loop结构介导HR分别产生ERC和t-circle[53]。Dillon等[54]为了系统研究microDNA的产生机制,以鸡DT40细胞系为模型,分别敲除NHEJ、HR和MMR关键蛋白,结果发现敲除错配修复关键基因MSH3后,microDNA数量减少了81%,证明了microDNA的产生与DNA错配修复存在密切关系。此外,microDNA主要来源于GC富集区、5′ UTR和外显子区,这些区域在转录时极易形成DNA:RNA三链结构R-loop,而该结构参与了DNA损伤和修复过程,因此R-loop可能与microDNA产生有关,但这有待进一步验证[55]。ODIRA(origin-dependent inverted-repeat amplification)可能也是产生microDNA的机制之一,由于复制泡两端反向短重复序列的存在,使新生DNA链发生环化[56]。抑制HR关键基因BRCA1或NHEJ关键基因DNA-PK会导致含有DHFR基因的ecDNA拷贝数减少,也可消除结肠癌MTX(甲胺喋呤)抗性细胞中的eccDNA,说明双链断裂或大片段的DNA序缺失可通过HR或NHEJ环化形成ecDNA[57-58],包括DM和游离体,游离体可进一步多聚化形成更加复杂的游离体或DM[46,48]。表1列举了eccDNA机制研究相关文献。
表1 形成eccDNA的11种潜在机制对应参考文献Table 1 Corresponding references of 11 kinds of potential mechanisms for eccDNA formation
eccDNA缺少着丝粒和端粒,能够自我复制(microDNA未知),有丝分裂和减数分裂时随机分配到子代细胞,部分eccDNA可以重新整合到基因组同源染色区域(homogeneously staining region,HSR),并且ecDNA较高染色质开放性强使得eccDNA上调控元件与靶基因互作更强,基因表达水平更高,这些特性极大的增加了细胞异质性和环境适应性[40-41,71]。eccDNA 功能概括如图 3。
图3 eccDNA的功能Fig.3 An overview of current understanding of eccDNA functions
不依赖于端粒酶的t-circle修复途径对端粒可变延长(alternative lengthening of telomeres,ALT)具有重要意义。这种机制最初是在酵母线粒体基因组中发现的,t-circle可以作为端粒DNA滚环合成的模板,动植物中广泛存在的t-circle极有可能具有类似的功能[25,72]。此外,据估计15%人类永生化细胞系可能通过ALT维持端粒长度[73]。真核生物rDNA拷贝数可达100-1 000个,以串联重复的方式排列在基因组上,以满足机体对核糖体合成的需求。ERC的产生会导致果蝇基因组rDNA拷贝数减少,但是其子代生殖细胞rDNA拷贝数可恢复正常,研究表明ERC可以自我复制并可以重新整合到基因组上维持或增加基因组rDNA的拷贝数[59]。但是ERC的整合并不多见,因此ERC对维持基因组rDNA拷贝数的作用仍有待深入研究。
Sinclair等[74]发现衰老的酵母细胞中会出现大量ERC,在有丝分裂时这些具有自我复制能力的ERC表现出母细胞偏好性,使ERC在母细胞中进一步累积。据估计,酵母细胞分裂15代之后,每个母细胞含有500-1 000个ERC。大量的ERC会吸附复制和转录复合物,使得基因组DNA无法进行有效复制和转录,最终导致酵母生长停滞,直至死亡[74]。酵母解螺旋酶Sgs1基因突变会导致ERC的快速积累并发生早衰,相反,复制叉阻断蛋白Fob1基因突变会抑制ERC的形成,并延缓衰老[75]。Møller与Payen等[76-77]研究发现年轻酵母群中存在近1 800种不同基因组来源的eccDNA,并且绝大多数eccDNA至少含有蛋白编码基因的部分序列,但这1 800种eccDNA拷贝数很少,它们几乎不会对酵母表型产生影响,任何eccDNA只有大量积累之后才会产生作用[75]。基于以上事实,Hull等[75]提出酵母衰老可能是酵母为适应外部或内部环境富集了某些eccDNA而牺牲了健康的结果,因为基因拷贝数的扩增会在某种程度上破坏基因调控网络和蛋白稳态。按照Hull等推测,CuSO4处理酵母后而富集的CUP1 eccDNA可能对酵母衰老也有作用[53],但这需要进一步实验验证。
致癌变异EGFR vIII能有效加速胶质母细胞瘤生长,但是它也使表达它的肿瘤细胞对EGFR酪氨酸激酶抑制剂TKI更加敏感。TKI处理之后,肿瘤组织中高表达EGFR vIII的TKI敏感肿瘤细胞比例降低,低表达EGFR vIII的TKI抗性肿瘤细胞比例升高。研究表明肿瘤TKI耐药性是通过消除包含EGFR vIII的DM而产生的,消失的DM可以整合到基因组HSR上,但当停药后,这种DM又会快速出现,通过该途径,癌细胞可以逃避癌基因的靶向治疗。因此,TKI的脉冲间歇治疗可达到更好的靶向抑制效果,同时使肿瘤恢复药物敏感性[39,78-79]。值得注意的是,EGFR DM在复制过程中也能会产生EGFR DM,进一步提高肿瘤异质性和适应性[79]。在植物中,Koo等[3-4]发现在抗草甘膦长芒苋中存在包含EPSPS基因的eccDNA,而且eccDNA可以通过有丝分裂和减数分裂传给下一代,这表明eccDNA分子可以驱动高等生物的快速适应性进化。
ecDNA是基因扩增的一种形式,ecDNA的非孟德尔遗传会导致肿瘤内细胞间的异质性增强,促进肿瘤进化[39,80-81]。携带完整原癌基因MET、EGRF或MYC的ecDNA可以使肿瘤细胞快速增殖,携带完整原癌基因MYCN的ecDNA对肿瘤侵袭和迁移具有重要作用[69,80]。早期的研究认为ecDNA对癌基因表达的贡献主要是由于基因拷贝数的增加所致。2019年Wu团队研究发现ecDNA对癌基因的表达增高不仅仅由于基因拷贝数的升高,还包括ecDNA本身高度转录活性的贡献[41]。ecDNA上面缺乏抑制型的组蛋白修饰和高级压缩结构,导致其开放性比染色体DNA要强,并且ecDNA上的增强子不受绝缘子的束缚,可以与原癌基因产生超远距离的DNA相互作用,进一步促进基因表达[82-83]。人类正常个体和癌症个体血清和血浆中存在大量游离的eccDNA,这些eccDNA主要是microDNA[84-85]。切除肿瘤前后,血液中游离的mircoDNA其长度分布会发生变化,说明microDNA可以作为肿瘤诊断的分子标记[85]。肿瘤异种移植后可以在受体血液中检测到游离的供体microDNA,说明microDNA可能参与了细胞间通讯[85]。含有ecDNA的肿瘤患者其生存期要显著低于不含有ecDNA的肿瘤患者,说明ecDNA可以作为肿瘤的预后标记物[86-87]。
目前有关eccDNA对畜禽表型影响的研究已有报道,包括牛白色背线性状(colour sideness,Cs)和鸽子肌肉发育。牛白色背线性状表现为从头颈至臀尾部的白色背线,属于显性遗传性状。eccDNA通过影响毛色关键基因KIT的表达调控牛白色背线性状。6号染色体上一段包含KIT基因的492 kb的片段通过环化形成eccDNA(Durkin等命名为环形中间体circular intermediate)易位到29号染色体,形成Cs29等位基因。包含Cs29等位基因的一段575 kb的基因组片段环化后易位到6号染色体,构成Cs6等位基因[1]。eccDNA介导了KIT基因转座,使其异常表达。Møller[2]研究发现肉用王鸽(king pigeon)肌肉组织eccDNA数目比信鸽(homing pigeon)高9倍,并且在肉用王鸽显著富集了包含AGRIN基因的eccDNA,而AGRIN基因编码一种细胞膜蛋白,参与神经肌肉接头的发育,该基因突变会导致肌肉发育异常[2]。并且在植物中,Koo与Molin等[3-4]发现在抗草甘膦长芒苋中存在包含EPSPS基因的eccDNA,而且eccDNA可以通过有丝分裂和减数分裂传给下一代,这表明eccDNA分子可以驱动高等生物的快速适应性进化。这些研究结果表明eccDNA或许可以用于畜禽分子标记选择。但是eccDNA具有一定的时空特异性,类似于mRNA,这会限制其应用。例如,如何利用肌肉组织特异的eccDNA作为分子标记来实现肉用家畜的早期选种?因此,血液中游离的mircoDNA或许可作为未来畜禽分子育种的方向之一。通过前期血液eccDNA的筛选和后期关联分析,或许可以鉴定出相关eccDNA标记。
样品总DNA提取之后,可直接进行显微观测,也可利用Hirt法简单富集低分子量(low molecular weight,LMW)DNA后进行显微观测和2D电泳[88-89]。染色体核型分析时,可在光学显微镜下观测到DM[35],但小分子eccDNA则需要电子显微镜进行观测,并且可以估算eccDNA大小[10](图4)。2D电泳也可鉴定eccDNA的大小,Cesare等[24]利用2D电泳鉴定出的eccDNA在0.7 kb-56.8 kb。2D电泳通常可观测到4条泳带,包括开放环(open circle)条带、超螺旋环(supercoiled circle)条带、线性DNA(linear DNA)条带和电泳过程中超螺旋环转变为开放环(supercoilded to open circle)而形成的条带[88]。开放环是eccDNA主要构型,但无法确定2D电泳条带中的开放环是松散环(relaxed circle)还是缺口环(nicked circle)[90]。2D 电泳结合Southern blot等印记技术可以进一步揭示eccDNA序列特征及相对丰度[90]。此外,细胞经DAPI染色后,利用电镜结合ECdetect软件可实现细胞中ecDNA的计数[39]。
与质粒提取试剂盒相比,CsCl-EB法从总DNA中富集eccDNA上样量大、操作繁琐、缺口环易丢失,所以目前应用较少[90-92]。富集后的eccDNA可采用Circulome-seq[92]、mobilome-seq[93]、Circle-seq[76]或 CIDER-seq[94]进行高通量测序(图 4)。Circulome-seq采用Tn5转座酶在一个反应中完成实现eccDNA线性化、末端修复和接头连接,极大简化了文库构建,可检测数百bp-数百kb的eccDNA;mobilome-seq采用核酸外切酶DNase消化eccDNA富集样品中的线性DNA,滚环扩增(rolling circle amplification,RCA)后,进行高通量测序,可用于鉴定反转座子形成的eccDNA;Circle-seq为了充分消化线性DNA,在核酸外切酶DNase消化之前,先用核酸内切酶Not I对富集的样品进行处理,所以会造成部分eccDNA的丢失,鉴定范围在1 kb-38 kb;CIDER-seq可检测数百bp-数百kb的eccDNA,但< 10 kb的eccDNA鉴定准确度更高。该方法对富集后的eccDNA直接进行RCA,没有进行酶切处理,因此线性基因组得到大量扩增,但该方法采用了SMRT长读长(long read)测序策略,可以得到更多的split read,这有利于eccDNA的鉴定,因为用于eccDNA鉴定的软件都依赖于split read。在进行测序文库构建时可以加入质粒作为对照或内参,可提高验证文库构建和后续数据分析的可靠性。依据eccDNA的数据分析原理,可以直接从全基因组测序(whole genome sequencing,WGS)或ATAC-seq 数 据 中 鉴 定 eccDNA[39,80,95], 或 者 先富集总DNA中的高分子量(high molecular weight,HMW)DNA,WGS后,进行数据分析,可鉴定出更多的 ecDNA[41]。Koche 等[42]证实 100% 的 WGS ecDNA在Circle-seq ecDNA中重现,但仅有30% 的WGS eccDNA(狭义)被Circle-seq鉴定出来。目前利用高通量测序数据鉴定eccDNA的软件主要有AmpliconArchitect[96]、AmpliconReconstructor[97]、CIRCexplorer2[98]、Circle_finder[42]、Circle-Map[99]和ECCsplorer[100]等,Prada-Luengo对应用较多的3款软件进行了对比[99],此处不再详述。
图4 eccDNA的鉴定方法Fig.4 Methods for eccDNA identification
eccDNA在真核生物中是普遍存在的,包括动物、植物和酵母等。依据来源和大小,eccDNA可以划分为不同种类,它们的产生机制也不尽相同,共涉及了11种模型。但这些模型都缺少直接证据,例如支持eccDNA自我复制的直接证据,因此这些模型仍需要进一步验证。尽管这些问题尚未解决,但是目前已开发了可用于单倍型分型的CRISPR-hapC技术[101]。该技术基于CRISPR/Cas9系统敲除基因组片段(两个SNP位点位于片段两端),环化形成eccDNA,使两个SNP出现在eccDNA接头处,提取DNA,转化感受态细胞后,单克隆测序鉴定基因组单倍型。该技术可以可以实现200 Mb基因组序列单倍型鉴定[101],在功能基因组学研究和因果突变鉴定方面具有广阔的应用前景。
大分子eccDNA,如ecDNA,通常可以携带完整原癌基因,这使其成为肿瘤研究领域的热点。并且携带eccDNA的肿瘤患者,其生存率显著低于不携带eccDNA的患者,说明大分子eccDNA可以作为肿瘤预后的生物标记[86-87]。在动植物中,大分子eccDNA也可以携带完整基因,如KIT和EPSPS在表型变异环境适应方面发挥重要作用,并且这种以获得的表型可以稳定地传递给下一代[1,3-4]。此外,这种大分子eccDNA在正常组织中含量不低,如鸽子肌肉组织中共有1 083个完整基因存在于eccDNA上[2]。这些结果表明,大分子eccDNA可用于分子标记辅助选择。但eccDNA存在时空特异性,这在某种程度上限制了其应用,例如,肌肉组织特异的eccDNA在畜禽肉用选育中的应用。因为即便是肌肉组织活体采样,也会对待测畜禽产生影响,更不用提早期选育。
研究表明,microRNA占eccDNA的绝大部分,它们可以由其他组织释放到血液循环系统中[84-85]。通过高通量测序技术,鉴定血液中游离的microDNA,利用qPCR进行相对定量,并与畜禽表型数据进行关联分析,鉴定可用的microDNA标记。因此,血液游离microRNA的鉴定及其与表型关联分析是未来eccDNA应用于畜禽育种的一个重要方向。目前,已有eccDNA专门数据库(eccDNAdb,http://www.eccdnadb.net/),并已收录了人、小鼠和鸡共计170万个eccDNA,这些数据可为关联分析提供数据支撑。如果血液中microDNA的丰度确实与表型变异存在显著相关,那其中的分子机制又有哪些。目前,已有人提出了两种潜在机制:作为分子海绵吸附转录因子和转录产生非编码RNA,但目前尚未有任何相关研究报道[60,64,102-103]。这些问题的深入研究,将促进eccDNA在畜禽育种中的应用。