郑晓飞,黄海燕,吴强
染色质架构蛋白CTCF调控基因簇的表达
郑晓飞,黄海燕,吴强
上海交通大学系统生物医学研究院比较生物医学研究中心,系统生物医学教育部重点实验室,上海 200240
尿苷二磷酸葡萄糖醛酸转移酶(UDP-glucuronosyltransferase, UGT)是一类重要的Ⅱ相药物代谢酶,通过葡萄糖醛酸接合反应代谢大量内外源小分子化合物,对机体维持内部动态平衡具有重要意义。基因突变或表达异常会造成高胆红素血症等多种疾病、影响药物疗效或减弱代谢药物能力,因此探索表达调控机制将会为人类疾病的预防和个体化医疗以及精准医学提供科学依据。脊椎动物分为和两个亚家族,基因簇结构与原钙粘蛋白(protocadherin,)、免疫球蛋白或B细胞受体(immunoglobulin or B-cell receptor)、T细胞受体(T-cell receptor)基因簇类似,但与结构不同,分为可变区和恒定区,可变区包含成串排列的外显子,任意一个外显子都可以被可变剪接到下游同一套恒定区外显子上,形成9种信使RNA并翻译成不同UGT1葡醛酸转移酶亚型。本实验室前期工作发现,染色质架构蛋白CTCF结合DNA的方向性在染色质三维结构构建中发挥重要作用。基于此,为了进一步解析复杂基因簇的三维转录调控机制,本研究分析和比较了人和小鼠基因簇的CTCF结合位点(CTCF binding site, CBS)的方向性分布,发现人和小鼠的基因簇中CBS分布差异很大。以人肺癌细胞系A549为模型,通过RNAi敲低细胞中CTCF和SMC3 (cohesin亚基),证明了CTCF和cohesin蛋白参与调控人基因簇的转录表达。进一步采用CRISPR介导的DNA片段编辑技术对进行了原位反转(inversion)和删除,并通过RNA-seq分析技术发现删除能够显著降低、和的表达水平,然而反转仅仅显著降低的表达水平。上述研究表明参与、和的转录调节,是人基因簇的潜在转录调控元件。本研究为未来进一步探索基因簇的三维基因转录调控机制提供了实验基础。
;CTCF;CRISPR/Cas9;DNA片段编辑;转录调控
脊椎动物基因组包含一系列能够编码多种蛋白质的特殊基因簇,它们由可变区和恒定区组成[1,2],这些基因簇包括免疫球蛋白()、T细胞受体()、原钙粘蛋白()和尿苷二磷酸葡糖醛酸转移酶1 ()等[1,3]。其中,基因簇编码的UGT (UDP- glucuronosyltransferase)蛋白质家族是一类Ⅱ相药物代谢酶,这类酶能够将葡萄糖醛酸供体基团转移到各种内外源疏水小分子化合物受体底物上,将它们转化为水溶性物质而排出体外,或者影响小分子药物的药代动力学和药物最终的生物学效应[4]。内源性底物包括许多在机体内起重要作用的小分子化合物,如胆红素、胆汁酸、脂酸、类固醇、甲状腺激素和脂溶性维生素等;外源性底物则包括小分子药物、环境污染物和致癌化合物等。它们先经过Ⅰ相代谢酶P450氧化成极性化合物,再被UGT等Ⅱ相代谢酶进一步极化后排出体外。
哺乳动物UGT分为两大类:UGT1和UGT2[3,5],分别被两个基因簇编码。其中UGT2又可分为两个亚家族:UGT2A和UGT2B。分为可变区和恒定区,可变区内有2个外显子,恒定区内有5个外显子,而有7个基因,每个基因都由一串外显子单独构成[6,7]。基因簇结构与基因簇明显不同,但却类似于原钙粘蛋白基因簇[8],由可变区和恒定区组成,可变区包含9个成串排列的外显子,恒定区包含4个外显子,每一个可变区外显子都有其自身的启动子,启动子激活后转录出的信使RNA前体能够通过可变剪接形成9种不同的转录本[1,5]。每个可变区外显子编码信号肽和N端糖苷受体结合域,4个恒定区外显子编码高度保守的UDPGA供体结合域和C端内质网锚定跨膜段。因此,基因簇编码的葡醛酸转移酶家族可以催化大量亲脂内外源化合物与UDP-葡萄糖醛酸的接合反应,将它们转化为亲水的葡萄糖醛酸化合物[9]。尽管基因簇结构类似于原钙粘蛋白基因簇,但其架构蛋白CTCF (CCCTC-结合因子)结合位点的分布特征与原钙粘蛋白基因簇截然不同,解析复杂基因簇的三维转录调控机制将会进一步拓宽人们对拓扑结构域(topological domain)内这一类复杂基因簇的转录调控的认知。
基因的表达调控和三维基因组中染色质高级结构密切相关,特别是远端增强子和目标启动子之间的特异性远程相互作用对于启动子激活至关重要。CTCF是一种高度保守和广泛表达的转录因子,是组织发育必需的一种染色质架构蛋白[10],在染色质折叠中起关键作用[11],依靠11个锌指蛋白域(ZFs)方向性结合到人类基因组约4万个特定序列元件(CTCF binding sites, CBSs)上[12,13],其中60%以上的结合都没有组织特异性(tissue-invariant)[14~16]。早期认为CTCF起到转录抑制作用,后来发现它也具有转录激活功能,近年来发现其在三维基因组架构中起到关键作用。总之,CTCF蛋白具有多种复杂甚至相反的功能,包括转录激活和抑制、基因印迹、RNA聚合酶暂停、选择性剪接、DNA复制和修复、染色体缩合或凝结(chromosome condensation)和易位(translocation)、X染色体失活、肿瘤发生、免疫系统V(D)J重组和神经系统启动子选择等[12,13]。CTCF蛋白可能通过自二聚化[17],或与cohesin蛋白质复合体相互作用参与形成染色质环[18~22],一般成环的一对CTCF结合位点的方向是相向的[13,23~25]。染色质架构蛋白CTCF通过方向性结合决定着染色质的环化方向[25]。在与基因簇结构高度相似的原钙粘蛋白基因簇中,CTCF通过方向性识别各增强子和启动子,形成长距离染色质环化结构,从而实现了对原钙粘蛋白基因时空表达的精密调控[23]。
利用Ⅱ型成簇规律间隔短回文重复系统CRISPR/Cas9 (clustered regularly interspaced short palindromic repeats (CRISPR)/CRISPR-associated nucelase 9)发展起来的基因组编辑技术为探索染色质环化机制和研究染色质高级结构提供了良好的技术平台[26,27]。CRISPR基因组编辑依赖于sgRNA (single-guide RNA)将Cas9酶定位到靶基因并进行切割,然后通过非同源末端连接(nonhomologous end-joining, NHEJ)、同源重组(homologous recombination, HR)、微同源介导的末端连接(microhomology- mediated end joining, MMEJ)或单链退火(single-strand annealing, SSA)方式修复切割末端[13,28,29]。采用双位点的DNA片段编辑(DNA fragment editing)方法可以删除、反转或重复所研究的目标片段[13,30]。本研究通过敲低细胞中CTCF或SMC3(cohesin亚基)的转录水平并利用CRISPR介导的DNA片段编辑技术对人类基因簇中保守的CBS元件进行编辑,旨在探索基因簇中CTCF结合位点对基因簇转录调控的影响,对研究基因表达调控网络的结构基础具有重要意义。
人肺癌细胞系A549由上海交通大学电信学院仪器系付华林老师提供;人胚肾细胞系293T购买于中国科学院细胞库;胎牛血清、青霉素/链霉素双抗和DMEM购自美国Gibico公司;psPax2和pMD2.G质粒购自美国Addgene公司;pLKO.1质粒购自美国Sigma公司;CTCF、SMC3抗体购自英国Abcam公司;Cas9质粒由北京大学席建忠教授馈赠;pGL3- U6-sgRNA-puro质粒由南京大学黄行许教授馈赠;逆转录试剂购自南京诺唯赞生物科技有限公司;荧光定量PCR试剂购自瑞士Roche公司;Annealing buffer、T4 DNA ligase以及RNA-seq试剂盒购自美国NEB公司;Lipo3000购自美国Invitrogen公司;rTaq酶购自日本TaKaRa公司;质粒中抽试剂盒购自德国Qiagen公司;Trizol购自美国Ambion公司;所有引物均由上海生物工程股份有限公司合成。
ChIP-seq数据来自NCBI,抽取富集CTCF的DNA序列。所分析的人源细胞系数据包括人肺癌细胞系A549 (GSM822289)、人肝癌细胞系HepG2 (GSM733645)、人慢性髓系白血病细胞系K562 (GSM749733)、人胚肾细CBS胞系HEK293 (GSM749668)、正常人表皮角质形成细胞NHEK (GSM749707)、人乳腺癌细胞系MCF7 (GSM1022658)和人子宫内膜腺癌细胞系HEC-1-B (来自于本课题组)。所分析的小鼠细胞系包括B细胞淋巴瘤CH12 (GSM923568)、GATA 1-红系祖细胞G1E (GSM923570)和第0天的胚胎干细胞ES-B4 E0 (GSM918748);小鼠组织包括8周龄心脏(GSM918756)、肾脏(GSM918731)、肝脏(GSM918715)和肺(GSM918722)。
利用在线软件CTCF BSDB2.0预测每个CTCF结合的motif,并判别其方向[31](http://insulatordb. uthsc.edu/storm_new.php)。利用软件Clustal X和在线软件BoxShade对CTCF结合基序进行序列分析比对(https://embnet.vital-it.ch/software/BOX_form.html)。
ChIP-seq数据来自NCBI,分析cohesin亚基SMC3及增强子标志p300和H3K27ac在不同人源细胞系的分布。人肺癌细胞系A549的SMC3、p300和H3K27ac GEO序列号分别是GSM3106366、GSM1010827和GSM2421872;人肝癌细胞系HepG2的SMC3、p300和H3K27ac GEO序列号分别是GSM935542、GSM935545和GSM733743;人宫颈癌细胞系HeLa-S3的CTCF、SMC3、p300和H3K27ac GEO序列号分别是GSM822285、GSM935384、GSM935500和GSM733684。
A549细胞和293T细胞的培养基配方为DMEM中加入10%的胎牛血清和1%的青霉素/链霉素双抗。培养条件为37℃、5% CO2。
shRNA (short hairpin RNA)引物序列采用文献[23]中的序列(表1)。寡核苷酸的两条链经过变性、退火后连接到pLKO.1载体,通过转化感受态细菌和质粒抽提得到shRNA的重组质粒。
293T细胞用无抗培养基传代到10 cm培养皿,密度为8×105cells/mL。第2天用Lipo3000转染质粒DNA (5.4 μg psPax2、0.6 μg pMD2.G、6 μg载体质粒),24 h后换为正常培养基,分两次回收病毒悬液,过滤得到病毒初始液,加入5×PEG母液,混匀、4℃放置过夜后4℃、4000×离心30 min,得到shRNA病毒沉淀,加入适量DMEM溶解沉淀并分装存于−80℃。
在六孔板准备A549细胞,密度为1×105cells/mL。第2天用慢病毒感染细胞,培养24 h后换培养基,48 h后收集细胞。
收集细胞样品中加入100 μL RIPA裂解液,冰上放置30 min,4℃、13000×离心15 min,收集上清并分装,液氮速冻后放−80℃冰箱待用。配制10%分离胶:4 mL MilliQ水、2.4 mL 1.5 mol/L Tris-HCl (pH 8.8)、3.4 mL 30% Arc-Bis、100 μL 10% SDS、100 μL 10%过硫酸铵、10 μL四甲基乙二胺。4%积层胶包括:3 mL MilliQ水、500 μL 1 mol/L Tris-HCl (pH 6.8)、522 μL 30% Arc-Bis、40 μL 10% SDS、40 μL 10%过硫酸铵、6 μL四甲基乙二胺。取10 μL蛋白样品于PCR管中,补MilliQ水至16 μL,加入4 μL 5× SDS Loading buffer混匀后,95℃ 5 min。点样并电泳,首先80 V电泳30 min,然后120 V电泳2 h,剪切所需蛋白胶,按照滤纸-硝酸纤维素滤膜-凝胶-滤纸的顺序叠加,在电泳槽中0.16 A电泳2 h。然后将印记后的膜转入5%的脱脂牛奶中,室温避光摇晃1 h后,按照目的条带大小剪切膜,分别加入一抗稀释液,4℃摇晃过夜。加入PBST,室温摇晃5 min,重复3次。加入1 mL二抗稀释液,室温摇晃1 h,再用PBST洗膜3次。最后用Odyssey双色红外激光成像系统扫膜成像。
表1 本研究使用的引物序列
sgRNA引物序列中下划线部分为构建质粒所需的粘性末端。P7-index引物序列中下划线部分为index。
对12孔板中长满的细胞进行胰酶消化后,3000×离心10 min,收集沉淀加入500 μL Trizol溶液,室温放置5 min,再加入100 μL氯仿,剧烈摇15 s,室温放置3 min后,4℃、12000×离心15 min,取上层透明相于干净1.5 mL的EP管中。在该管中加入250 μL异丙醇,充分混匀,室温放置10 min后,4℃、12000×离心10 min,去上清收集沉淀,用75%的乙醇洗沉淀,4℃、7500×离心5 min,收集沉淀,倒置10 min,最后加入无核酸酶的水30 μL溶解沉淀得到RNA溶液。用NanoDrop2000测RNA浓度,并放−80℃冰箱待用。
RNA逆转录为cDNA的方法为:在无核酸酶的PCR管加入4 μL gDNA wiper混合液、0.5 μg RNA模板,补无核酸酶水至总体积16 μL,轻轻吹打混匀,42℃ 2 min。继续加入4 μL 5×HiScript II qRT SuperMix II,轻轻吹打混匀,50℃ 15 min;85℃ 5 s。产物即可用于qPCR反应或存于−20℃冰箱待用。
qPCR反应体系:5 μL 2×SYBR Green Master混合液、0.3 μL正向引物(10 μmol/L)、0.3 μL反向引物(10 μmol/L)、2 μL模板、2.4 μL MilliQ水。所用到正、反向引物序列见表1。qPCR扩增条件:95℃ 10 min;95℃ 15 s,60℃ 33 s,40个循环;95℃ 15 s,60℃ 1 min,95℃ 15 s。分析其ΔΔCt值及RQ (relative quantity)值,RQ=2-ΔΔCt。显著性差异分析使用-test。
根据CRISPR/Cas9基因编辑原理设计sgRNA并合成(表1)。每一对sgRNA的两条链经过变性、退火后连接到pGL3-U6-sgRNA-puro载体上。通过转化感受态细菌和质粒抽提得到sgRNA的重组质粒。
反转和删除的单克隆细胞株的获得采用了两组sgRNA。在24孔板准备细胞,密度为8× 105cells/mL。第2天用Lipo3000转染sgRNAs (均为169.9 ng)和Cas9 (940.392 ng)。转染18 h后换培养基,24 h后加嘌呤霉素(1 mg/mL),每孔1 μL,连续4天,将存活下来的细胞继续培养。待细胞足够多时,取一部分做模板。设计PCR引物,进行细胞鉴定。鉴定到目标基因型后,将该混合细胞逐渐放大培养。按照30 cells/mL的浓度接种到96孔板进行单克隆化。两周后对单克隆细胞进行鉴定。在此过程,要保证这些单克隆细胞生长状态良好。
采用细胞裂解法和PCR方法鉴定单克隆细胞。细胞DNA模板的制备方法:取部分细胞于PCR管,3000×离心10 min,留下细胞沉淀;加入20 μL裂解液,沸水煮5 min;再加入20 μL中和液,混匀即可。可存于−20℃。裂解液配方为25 mmol/L NaOH、0.2 mmol/L EDTA;中和液配方为40 mmol/L Tris- HCl。
PCR反应体系:6.3 μL MilliQ水、1 μL 10 × Buffer (含Mg2+)、1 μL dNTP混合液(各2.5 mmol/L)、0.3 μL正向引物(10 μmol/L)、0.3 μL反向引物(10 μmol/L)、0.1 μL rTaq酶(5 U/μL)和1 μL DNA模板。所用到正、反向引物序列见表1。PCR 扩增条件:94℃ 3 min;94℃ 15 s,60℃ 30 s,72℃ 1min,38个循环;72℃ 7 min (退火温度根据引物Tm适当调整,延伸时间根据产物长度调整)。PCR扩增产物用2%琼脂糖凝胶进行电泳分析鉴定。
待检测细胞系RNA的抽提方法和上面方法相同。poly(A) mRNA的分离、cDNA合成和文库构建根据NEB RNA-sequencing试剂盒说明书操作,所用P7-index序列见表1。文库采用Invitrogen公司的Qubit 3 Fluorometer仪器进行定量,并送至苏州金唯智生物科技有限公司进行质检和高通量测序,测序仪器为Illumina HiSeq平台,测序长度双端150 bp。RNA-seq数据用TopHat和Cufflinks进行分析[32],显著性差异分析使用-test。
CTCF在细胞中的多样性功能与其在三维基因组中长距离染色质环化作用相关。本研究分析了多类人源细胞系的CTCF ChIP-seq (chromatin immunoprecipitation and massive parallel sequencing)数据,发现人基因簇中存在3个CTCF可结合位点:,其中位点在所分析的人肺癌细胞系(A549)、人肝癌细胞系(HepG2)、人慢性髓系白血病细胞系(K562)、人胚肾细胞系(HEK293)、正常人表皮角质形成细胞系(NHEK)、人乳腺癌细胞系(MCF7)和人子宫内膜腺癌细胞系(HEC-1-B)中均高度富集CTCF蛋白(图1A)。
CBS基序通常被分为4个模块(Module#1~4)[25,33],核心序列为Module#2~4,其中Module#2~3由CTCF的ZF4~7特异识别,Module#4由ZF3识别。核心序列上有一段保守的11 bp回文序列“CCACCAGGTGG”,位于Module#2~3内,中心的核苷酸碱基“A”被CTCF蛋白ZF6上的Gln418残基特异性识别,对鉴别CBS的方向至关重要。约15%的CBS在核心序列上游存在Module#1,CTCF的ZF9~11缠绕在Module#1的DNA双链上并将它们的α-螺旋插入Module#1的大沟里,对CTCF方向性结合也至关重要[34]。根据上述CBS的结合特征,结合BSDB2.0分析软件,预测人基因簇中的方向为反向(图1B),它们在核心序列Module#2~3处保守度较高(图1B)。
图1 CTCF和cohesin参与人UGT1基因簇的转录调控
A:人基因簇内CBS分布。人位于2号染色体,类似于原钙粘蛋白基因簇,由可变区和恒定区组成,可变区内串联排列着9个高度相似的可变区外显子,下游恒定区包含4个恒定区外显子。垂直框代表基因簇外显子并用不同颜色标记,绿色表示苯酚组可变外显子,橘黄色表示胆红素组可变外显子,红色表示恒定外显子;人肺癌细胞系A549、人肝癌细胞系HepG2、人慢性髓系白血病细胞K562、人胚肾细胞HEK293、正常人表皮角质形成细胞NHEK、人乳腺癌细胞MCF7和人子宫内膜腺癌细胞HEC-1-B的CTCF ChIP-seq数据显示人基因簇内3个CTCF可结合位点:,每个CBS方向由下方蓝色三角形指示;B:人基因簇3个CBS序列及方向性预测;Module#4~1的CBS定义为反向CBS;C:荧光定量PCR技术检测到A549细胞中敲低CTCF后CTCF的转录水平显著降低,shNTC是对照组;D:蛋白免疫印迹实验证明CTCF蛋白被敲低;E:荧光定量PCR技术检测敲低CTCF对A549细胞中高度表达的、和三个基因的转录的影响;F:荧光定量PCR技术检测A549细胞中敲低SMC3后SMC3的转录水平显著降低;G:蛋白免疫印迹实验证明SMC3蛋白被敲低;H:荧光定量PCR技术检测敲低SMC3对A549细胞中高表达基因、和的转录影响;I:人肺癌细胞系A549、肝癌细胞系HepG2和宫颈癌细胞系HeLa-S3的cohesin蛋白亚基SMC3以及增强子标志p300和H3K27ac在人基因簇的分布。*:<0.05 表示有统计学差异,**:<0.01表示有显著的统计学差异,***:<0.001 表示有非常显著的统计学差异。
A549细胞系中基因簇各基因的表达差异较大,和高度表达,和低度表达,而、、、和则处于沉默状态。为研究CTCF是否参与调控基因簇的转录表达,以人肺癌细胞系A549为模型,通过向细胞感染表达shRNA的慢病毒来敲低CTCF。CTCF靶向的shRNA病毒感染A549细胞后,CTCF的转录水平降低了93% (图1C),CTCF的蛋白表达水平显著降低(图1D)。进一步采用荧光定量PCR技术检测了的表达,发现转录水平升高了43%,和分别降低了79%和76% (图1E)。表明CTCF显著影响、和的表达,参与调控基因簇的转录表达。
CTCF在染色质高级架构中的绝缘作用依赖于cohesin蛋白复合体,它们往往共定位于染色质上的CBS处,本研究进一步利用慢病毒介导的shRNA敲低了SMC3的表达,SMC3的转录水平降低86.7% (图1F)、蛋白量显著降低(图1G)。SMC3敲低后,转录水平升高8.25倍,而和转录水平几乎没有变化(图1H),这和CTCF敲低时的情况不一样,可能与cohesin在组织特异性转录中的CTCF非依赖性功能相关[20,35,36]。于是,进一步分析了人肺癌细胞系A549、肝癌细胞系HepG2和宫颈癌细胞系HeLa-S3的cohesin亚基SMC3蛋白以及增强子标志p300和H3K27ac在基因簇的结合分布,结果发现SMC3除了在CTCF位点富集,还在p300和H3K27ac位点处富集(图1I)。
为进一步研究人基因簇内保守的CTCF结合元件对基因簇的转录调控的影响,以人肺癌细胞系A549为模型,利用CRISPR/Cas9片段编辑技术原位删除包含的DNA片段。
本研究采用使用最广泛的酿脓链球菌()来源的SpCas9酶。该酶被sgRNA带入靶标DNA处,其两个核酸酶结构域HNH和RuvC在5′ PAM (protospacer adjacent motif)序列(NGG)上游3 bp处分别对互补链和非互补链进行切割,产生具有平头末端的DSBs (double strand breaks)[37~40]。最新的研究发现,SpCas9切割位点不局限于PAM上游3 bp处,非互补链上的切割可能发生在更上游位置,进而产生突出末端[27]。在A549细胞中转入SpCas9和sgRNAs (sgC1F和sgC1D,图2A)表达质粒后,在转染细胞群中检测到删除的基因型,进一步对转染细胞群进行单克隆化,获得89个单克隆细胞株,对这些单克隆细胞进行PCR鉴定,发现C1D2和C1D3是删除纯合型单克隆细胞株。片段删除示意图如图2B所示,SpCas9在sgCIF和sgC1D引导下,特异性识别片段两侧靶标位置并切割产生两个切口,两个切口连接到一起形成片段删除的编辑细胞。
C1D2和C1D3的基因型鉴定结果如图2C所示,切口处原野生型片段(上游C1F8/C1R9引物对PCR产物151 bp、下游C1F2/C1R引物对PCR产物301 bp)全部消失,反转检测条带(C1F8/C1F2引物对PCR产物219 bp、C1R/C1R9引物对PCR产物233 bp)呈阴性,片段两侧引物C1F8/C1R扩增产物从野生型细胞的1229 bp缩短为290 bp,表明编辑片段被删除。对片段两侧引物C1F8/C1R扩增的290 bp产物进一步测序分析,发现C1D2和C1D3单克隆细胞株中删除片段上下游的切割位点均恰好在PAM上游3 bp处(图2D),这可能因为即使SpCas9在非互补链造成的切割位点超过PAM上游3 bp,细胞内修复体系也会使其3¢端补齐,然后再连接到一起。
图2 CRISPR删除hCBS1片段对人细胞系A549中UGT1基因簇转录的影响
A:CRISPR删除片段所使用的成对sgRNA (sgCIF和sgC1D)以及各鉴定引物的位置示意图;B:片段删除示意图。Cas9在sgCIF和sgC1D引导下,特异性识别片段两侧靶标位置并切割产生两个切口,两个切口连接到一起形成片段删除的编辑细胞;C:片段删除的单克隆A549细胞株C1D2和C1D3的基因型鉴定结果。野生型A549细胞(WT)和片段原位反转型A549细胞(C1I5)被作为PCR鉴定对照;用C1F8/C1R9或C1F2/C1R引物对可在WT中扩增出切点处151 bp或301 bp片段,用C1F8/C1F2或C1R/C1R9可在C1I5中扩增出反转后剪接处的219 bp或233 bp片段,C1D2和CID3中未检测到以上4个片段;用片段两侧引物C1F8/C1R可在WT和C1I5中扩增出1229 bp条带,C1D2和CID3中扩增条带缩短为290 bp;D:C1F8/C1R在C1D2和C1D3细胞中的扩增产物的测序结果示意图;E:RNA-seq数据分析比较WT和C1D2或C1D3细胞中基因簇的转录水平。
采用RNA-seq分析方法检测比较C1D2和C1D3单克隆与野生型A549细胞的转录水平(图2E),发现在C1D2单克隆细胞中,表达降低64%,表达降低99%,表达降低97.6%,但是表达升高1.62倍,基因簇其他基因没有变化。在C1D3单克隆细胞中,表达降低52%,表达降低93%,表达降低99%,但是表达升高1.75倍,基因簇其他基因没有变化,这与C1D2克隆结果一致。总之,删除显著影响基因簇的基因转录。
CTCF在DNA上的结合具有方向性,参与形成染色质环化,在三维基因组复杂的空间结构的形成和维持中起关键作用,上述研究证明删除显著影响基因簇的转录,表明是1基因簇的一个重要的转录调控元件。是反向的,那么如果把反转,变为正向,基因簇局部的基因表达会有怎样的变化呢?
本研究在A549细胞中转入SpCas9和sgRNAs (sgC1U和sgC1D,图3A)表达质粒后,在转染细胞群中检测到反转的基因型,进一步对转染细胞群进行单克隆化,获得90个单克隆细胞株,对这些单克隆细胞进行基因型鉴定,发现C1I4单克隆细胞株为反转纯合型。片段反转示意图如图3B所示,Cas9在sgCIU和sgC1D引导下,特异性识别片段两侧靶标位置并切割产生两个切口,反转后两个切口分别连接到染色体断点处形成片段反转的编辑细胞。
C1I4的基因型鉴定结果如图3C所示,切口处原野生型片段(上游C1F5/C1R6引物对PCR产物244 bp、下游C1F2/C1R引物对PCR产物301 bp)检测为阴性,表明野生基因型不存在;用反转检测引物对C1F/C1F2或C1R/C1R2可在C1I4中扩增出257 bp或289 bp大小的反转条带,表明发生反转;用片段两侧引物C1F/C1R可扩增出和野生型条带大小相当约977 bp的条带。对片段两侧引物C1F/C1R扩增的产物进一步测序分析,发现C1I4单克隆细胞株中编辑片段上下游的切割位点均恰好在PAM上游3 bp处(图3D)。
采用RNA-seq分析方法检测比较C1I4单克隆与野生型A549细胞中基因簇的转录水平(图3E),发现当反转后,C1I4单克隆中和表达没有明显变化,但是表达降低74%,低表达的和变化幅度并不显著,其余基因(、、、)依然处于沉默状态,几乎不转录。总之,反转主要影响基因的转录。
人和小鼠基因簇分别长180 kb和200 kb,基因结构相似,由高度同源且串联排列的9个可变外显子组成的可变区和4个恒定外显子组成的恒定区组成(图4A),可变区任意外显子可被选择性剪接到下游全套恒定外显子上,共可形成9种转录本,表达9种UGT1同工酶。根据催化底物特异性,UGT1同工酶被分为胆红素组和苯酚组,其编码基因的可变区分别对应图4A中的橘黄色和绿色外显子。胆红素组中,人和小鼠基因为直系同源关系,蛋白氨基酸序列相似度为66%。人与小鼠为直系同源关系,它们的平均氨基酸序列同源性约61%。苯酚组也有两个分支,人与小鼠为直系同源关系,它们之间相似度为70%,小鼠的和基因是在两个物种分开后复制衍生形成的,两者编码的氨基酸相似度为95%。人与小鼠基因直系同源,平均氨基酸序列相似度约67%[1,41]。除了9个功能性可变外显子外,人和小鼠基因簇可变区内还有多片分散排列的假基因和残骸(relic)序列。
为解析基因簇内分布的CBS在人和模式动物小鼠间是否高度保守,本研究分析和比较了小鼠不同细胞和组织中基因簇的CTCF ChIP-seq数据(图4B),包括B细胞淋巴瘤细胞系(CH12)、GATA 1-红系祖细胞系(G1E)、第0天的胚胎干细胞(ES-B4 E0)和8周龄的心脏、肾脏、肝脏、肺,发现小鼠基因簇含有至少11个CTCF可结合位点:,其中8个为正向、3个为反向,在核心序列Module#2~3处保守性较高(图4,C和D)。比较人和小鼠基因簇中的CBS分布和方向性,发现小鼠基因簇含有CBS数目比人基因簇更多。
脊椎动物表达具有组织特异性,同一个体不同器官的表达水平有很大的差别[1,42],这和组织特异性转录因子及其配体激活密切相关[7]。UGT葡醛酸转移酶的多样性和其在各种组织中的表达差异与特定疾病以及治疗药物的疗效或毒性有关,新生儿黄疸、克里格勒-纳贾尔(Crigler-Najjar)综合征(Ⅰ型和Ⅱ型)和吉尔伯氏(Gilbert)综合征等遗传性高胆红素疾病[43,44]均是由多态性或基因突变造成的胆红素代谢功能降低或缺失引起,其中大部分变异位点位于非编码区。非编码区在基因簇的转录调控中发挥重要作用[45]。为了解析这些非编码区如何在复杂的染色质三维空间结构上调控基因簇的表达以及在染色体拓扑结构域内各启动子与远端DNA调控元件之间的特异性成环机制,本研究首次聚焦基因簇中染色质架构蛋白CTCF及其结合元件CBS,探索其对基因簇表达的影响。
图3 CRISPR反转hCBS1片段对人细胞系A549中UGT1基因簇转录的影响
A:CRISPR反转片段所使用的成对sgRNA (sgCIU和sgC1D)以及各鉴定引物的位置示意图;B:片段反转示意图。Cas9在sgCIU和sgC1D引导下,特异性识别片段两侧靶标位置并切割产生两个切口,反转后两个切口分别连接到染色体断点处形成片段反转的编辑细胞;C:片段反转的单克隆A549细胞株C1I4的基因型鉴定结果。野生型A549细胞(WT)被作为PCR鉴定对照;用C1F5/C1R6或C1F2/C1R引物对可在WT中扩增出切点处244 bp或301 bp的野生型条带,C1I4中检测结果均为阴性;用CBS1反转检测引物对C1F/C1F2或C1R/C1R2可在C1I4中扩增出257 bp或289 bp片段;用片段两侧引物C1F8/C1R可在WT、C1I4中扩增出约977 bp条带;D:C1F/C1R在C1I4细胞中的扩增产物的测序结果示意图;E:RNA-seq数据分析比较WT和C1I4细胞中基因簇的转录水平。
图4 小鼠Ugt1基因簇内CTCF结合位点分布和方向性预测
A:人和小鼠基因簇内各同工酶基因的线性进化关系示意图。人位于2号染色体,小鼠位于1号染色体,它们都类似于原钙粘蛋白基因簇,由可变区和恒定区组成,可变区内串联排列着9个高度相似的可变区外显子,下游恒定区包含4个恒定区外显子。人基因簇可变区还有4个假基因和1个残骸(relic)序列,而小鼠可变区含有5个假基因和4个残骸序列。垂直框代表基因簇外显子并用不同颜色标记,绿色表示苯酚组可变外显子,橘黄色表示胆红素组可变外显子,红色表示恒定外显子,灰色表示假基因或残骸序列,分别用Ψ和r表示,直系同源基因之间由黑色虚线相连,蓝色三角形表示CBS方向;B:小鼠基因簇内CBS分布。小鼠B细胞淋巴瘤CH12、GATA 1-红系祖细胞G1E和第0天的胚胎干细胞ES-B4 E0,以及小鼠(C57BL/6)8周龄心脏、肾脏、肝脏和肺的CTCF ChIP-seq数据显示小鼠基因簇内至少有11个CTCF可结合位点:,每个CBS方向由下方蓝色三角形指示;C:小鼠基因簇内正向CBS序列及方向性预测。Module#1~4的CBS定义为正向CBS;D:小鼠基因簇内反向CBS序列及方向性预测。Module#4~1的CBS定义为反向CBS。
本研究分析比较了人和模式动物小鼠的不同细胞或组织中CTCF在基因簇的富集情况,发现人和小鼠的基因簇中CBS分布差异较大。通过对人和小鼠基因簇内的CBS方向以及保守性的初步分析,发现这些CBS基序在Module#2-3处保守度较大。然后以人肺癌细胞系A549为模型,通过CTCF和cohesin蛋白靶向shRNA病毒感染细胞以敲低细胞中的CTCF和cohesin蛋白,发现CTCF敲低后,A549细胞中高度表达的和的转录水平显著降低,而升高。cohesin蛋白敲低后,表达显著升高,而和没有变化。该现象表明CTCF和cohesin蛋白参与调控基因簇的转录表达,可能通过影响局部基因簇的染色质构象而改变各启动子和增强子之间的相互作用。最后,本研究发现人和小鼠的所有基因启动子附近没有CBS位点,这与基因结构类似的原钙粘蛋白基因簇[8,46,47]存在明显不同:原钙粘蛋白基因簇中几乎每个启动子附近都有CBS位点,且CBS位点的位置和方向在人和小鼠原钙粘蛋白基因簇中高度保守[48]。
进一步通过CRISPR介导的DNA片段编辑技术研究了人基因簇内高度保守的CTCF结合位点对转录的影响。同样以人肺癌细胞系A549为研究模型,利用CRISPR/Cas9系统将片段删除。从RNA-seq数据可以看出,删除明显降低了、和的表达。当把方向反转为正向时,转录水平明显降低。这可能是因为删除或反转会改变染色质空间构象,影响增强子和启动子之间远距离相互作用,例如,删除使得调控、和启动子的增强子空间上远离这些启动子,使它们的转录活性降低。A549细胞中主要分布有2个CBS:和,两者方向均向左(图1A),反转后仅表达下调,可能是因为反转后与方向相背,造成与下游CBS成环、与上游CBS成环,使得和之间的3个基因和不再处于同一个调控拓扑域内,它们具体受哪些增强子调控有待进一步研究。尽管如此,该现象表明参与调节、和的转录,是基因簇的潜在转录调控元件。
综上所述,本研究证明了CTCF和cohesin蛋白参与调控人基因簇的转录,删除或反转该基因簇内高度保守的CTCF结合位点显著改变该基因簇活性基因的转录,这可能源于CTCF带来的染色质构象改变。本研究工作将为后续对的三维基因转录调控机制研究奠定基础,为临床合理用药和人类疾病的预防提供科学依据。
[1] Zhang T, Haws P, Wu Q. Multiple variable first exons: a mechanism for cell- and tissue-specific gene regulation., 2004, 14(1): 79–89.
[2] Huang H, Wu Q. Cloning and comparative analyses of the zebrafish Ugt repertoire reveal its evolutionary diversity., 2010, 5(2): e9144.
[3] Li C, Wu Q. Adaptive evolution of multiple-variable exons and structural diversity of drug-metabolizing enzymes., 2007, 7: 69.
[4] Nagar S, Blanchard RL. Pharmacogenetics of uridine diphosphoglucuronosyltransferase (UGT) 1A family members and its role in patient response to irinotecan., 2006, 38(3): 393–409.
[5] Mackenzie PI, Bock KW, Burchell B, Guillemette C, Ikushiro S, Iyanagi T, Miners JO, Owens IS, Nebert DW. Nomenclature update for the mammalian UDP glycosyltransferase (UGT) gene superfamily., 2005, 15(10): 677–685.
[6] Yang N, Sun R, Liao X, Aa J, Wang G. UDP-glucuronosyltransferases (UGTs) and their related metabolic cross- talk with internal homeostasis: a systematic review of UGT isoforms for precision medicine., 2017, 121: 169–183.
[7] Rowland A, Miners JO, Mackenzie PI. The UDP-glucuronosyltransferases: their role in drug metabolism and detoxification., 2013, 45(6): 1121– 1132.
[8] Wu Q, Zhang T, Cheng JF, Kim Y, Grimwood J, Schmutz J, Dickson M, Noonan JP, Zhang MQ, Myers RM, Maniatis T. Comparative DNA sequence analysis of mouse and human protocadherin gene clusters., 2001, 11(3): 389–404.
[9] Tukey RH, Strassburg CP. Human UDP-glucuronosyltransferases: metabolism, expression, and disease., 2000, 40: 581–616.
[10] Heath H, de Almeida CR, Sleutels F, Dingjan G, van de Nobelen S, Jonkers I, Ling KW, Gribnau J, Renkawitz R, Grosveld F, Hendriks RW, Galjart N. CTCF regulates cell cycle progression of alphabeta T cells in the thymus., 2008, 27(21): 2839–2850.
[11] de Wit E, Vos ES, Holwerda SJ, Valdes-Quezada C, Verstegen MJ, Teunissen H, Splinter E, Wijchers PJ, Krijger PH, de Laat W. CTCF binding polarity determines chromatin looping., 2015, 60(4): 676–684.
[12] Ong CT, Corces VG. CTCF: an architectural protein bridging genome topology and function., 2014, 15(4): 234–246.
[13] Huang H, Wu Q. CRISPR double cutting through the labyrinthine architecture of 3D genomes., 2016, 43(5): 273–288.
[14] Kim TH, Abdullaev ZK, Smith AD, Ching KA, Loukinov DI, Green RD, Zhang MQ, Lobanenkov VV, Ren B. Analysis of the vertebrate insulator protein CTCF-binding sites in the human genome., 2007, 128(6): 1231–1245.
[15] Nakahashi H, Kieffer Kwon KR, Resch W, Vian L, Dose M, Stavreva D, Hakim O, Pruett N, Nelson S, Yamane A, Qian J, Dubois W, Welsh S, Phair RD, Pugh BF, Lobanenkov V, Hager GL, Casellas R. A genome-wide map of CTCF multivalency redefines the CTCF code., 2013, 3(5): 1678–1689.
[16] Faure AJ, Schmidt D, Watt S, Schwalie PC, Wilson MD, Xu H, Ramsay RG, Odom DT, Flicek P. Cohesin regulates tissue-specific expression by stabilizing highly occupied cis-regulatory modules., 2012, 22(11): 2163–2175.
[17] Yusufzai TM, Tagami H, Nakatani Y, Felsenfeld G. CTCF tethers an insulator to subnuclear sites, suggesting shared insulator mechanisms across species., 2004, 13(2): 291–298.
[18] Watrin E, Kaiser FJ, Wendt KS. Gene regulation and chromatin organization: relevance of cohesin mutations to human disease., 2016, 37: 59–66.
[19] Kagey MH, Newman JJ, Bilodeau S, Zhan Y, Orlando DA, van Berkum NL, Ebmeier CC, Goossens J, Rahl PB, Levine SS, Taatjes DJ, Dekker J, Young RA. Mediator and cohesin connect gene expression and chromatin architecture., 2010, 467(7314): 430–435.
[20] Wendt KS, Yoshida K, Itoh T, Bando M, Koch B, Schirghuber E, Tsutsumi S, Nagae G, Ishihara K, Mishiro T, Yahata K, Imamoto F, Aburatani H, Nakao M, Imamoto N, Maeshima K, Shirahige K, Peters JM. Cohesin mediates transcriptional insulation by CCCTC-binding factor., 2008, 451(7180): 796–801.
[21] Splinter E, Heath H, Kooren J, Palstra RJ, Klous P, Grosveld F, Galjart N, de Laat W. CTCF mediates long- range chromatin looping and local histone modification in the beta-globin locus., 2006, 20(17): 2349– 2354.
[22] Handoko L, Xu H, Li G, Ngan CY, Chew E, Schnapp M, Lee CW, Ye C, Ping JL, Mulawadi F, Wong E, Sheng J, Zhang Y, Poh T, Chan CS, Kunarso G, Shahab A, Bourque G, Cacheux-Rataboul V, Sung WK, Ruan Y, Wei CL. CTCF-mediated functional chromatin interactome in pluripotent cells., 2011, 43(7): 630–638.
[23] Guo Y, Monahan K, Wu H, Gertz J, Varley KE, Li W, Myers RM, Maniatis T, Wu Q. CTCF/cohesin-mediated DNA looping is required for protocadherin α promoter choice., 2012, 109(51): 21081– 21086.
[24] Rao SS, Huntley MH, Durand NC, Stamenova EK, Bochkov ID, Robinson JT, Sanborn AL, Machol I, Omer AD, Lander ES, Aiden EL. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping., 2014, 159(7): 1665–1680.
[25] Guo Y, Xu Q, Canzio D, Shou J, Li J, Gorkin DU, Jung I, Wu H, Zhai Y, Tang Y, Lu Y, Wu Y, Jia Z, Li W, Zhang MQ, Ren B, Krainer AR, Maniatis T, Wu Q. CRISPR inversion of CTCF Sites alters genome topology and enhancer/promoter function., 2015, 162(4): 900–910.
[26] Li JH, Shou J, Wu Q. DNA fragment editing of genomes by CRISPR/Cas9., 2015, 37(10): 992–1002.李金环, 寿佳, 吴强. CRISPR/Cas9系统在基因组DNA片段编辑中的应用. 遗传, 2015, 37(10): 992–1002.
[27] Shou J, Li J, Liu Y, Wu Q. Precise and predictable CRISPR chromosomal rearrangements reveal principles of Cas9-Mediated nucleotide insertion., 2018, 71(4): 498-509.e4.
[28] Doudna JA, Charpentier E. Genome editing. The new frontier of genome engineering with CRISPR-Cas9., 2014, 346(6213): 1258096.
[29] Fellmann C, Gowen BG, Lin PC, Doudna JA, Corn JE. Cornerstones of CRISPR-Cas in drug discovery and therapy., 2017, 16(2): 89–100.
[30] Li J, Shou J, Guo Y, Tang Y, Wu Y, Jia Z, Zhai Y, Chen Z, Xu Q, Wu Q. Efficient inversions and duplications of mammalian regulatory DNA elements and gene clusters by CRISPR/Cas9., 2015, 7(4): 284–298.
[31] Ziebarth JD, Bhattacharya A, Cui Y. CTCFBSDB 2.0: a database for CTCF-binding sites and genome organization., 2012, 41(Database issue): D188–194.
[32] Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, Pimentel H, Salzberg SL, Rinn JL, Pachter L. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks., 2012, 7(3): 562–578.
[33] Rhee HS, Pugh BF. Comprehensive genome-wide protein-DNA interactions detected at single-nucleotide resolution., 2011, 147(6): 1408–1419.
[34] Yin M, Wang J, Wang M, Li X, Zhang M, Wu Q, Wang Y. Molecular mechanism of directional CTCF recognition of a diverse range of genomic sites., 2017, 27(11): 1365–1377.
[35] Schmidt D, Schwalie PC, Ross-Innes CS, Hurtado A, Brown GD, Carroll JS, Flicek P, Odom DT. A CTCF-independent role for cohesin in tissue-specific transcription., 2010, 20(5): 578–588.
[36] Rubio ED, Reiss DJ, Welcsh PL, Disteche CM, Filippova GN, Baliga NS, Aebersold R, Ranish JA, Krumm A. CTCF physically links cohesin to chromatin., 2008, 105(24): 8309–8314.
[37] Ran FA, Hsu PD, Lin CY, Gootenberg JS, Konermann S, Trevino AE, Scott DA, Inoue A, Matoba S, Zhang Y, Zhang F. Double nicking by RNA-guided CRISPR Cas9 for enhanced genome editing specificity., 2013, 154(6): 1380–1389.
[38] Bao A, Burritt DJ, Chen H, Zhou X, Cao D, Tran LP. The CRISPR/Cas9 system and its applications in crop genome editing., 2019, 39(3): 321–336.
[39] Jiang F, Doudna JA. CRISPR-Cas9 structures and mechanisms., 2017, 46: 505–529.
[40] Jinek M, Chylinski K, Fonfara I, Hauer M, Doudna JA, Charpentier E. A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity., 2012, 337(6096): 816–821.
[41] Owens IS, Basu NK, Banerjee R. UDP-Glucuronosyltransferases: gene structures of UGT1 and UGT2 families., 2005, 400: 1–22.
[42] Wang Y, Huang H, Wu Q. Characterization of the zebrafish Ugt repertoire reveals a new class of drug-metabolizing UDP glucuronosyltransferases., 2014, 86(1): 62–75.
[43] Bartlett MG, Gourley GR. Assessment of UGT polymerphisms and neonatal jaundice., 2011, 35(3): 127–133.
[44] Che F, Luo ZY. Research progress of UGT1A1 gene in the pathogenesis of Gilbert and Crigler-Najjar syndromes., 2015, 29(3): 219–222.车芳, 骆子义. UGT1A1基因在Gilbert综合征及Crigler-Najjar综合征发病机制中研究进展. 中华实用诊断与治疗杂志, 2015, 29(3): 219–222.
[45] Wang LY, Huang HY, Wu Q. The diversity of DNA fragment editing by CRISPR/Cas9 in highly homologous or repetitive sequences., 2017, 39(4): 313–325.汪乐洋, 黄海燕, 吴强. 利用CRISPR/Cas9对基因组中高度同源DNA片段编辑多样性的遗传学研究. 遗传, 2017, 39(04): 313–325.
[46] Wu Q, Maniatis T. A striking organization of a large family of human neural cadherin-like cell adhesion genes., 1999, 97(6): 779–790.
[47] Wu Q. Comparative genomics and diversifying selection of the clustered vertebrate protocadherin genes., 2005, 169(4): 2179–2188.
[48] Zhai Y, Xu Q, Guo Y, Wu Q. Characterization of a cluster of CTCF-binding sites in a protocadherin regulatory region., 2016, 38(4): 323–336.翟亚男, 许泉, 郭亚, 吴强. 原钙粘蛋白基因簇调控区域中成簇的CTCF结合位点分析. 遗传, 2016, 38(04): 323–336.
Chromatin architectural protein CTCF regulates gene expression of thecluster
Xiaofei Zheng, Haiyan Huang, Qiang Wu
UDP-glucuronosyltransferases (UGTs) are an important family of phase Ⅱ drug-metabolizing enzymes that catalyze the glucuronidation of numerous endogenous or exogenous small compounds. The aberrant expression ofisoforms causes many diseases, such as hyperbilirubinemia and affect drug efficacy or toxicity. Understanding mechanisms ofgene regulation will provide scientific foundations for disease prevention and personalized or precision medicine. Vertebratefamily genes can be divided intoandsubfamilies. Similar to the protocadherin, immunoglobulin, and T-cell receptor gene clusters and different from thegene cluster, thegene cluster is organized into variable and constant regions. Thevariable region contains a tandem array of variable exons, each of which can be alternatively spliced to a single set of 4 downstream constant exons, generating at least ninemRNAs that could be translated into different UGT1 glucuronyltransferase isoforms. Our previous work reveals that the relative orientations and locations of CTCF binding sites play a key role in the three-dimensional organization of the mammalian genomes in cell nuclei. Thus in order to study the transcriptional mechanisms ofgene cluster, the distributions and orientations of CTCF binding sites (CBSs) are analyzed and compared between human and mousegene clusters. We find that the CBSs in thegene cluster are not conserved between human and mouse species. We show that CTCF and cohesin regulate the transcription of thegene cluster by knocking down the CTCF or the cohesin subunit SMC3 in the human A549 cell line. By using CRISPR DNA-fragment editing, we deleted and inverted. By RNA-seq experiments, we find thatdeletion results in a significant decrease of levels of the,andgene expression and thatinversion results in a significant decrease of levels of thegene expression. Our data suggest that the CTCF binding siteplays an important regulatory role in the regulation ofgene expression, providing an experimental basis for further mechanistic studies of the 3D genome regulation of thegenecluster.
; CTCF; CRISPR-Cas9;DNA fragment editing; transcriptional regulation
2019-03-15;
2019-04-08
国家自然科学基金项目(编号:81872944, 31470820, 81302861)资助[Supported by the National Natural Science Foundation of China (Nos. 81872944, 31470820, 81302861)]
郑晓飞,硕士研究生,专业方向:遗传学。E-mail: 1159171993@qq.com
黄海燕,博士,副研究员,研究方向:药物分子遗传学。E-mail: hy_huang@sjtu.edu.cn
吴强,博士,教授,研究方向:基因表达调控及神经发育。E-mail: qwu123@gmail.com
10.16288/j.yczz.19-072
2019/5/28 15:50:37
URI: http://kns.cnki.net/kcms/detail/11.1913.R.20190528.1550.002.html
(责任编委: 方向东)