刘志朋,代红梅,杨 忠,张 霞,霍海龙,王 配,李卫真,赵 筱,霍金龙*
(1.云南农业大学动物科学技术学院,昆明 650201;2.云南生物制药有限公司,昆明 650503;3.吕梁学院生命科学系,山西 吕梁 033001;4.云南农业职业技术学院,昆明 650212;5.云南农业大学动物医学院,昆明 650201)
精子发生(spermatogenesis)是有性生殖雄性动物的睾丸中,精原细胞经过复杂的增殖、分化以及减数分裂最终形成成熟精子的过程,历经精原细胞、初级精母细胞、次级精母细胞、精子细胞和成熟精子等多个过程,并发生两次减数分裂[1]。该过程高度复杂有序且受严密的细胞发育调控,包括内在和外在的调节以及生殖细胞和支持细胞之间的相互作用[2]。精子发生过程中基因表达调控还受到内分泌、旁分泌和自分泌信号的二次调节,这些信号可通过周围体细胞(包括支持细胞)间接传递[3]。在雄性生殖细胞发育过程中,组蛋白H2A和H2B泛素化[4-5]是精子发生过程中染色质重塑的重要表观遗传标记之一[1,6-8]。已发现E3泛素连接酶RNF8可在长形精子细胞中介导组蛋白H2A和H2B的泛素化[9],除RNF8外,也发现了其他E3泛素连接酶在精子发生过程中广泛表达[10],表明E3泛素连接酶在雄性生殖细胞发育过程中发挥重要功能。
PHF7(PHD finger protein 7)在小鼠中是一种E3泛素连接酶,可以同时结合组蛋白H2A和H3,并在组蛋白-鱼精蛋白交换之前通过结合H3K4me3/me2来特异性泛素化H2A[11],PHF7缺失会导致小鼠长形精子细胞中H2A泛素化异常,在精子形成后期阻碍组蛋白-鱼精蛋白的交换,从而引起雄性不育[11]。在人类中,PHF7也被称为睾丸发育NYD-SP6,包含两个PHD锌指结构域,在精子发生阻滞患者睾丸中高表达,在刺激睾丸发育或精子发生的转录中发挥重要作用[12]。PHF7在果蝇中具有与H3K4me3结合偏好性,能特异性结合组蛋白H3N末端尾部,并促进果蝇种系中的雄性性别决定[13]。PHF7也能作为精子染色质凝聚的关键因子调控减数分裂后精子细胞中组蛋白-精蛋白的交换过程,PHF7介导的组蛋白泛素化能够减弱BRDT(一种组蛋白移除因子)的泛素化,从而减弱BRDT失调导致的组蛋白-精蛋白交换障碍,以促进精子细胞染色质凝结早期组蛋白的去除[14]。PHF7还是肿瘤形成的关键影响因子,在雌性果蝇生殖系干细胞中,PHF7的高表达会阻碍卵子发生,导致无配子或生殖细胞瘤表型[15],此外,在无Sxl(性连锁致死)蛋白的前提下,PHF7的表达会通过细胞自主性机制(Jak/Stat信号通路)驱动肿瘤形成[16]。
PHF7基因在人类[12]、小鼠[11]、大鼠和鸡[17]的睾丸中大量表达,并且与精子发生相关。在高度近交的公牛中也检测到PHF7与精子发生过程相关[18]。版纳微型猪近交系(BMI)是利用我国地方品种滇南小耳猪培育的猪近交系,已通过全同胞和亲子交配的高度近交方式繁育41年,是生命科学领域良好的实验动物模型和异种器官移植供体[19]。近交过程中出现的部分不育公猪导致一些家系发生了断代现象,制约了群体数量的扩大,故研究精子发生相关基因的表达调控作用对于BMI继代繁育具有重要的科学意义。本研究以BMI睾丸为研究材料,进行全转录组测序,获得PHF7基因的表达水平,克隆该基因编码区序列分析其分子特征,利用生物信息学对其进行功能分析、注释基因,并构建其转录调控网络,为深入研究PHF7在BMI精子生成方面的功能奠定基础。
本研究中实验动物的使用严格按照中华人民共和国科学技术部颁布的《实验动物管理条例》执行(批准文号:2006-398),且经云南农业大学动物保护委员会批准。屠宰12月龄版纳微型猪近交系公猪4头,立即取睾丸组织放入液氮,后转入-80℃冰箱保存,供后续试验。试验所需RNAiso Plus、PrimeScriptTMⅡ1st Strand cDNA Synthesis Kit、Premix TaqTM等均购自大连TaKaRa公司。
提取睾丸组织RNA,反转录为cDNA,采用RNA-seq Illumina Hiseq 4000平台进行转录组测序(由北京诺禾致源科技有限公司完成),利用fastp软件[20]对测序获得的原始数据进行质控并过滤低质量数据,包括去除接头序列、含N比例大于10%的序列、全是A碱基的序列以及低质量序列。使用bowtie2(v.2.1.0)软件[21]将过滤好的数据与NCBI猪核糖体参考序列数据进行比对,并去除比对上的序列。从Ensembl网站下载猪参考基因组(Sus_scrofa.Sscrofa11.1.dna.toplevel.fa)和注释文件(Sus_scrofa.Sscrofa11.1.102.gtf),使用STAR(v.2.5.2a)软件[22]构建参考基因组索引,并将已去除核糖体序列的数据与猪参考基因组比对。用featureCounts(v.2.0.1)软件[23]和 Salmon(v.1.5.1)软件[24]分别计算样本中PHF7基因的原始表达量和TPM值校正表达量。
根据PHF7基因转录组数据钓取到Ensembl数据库对应的猪PHF7转录本ENSSSCT 00000012519.4,利用该转录本序列设计特异引物(F:CGTCTCTCATCACACGCTTT;R:CTGTTCTGTC CTACGTCCC),以BMI睾丸cDNA为模板扩增PHF7基因全长编码区。反应体系25 μL:Premix TaqTM12.5 μL,10 μmol/L PHF7上下游引物各1 μL,25 ng/μL cDNA 1 μL,H2O 9.5 μL;扩增程序:95 ℃ 5 min;95 ℃ 30 s,55 ℃ 45 s,72 ℃ 80 s,35个循环;72 ℃10 min。扩增产物送昆明擎科生物公司测序。
利用Lasergene7.1校对测序的BMI PHF7序列;使用NCBI的ORFfinder查找分析PHF7的开放阅读框;用ProtParam程序预测PHF7蛋白质的分子量、分子式、等电点、正负电荷残基数;使用SOPMA、ProtScale和Prosite分别预测PHF7蛋白质的二级结构、疏水结构和功能位点;通过TMHMM 2.0和SignalP 5.0工具分别预测PHF7蛋白的跨膜结构和信号肽;使用MEGA-X软件构建PHF7蛋白的系统发育树;用Weblogo工具对结构域区的氨基酸序列进行保守性分析,用String 11.5进行蛋白互作网络分析。
利用Uniprot进行GO(gene ontology)功能注释;利用已获得的猪RNA-seq数据进行微小RNA(micro RNA,miRNA)和长链非编码RNA(long noncoding RNA,lncRNA)表达分析;使用miRanda 3.3和RNAhybrid 2.1.2软件对潜在的调控PHF7的miRNA和lncRNA进行分析;并用Cytoscape 3.8.2绘制可视化相互作用网络图。
转录组鉴定的PHF7基因在BMI睾丸中的原始平均表达量为27 285.25,矫正平均表达量(TPM)为356.79,其转录本对应Ensemble数据库中的ENSSSCT00000012519.4。 PHF7 定 位 于 猪(Sscrofa11.1)13号常染色体,全长11 830 bp,依据Ensembl网站分析发现共有11个外显子和10个内含子(图1A)。利用PHF7引物扩增PHF7基因的完整编码区(CDS)及部分非编码区(UTR),获得1 500 bp长的产物(图1B),编码384个氨基酸(图1C),对该产物测序结果进行开放阅读框(ORF,open reading frame)分析发现,存在8个ORF,其中全长开放阅读框ORF1(即完整CDS区)1 155 bp为正确的编码ORF(图1D),含有两个保守结构域,分别为ePHD_PHF7_G2E3_like和PHD_PHF7_G2E3_like(图1C,图1E)。
图1 PHF7基因结构Figure 1 Gene structure of PHF7
猪PHF7蛋白质分子量43.96 kD,分子式C1889H2978N578O564S36,等电点 9.02,负电荷残基为 45,正电荷残基为66。PHF7蛋白质384个氨基酸的二级结构中无规则卷曲占比最大,包含230个氨基酸;α螺旋次之,包含90个氨基酸;延伸链51个氨基酸;β转角最少,有13个氨基酸。蛋白质的第60、61和62位氨基酸具有最大疏水值1.811,第9位氨基酸处具有最小疏水值-3.944,N端和C端均疏水(图2A)。含有酶磷酸化、酰胺化等活性位点(图2B)。不含信号肽和跨膜结构。
图2 PHF7蛋白氨基酸疏水性(A)和磷酸化位点(B)Figure 2 Hydrophobicity(A)and phosphorylation site(B)of PHF7 amino acids
9个哺乳动物PHF7氨基酸序列比较发现,BMI猪PHF7与野生双峰驼Wild Bactrian camel(XP_006180052.1)、羊驼 Alpaca(XP_031542326.1)和灰熊 Grizzly bear(XP_026356764.1)的序列相似度最高,均大于90%;与食蟹猴Crab-eating macaque(XP_005547399.1)、黑 猩 猩 Chimpanzee(NP_001233471.1)、人 Human(NP_001308055.1)、牛Cattle(XP_002697069.2)和 山 羊 Goat(XP_005695935.1)相似度次之,均大于85%(图3A)。9种哺乳动物PHF7氨基酸序列系统进化分析发现,猪与双峰驼和羊驼聚为一支,提示在进化上猪与双峰驼和羊驼亲缘关系较近(图3B)。结构域比对分析发现,猪PHF7氨基酸靠近N端34-145位点处的ePHD(extended plant homeodomain)和248-301处的PHD(plant homeodomain)在不同物种间的氨基酸差异位点个数分别为17和14(图1E、图3C和图3D),表明这两个结构域在哺乳动物间有较高的保守性。
图3 不同哺乳动物PHF7氨基酸序列分析Figure 3 Amino acid sequences analysis of PHF7 from different mammals
蛋白互作网络(PPI)分析显示BMI PHF7与10个蛋白可能存在相互作用,包括Set1/Ash2组蛋白甲基转移酶复合物亚基(ASH2L)、成视网膜细胞瘤结合蛋白5(RBBP5)、赖氨酸特异性去甲基化酶7A(KDM7A)、生精亮氨酸拉链蛋白1(SPZ1)、T复合物11(TCP11)、泛素羧基末端水解酶7(USP7)、胚胎外胚层发育蛋白(EED,多梳抑制复合体2亚基)、多梳抑制复合体2亚基(SUZ12)、激活转录因子7相互作用蛋白(ATF7IP)、F-Box和富含亮氨酸重复蛋白19(FBXL19),其中PHF7与EED和SUZ12蛋白间有最强的相互作用(图4)。
图4 猪PHF7蛋白互作网络Figure 4 Interaction network of pig PHF7 protein
对猪PHF7的功能注释发现,在细胞组分(cellular component)方面,其主要定位于细胞核、核质、细胞质基质、质膜、核小斑(一个离散的核外亚核结构域)、高尔基体。在分子功能(molecular function)方面,主要涉及与金属离子结合方面的功能(图5)。ceRNA网络分析发现:猪PHF7主要受到8个miRNA的靶向调控(表1,图5)。并且有10个lncRNAs可与PHF7竞争性结合ssc-miR-149,5个lncRNAs可与PHF7竞争性结合ssc-miR-769-3p,4个lncRNAs可与PHF7竞争性结合ssc-miR-324,3个lncRNAs可与PHF7竞争性结合ssc-miR-296-3p,分别有1个lncRNA与PHF7竞争性结合sscmiR-133b和ssc-miR-7142-3p(表1,图5)。
图5 PHF7的功能注释及潜在的ceRNA调控网络Figure 5 The functional annotation BMI PHF7 and potential ceRNA regulatory network
表1 PHF7基因ceRNA调控信息Table 1 ceRNA regulate PHF7 gene
本研究通过扩增BMI睾丸cDNA获得了PHF7基因序列1 500 bp(图1B),包括编码序列1 155 bp,编码384个氨基酸(图1C、1E),序列已提交GenBank,获得的基因登录号为OK042304。猪PHF7蛋白包含一个典型的PHD锌指结构域和一个非典型的扩展PHD锌指结构域(图1C、1E),两者都参与转录激活调控。PHD和ePHD组成RING样泛素连接酶域,该酶域在细胞周期调节和细胞对DNA损伤应答的反应中发挥作用[25],还在预防早期胚胎发生中的细胞凋亡中起重要的作用[25],含有该结构域的蛋白还是DNA损伤响应定位的核质穿梭蛋白[26],具有“读码器”功能,能将染色质重塑与基因转录的变化联系起来[27],这些含有PHD结构域的蛋白质[28-31](如组蛋白修饰剂、转录因子和DNA修饰酶)的发现可为基因的靶向治疗提供思路,依赖于PHD结构域对组蛋白密码的识别,可将外源性的PHD结构域蛋白导入人体,从而靶向特定基因的转录激活和抑制。
有研究发现,脊椎动物PHF7基因不是从共同的PHF7祖先进化而来,而是通过来自祖先G2E3的独立复制事件进化而来[17]。在人类中发现的PHF7同源基因(其蛋白包含两个PHD结构域),可以挽救在雄性果蝇PHF7突变体中出现的生殖缺陷,表明该蛋白在调节雄性生殖系发育过程中的功能是保守的[17]。氨基酸序列比对发现,BMIPHF7编码区对应的氨基酸序列与其他哺乳动物的相似度在85%以上,与双峰驼和羊驼的相似度高达90%以上,且和二者聚为一支(图3B),这说明猪PHF7在物种进化过程中较为保守(图3A)。
蛋白互作分析发现,PHF7与ASH2L等10种蛋白存在可能的相互作用。其中,ASH2L和RBBP5之间的相互作用对组蛋白甲基转移酶MLL1复合物的完整性和活性调控至关重要[32-33],ASH2L能够识别RBBP5,介导MLL1复合物组装,调控MLL1酶活性[32]。组蛋白去甲基化酶KDM7A控制前列腺癌的雄激素受体活性和肿瘤生长[34]。SPZ1是一个新的bHLH(basic helix-loop-helix)拉链蛋白,在小鼠睾丸中特异性表达,该转录因子在精子发生中发挥关键作用,可通过结合特定的DNA序列调节细胞的增殖或分化[35]。TCP11蛋白富集于小鼠长形精子细胞中,通过环磷酸腺苷/蛋白激酶A途径使精子获能[36]。USP7是一种对DNA复制至关重要的去泛素化酶[37],也是Wnt/β-catenin信号转导的有效负调控因子[38]。EED和SUZ12是Polycomb repressive complex 2的组成部分,在转录调节过程中发挥关键作用[39]。ATF7IP是一种转录辅助因子,对于基因的激活或抑制起重要作用[40]。FBXL19是E3泛素连接酶SCF(Skp1-Cullin-F-box protein)家族成员,可调节多种细胞反应,包括细胞迁移[41]。这些潜在与PHF7互作的蛋白的发现,为深入理解PHF7的功能提供了思路。
对PHF7功能注释发现,其主要参与金属离子(Ca2+、Zn2+、Cd2+和Cu2+等)的结合过程,保守结构域分析也发现PHF7存在与锌离子结合的位点(图1E)。microRNA(miRNA)是一类负调控基因表达的非编码RNA。靶基因预测发现,PHF7的表达可能 受 ssc-miR-149、ssc-miR-769-3p、ssc-miR-324、ssc-miR-296-3p、ssc-miR-133b、ssc-miR-7142-3p、ssc-miR-27b-3p和 ssc-miR-193a-5p等8个miRNA的调控。ssc-miR-149在巴马小型猪垂体前叶的表达量显著高于长白猪[42],且miR-149参与先天免疫应答、凋亡过程和多个信号通路(I-kappa B knase/NF-kappaB,toll样和肿瘤坏死因子介导信号通路等)的生物学过程[43]。ssc-miR-769-3p属于miR-769家族,人类中的miR-769-3p能够促进细胞凋亡[44]。ssc-miR-324与泛素化相关基因Ube2e1、Ube2v1和Bap1的表达量呈高度负相关[45],另外,miR-324在不育男性的精液中的表达量显著高于正常男性[46]。ssc-miR-296-3p是肿瘤进展过程中的整体抑癌因子,与各种癌症的转移相关[47],miR-296能加速肿瘤进程,还能通过SOCS2/STAT3增强胶质母细胞瘤(GBM)对细胞的侵袭性[48]。sscmiR-133b在细胞转化、肿瘤发生和组织稳态过程中发挥重要作用[49-50]。ssc-miR-7142-3p可以在阉割猪的背部脂肪组织中表达[51]。ssc-miR-27b-3p影响多能脂肪干细胞的分化,能与人PPARγ的3’UTR区应答元件结合降低PPARγ蛋白表达,从而抑制脂肪形成[52],小鼠附睾白色脂肪组织中miR-27b-3p的高表达能够影响脂肪细胞的褐变[53]。ssc-miR-193a-5p可作为癌症发展过程中的抑制因子[54],在前列腺癌组织中高表达[55]。本文通过miRanda和RNAhybrid预测能调控PHF7表达的miRNA,获得的mRNA-miRNA结合自由能均小于-30 kcal,其中,miRanda的预测得分大于150分,RNAhybrid的预测P值小于0.05,所得结果具有较高的可信度。与PHF7竞争miRNA的诸多lncRNA的功能,目前还未有研究报道,有待进一步研究。