王 方,薛剑楠,张艳平,贾存灵,魏泽辉
(西北农林科技大学 动物科技学院,陕西 杨凌 712100)
FOX(forkhead box)家族蛋白能作为转录因子与核酸DNA上特定的保守序列结合从而调节基因的转录,在生物发育、细胞周期调控、糖脂代谢、能量平衡和免疫调节等多种生物过程中都发挥着重要的调控作用[1]。FOXA2是FOXA亚族的一员,FOXA2作为转录因子通过调节靶基因的表达对机体的发育和代谢起作用,转录过程中FOXA2及多个调节因子共同组成转录调节因子复合物从而促进相应蛋白的表达。张猛等[2]研究发现,基因缺陷鼠中FOXA2基因的表达降低,会在一定程度上导致小鼠生长发育迟缓,体重下降,可能造成小鼠心脏房间隔缺损。FOXA2基因的表达会抑制脂肪细胞的分化,在前脂肪细胞中FOXA2能通过激活Pref-1基因的转录来抑制脂肪细胞的分化;在已分化脂肪细胞中,FOXA2的表达会诱导葡萄糖和脂肪代谢相关基因的表达,从而促进脂肪分解和生酮作用,并抑制脂肪分化的标志物PPARγ等的生成[3]。因此,FOXA2基因也是肉用牛肥育和牛肉品质改良的一个重要候选基因。FOXA2基因在同一时期的各组织间存在表达差异,在肝脏中表达丰度均很高,在肌肉和脂肪中表达量较低;在肌肉和脂肪组织中,FOXA2基因的表达量与能量水平负相关,表明FOXA2基因对牛肌肉和脂肪生成的调节可受营养水平影响[4]。研究表明,FOXA2对牛胸围和体重有很大的影响[5]。目前,有关牛FOXA2基因转录调控的研究报道仍比较少。通过对FOXA2基因进行生物信息学分析,有助于深入了解FOXA2转录调控,并分析FOXA2靶基因的生物学功能作用,为牛FOXA2基因的表达和调控机制的进一步研究奠定了基础。
从NCBI(https://www.ncbi.nlm.nih.gov/)数据库中查询下载黄牛、绵羊、小鼠、挪威大鼠、人以及恒河猴6种动物的FOXA2氨基酸序列和CDs区的核酸序列。本研究利用MEGAX(Molecular Evolutionary Genetics Analysis)软件采用邻近相连算法NJ(Neighbor-joining method)构建6种动物的氨基酸序列的系统进化树,泊松模型(Poisson model)计算物种间遗传距离,使用自展法(Bootstrap Method)估计所构建系统进化树的可靠性(5000次),其余参数取默认值。通过NCBI Blast(https://blast.ncbi.nlm.nih.gov/Blast.cgi)程序比较黄牛FOXA2 CDs区与其他5种动物的同源性。
从Ensembl数据库(http://asia.ensembl.org/index.html)中下载黄牛Bos_taurus.ARS-UCD1.2(ftp://ftp.ensembl.org/pub/release-100/fasta/bos_taurus/dna/)参考基因组及注释文件,使用TBtools软件提取黄牛所有基因的启动子区域,在MEME Suit(http://memesuite.org/)中使用CentriMo 5.1.1对所有基因的转录因子结合位点进行富集分析。筛选出具有FOXA2转录因子结合位点的基因。启动子区域中含有FOXA2模体序列的基因在R中使用goProfiles包进行GO功能注释,使用DAVID(https://david.ncifcrf.gov/)在线软件进行KEGG通路富集分析。
1.3.1 核心启动子预测 从NCBI(https://www.ncbi.nlm.nih.gov/)中获取FOXA2基因起始密码子ATG前2 000 bp长度的序列为启动子区域,利用启动子生物信息学预测软件Neural Network Promoter Prediction(http://www.fruitfly.org/seq_tools/promoter.html)选择真核生物以0.9的最低分数标准筛选核心启动子区,TSSG(http://linux1.softberry.com/all.htm)用于预测转录起始位点和TATA盒。
1.3.2 CpG岛分析 利用CpG岛分析工具EMBOSS Cpgplot(http://emboss.bioinformatics.nl/cgi-bin/emboss/cpgplot)、MethPrimer(http://www.urogene.org/methprimer/)和CpG Finder(http://linux1.softberry.com/all.htm)以GC Percent>50,Length>100,Obs/Exp>0.6为标准进行CpG岛的检测。
1.3.3 转录因子结合位点预测 使用PROMO(http://alggen.lsi.upc.es/cgi-bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8.3)最大矩阵相异率参数调整为10筛选转录因子结合位点。
由表1可见,黄牛和绵羊的编码序列最长,而人和恒河猴的编码序列最短。通过NCBI Blast比对分析黄牛FOXA2基因的CDs序列与绵羊、小鼠、挪威大鼠、人、恒河猴的同源性结果为:98.86%,89.15%,88.72%,94.09%,93.45%。黄牛FOXA2与5种动物之间的都有较高的同源性,尤其是和绵羊的同源性更是高达98.86%。
由图1可见,6种动物被聚类为两个大类三个小组,黄牛和绵羊为一组,小鼠和挪威大鼠为一组,人和恒河猴为一组。表明在这6种动物中黄牛和绵羊的进化距离较近,挪威大鼠和小鼠之间的进化距离较近,人与恒河猴之间的进化距离较近。从遗传距离矩阵(表2)分析结果也可以看出同样的结果。
表2 不同动物的遗传距离矩阵
图1 6种动物FOXA2系统进化树
使用CentriMo 5.1.1对黄牛所有基因的启动子区域进行模体富集分析,发现有11026个基因的启动子区域存在可与FOXA2结合的模体序列。由图2可以看出,各部分富集基因数目前5的分别是:(1)生物过程:细胞过程、生物调控、生物过程调控、刺激反应、细胞成分组织或生物发生;(2)细胞成分:细胞、细胞组分、细胞器、细胞器组分、膜;(3)分子功能:结合、催化活性、分子功能调节剂、转运活性、结构分子活性。
图2 GO功能注释
对存在FOXA2结合模体的11026个基因进行KEGG分析,发现基因在81条通路上显著富集,选择显著性最强的前20条通路用气泡图表示,如图3所示。这些基因主要参与T细胞受体信号通路、前列腺癌、孕酮介导的卵母细胞成熟、胶质瘤、白细胞经内皮细胞迁移、柠檬酸盐循环(TCA循环)、子宫内膜癌、Ras信号通路、癌症中的蛋白多糖、FcγR介导的吞噬作用、Epstein-Barr病毒感染、代谢途径、肿瘤坏死因子信号途径、FoxO信号通路、HTLV-I感染、丙酮酸代谢、抗生素的生物合成、AMPK信号通路、乙型肝炎、剪接体等信号通路。
图3 KEGG通路富集
对黄牛FOXA2基因起始密码子ATG前2 000 bp的启动子区域使用Neural Network启动子预测软件进行在线分析,以0.9的标准得到潜在的启动子位置,结果如表3所示,启动子序列中加粗的碱基为预测到的转录起始位点(TSS)。预测结果显示启动子可能位于914~964 bp、1 120~1 170 bp、1 520~1 570 bp和1 528~1 578 bp处。其中914~964 bp的得分达到了1.00,1 120~1 170 bp和1 528~1 578 bp两处得分也达到了0.99。
表3 Neural Network Promoter Prediction基因启动子预测结果
对2 000 bp启动子区域序列使用TSSW预测结果发现两个可能的转录起始位点302和1 568 bp处,其中1 568 bp前的1 537 bp处还存在构成真核生物启动子的元件TATA框。
CpG岛是基因上富含连续未甲基化的CG碱基对区域,主要处于基因的启动子和外显子,在基因的转录过程中发挥着重要的作用。用CpG岛在线分析软件EMBOSS Cpgplot和MethPrimer对FOXA2基因启动子区域进行预测,发现两种软件检测出来的结果一致(图4),均在765~1 012 bp,1 071~1 245 bp,1 292~1 454 bp和1 462~1 942 bp四处富含CpG岛。又使用CpG Finder对相同序列进行了检测(表4),共检测出9处富含CpG岛的区域,与cpgplot和MethPrimer预测的结果进行比较发现除了7、8、9三个含CpG岛较少的区域,其他6个区域均处于前两种方法预测的区域范围内。
表4 CpG Finder预测结果
图4 Cpgplot和MethPrimer CpG岛检测结果
对2 000 bp启动子区域使用PROMO进行转录因子结合位点的预测,发现存在664个转录因子结合位点涉及到68个转录因子,68个转录因子中的绝大多数都有多个结合位点,其中核心启动子区预测到16个转录因子(表5)。
表5 PROMO核心启动子区预测的转录因子
生物发育多个阶段的基因表达都会受到不同的调控,如DNA和染色体水平的调控、转录水平的调控、转录后加工的调控、翻译水平调控和翻译后水平调控。真核生物中基因表达调控中最重要最复杂的是转录水平的调控[6],在转录起始阶段,细胞接收到外界信号的刺激后会激活某些转录因子,被激活的转录因子结合到DNA上相应的结合位点,将RNA聚合酶及转录过程中需要的蛋白吸引到基因相应的转录起始位点附近启动转录过程。
黄牛FOXA2基因位于13号染色体上,编码467个氨基酸。本试验选取6种哺乳动物的FOXA2基因的氨基酸序列进行分析,显示黄牛和绵羊的进化距离最近,与在NCBI上序列同源性比对的结果一致,从遗传距离矩阵分析也可以发现FOXA2基因在进化上比较保守。对黄牛上所有存在与FOXA2结合模体序列的基因进行GO和KEGG富集分析发现,基因还被显著富集到了FoxO信号通路、AMPK信号通路、mTOR信号通路、胰岛素信号途径、cAMP信号通路、MAPK信号通路、PI3K-Akt信号通路等在生长增殖、细胞分化和糖脂代谢上发挥重要作用的通路上。
基因启动子核心区是基因在表达调控过程中发挥关键性作用的一小段DNA序列,它负责招募转录起始复合物到基因的起点,从而开始转录。通过使用2种不同的软件对黄牛FOXA2基因的启动子核心区进行预测,并结合3种CpG岛分析软件分析的结果,表明黄牛FOXA2基因的核心启动子最可能在启动子区域的1 528~1 578 bp处。本研究发现,16个转录因子在FOXA2的核心启动子处结合。其中,核心启动子区的转录因子Sp1、GATA1、GATA2、CREB、C/EBPβ和E2F-1,以及核心启动子区上游100 bp以内的转录因子USF2可能在黄牛FOXA2的表达和功能的发挥上起到重要作用。转录因子Sp1是属于Sp/KLF家族成员的反式激活子,其主要特征是含有锌指结构[7],可通过锌指结构与富含GC的DNA区域相结合调控相关基因的表达,参与细胞增殖、分化及凋亡过程[8-9]。正常情况下,Sp1在生物体内广泛表达,其结合位点在转录激活的结构域中的分布也非常广泛[10-13],在FOXA2的核心启动子区域内发现存在着Sp1的结合位点,表明Sp1可能调控着FOXA2基因的表达。GATA1、GATA2属于锌指转录因子家族,GATA1既具有转录激活又具有转录抑制功能,GATA2只具有转录激活功能。这两个转录因子可能对FOXA2的转录起着调控作用。脂肪的生成是一个被高度调控的过程,主要受CCAAT/增强子结合蛋白(CCAAT/enhancer binding protein, C/EBP)家族和过氧化物酶体增殖物激活受体γ(peroxisome proliferator-activated receptor gamma, PPARγ)两类主要转录因子激素诱导的协同表达和激活调控[14-15],C/EBPα和C/EBPβ在肝细胞中共同表达,其中C/EBPα调节肝细胞特异性基因的表达,其蛋白产物与葡萄糖、脂质和循环稳态相关[16]。HNF6能与C/EBPα形成C/EBPα-HNF6蛋白复合物刺激CREB结合蛋白(CBP)共激活蛋白的募集,促使FOXA2的表达[17]。C/EBPβ能通过调节其邻近的启动子元件激活PPARγ和C/EBPα基因发挥其在脂肪分化过程中的重要作用[18]。FOXA2通过将CREB和GR募集到染色质中各自的靶位点来介导糖异生酶基因的激活从而参与到糖代谢的过程中[19]。黄牛FOXA2启动子核心区有C/EBPβ和CREB的结合位点可能与其在细胞周期和脂质代谢方面的功能相关。E2F1是具有激活结构域和抑制结构域的转录因子,被认为是对细胞周期进程发挥重要调控功能的蛋白。E2F1在早期脂肪细胞分化过程中激活PPARγ基因的表达[20],FOXA2基因在脂肪细胞分化进程中的功能在可能受到转录因子E2F1调控。上游转录因子(upstream stimulatory factor, USF)是广泛存在于哺乳动物中的一种序列特异性转录因子,其功能多样和细胞生长、糖脂代谢、肾脏疾病和牙齿发育密切相关[21]。Auer等[22]的研究表明USF1可以激活FOXA2的转录,而对于转录因子结合位点的研究结果显示在核心启动子上游100bp以内存在USF2结合位点,可能会激活FOXA2的转录。启动子是基因的重要组成部分,是真核生物基因表达调控的顺式作用元件,控制基因表达的起始和丰度[23]。所以了解启动子的功能和活性对于研究转录水平调控十分重要。除了上面的几种在本研究中讨论的转录因子外,仍有在牛FOXA2基因的表达过程中发挥作用的转录因子,有待于我们进行更深一步的研究。
本研究对黄牛FOXA2基因的CDs序列和氨基酸序列进行分析发现该基因的在进化上的保守性。对FOXA2靶基因的进行GO和KEGG分析验证了FOXA2基因的功能作用。通过各种工具对启动子区域的启动子进行预测和CpG岛分析确定启动子区域的1 528~1 578 bp处可能是FOXA2基因的启动子核心区。转录因子结合位点的分析表明Sp1、GATA1、GATA2、CREB、C/EBPβ、E2F-1和USF2等转录因子可能对FOXA2的在糖脂代谢以及脂肪细胞分化等功能中表达起到重要作用。