王文栋,苏翰博,樊茜茜,李喜龙,常晓彤
(河北北方学院医学检验学院,河北 张家口 075000)
生物具有近似24 h昼夜周期的生活节律,这种昼夜节律(circadian rhythm)通过生物钟基因及其编码的蛋白质组成的转录-翻译反馈环路实现[1]。生物钟基因通过作用下游基因调节机体的内分泌和代谢途径[2]。研究表明,生物节律紊乱(biological rhythm disorder, BRD)与许多疾病的发生密切相关,例如肥胖、抑郁症、阿尔兹海默症、肿瘤及心血管疾病等[3-7]。
动脉粥样硬化(atherosclerosis,AS)严重危害人类健康,是引起心脑血管疾病的主要原因,给整个世界医疗体系带来了巨大的负担[8]。动脉粥样硬化的发生受遗传与环境因素共同影响,属于多基因疾病,其病理过程复杂,关联疾病较多[9],冠状动脉粥样硬化是冠心病(coronary heart disease, CHD)的病理基础,可导致心肌缺血、缺氧,给机体造成巨大损伤,属于临床常见的慢性疾病[10]。冠心病具有明显的清晨高发时段,这种现象可能与昼夜节律波动的生理功能相关[11],由此可见,冠心病与生物钟密切相关,但具体分子机制尚不明确。
目前,生物信息学在基因功能研究、蛋白结构预测、精准医学、药物设计和法医鉴定等领域发挥重要作用。本研究从NCBI(national center of biotechnology information,http://www.ncbi.nlm.nih.gov/)的GEO数据库(gene expression omnibus,http://www.ncbi.nlm.nih.gov/geo/)中获取冠心病基因表达芯片数据GSE71226[12],筛选出488个冠心病差异表达基因(coronary heart disease differentially expressed genes, CHD-DEGs)。以哺乳动物的12个核心生物钟基因(CLOCK、CSNK1E、CRY1、CRY2、PER1、PER2、PER3、NPAS2、ARNTL、RORA、NR1D1 和NR1D2)为中心[13-15],通过文本挖掘和蛋白互作分析获得64个生物钟相关基因(biological clock related genes, BRGs)[16-17]。利用生物信息学方法将CHD-DEGs进行基因本体(gene ontology, GO)功能注释[18]和信号通路富集分析,构建CHD-DEGs与BRGs编码产物的互作网络,筛选出BRGs关联的CHD-DEGs,即钟控冠心病分子靶点。通过对钟控冠心病基因的挖掘、筛选和分析,寻找冠心病治疗的分子靶点,为探究昼夜节律紊乱诱导的冠心病分子机制、诊断和治疗方法提供线索和数据支撑,并为昼夜节律紊乱与疾病的预防和治疗提供新思路。
1.1.1 冠心病差异表达基因挖掘
在NCBI的GEO数据库中以“Coronary Heart Disease AND human [organism]”检索人类冠心病基因表达芯片实验数据,下载GSE71226数据集,其中包括3个冠心病患者样本(GSM1830987、GSM1830988、GSM1830989)和3个正常对照样本(GSM1830990、GSM1830991、GSM1830992),实验平台为Affymetrix Human Genome U133 Plus 2.0 Array。分别利用R软件的limma和pheatmap包对GSE71226芯片数据进行标准化处理、差异表达分析(P.Value<0.05;fold-change≥2)和聚类分析,获得差异表达基因的火山图和聚类热图。
1.1.2 生物钟关联基因的挖掘
以哺乳动物的12个核心生物钟基因,即CLOCK、CSNK1E、CRY1、CRY2、PER1、PER2、PER3、NPAS2、ARNTL、RORA、NR1D1 和NR1D2为中心,通过文本挖掘、GeneCards数据库(https://www.genecards.org/)[19]和STRING 11.0蛋白质互作在线分析工具(https://string-db.org/cgi/input.pl)[20]挖掘BRGs。
GO功能注释是高通量基因数据功能分析的常用方法,通过使用DAVID数据库(Visualization,Annotation and Integrated Analysis,https://david.ncifcrf.gov)[21]分别将CHD-DEGs和BRGs关联到生物学功能注释、疾病注释上,找出最显著富集的生物学功能注释,并通过R软件的“ggplot2”数据包和Cytoscape 3.6.1软件[22]完成图形可视化。
通过STRING 11.0在线分析工具对488个CHD-DEGs和64个BRGs进行互作关联分析,筛选出28个CHD-DEGs的编码蛋白(DBF4、HAUS6、HAUS1、WDR75、MPHOSPH10、HAUS3、UBB、CDC34、UBA52、OBFC1、WRN、GMNN、RIOK1、SMURF2、OFD1、CEP135、MYOD1、UBA3、CNTRL、DEC1、EGR1、REV3L、ERCC3、MKRN1、PPP1R1B、NCAPD3、TOP2B和PURB)与22个BRGs编码蛋白(CDC45、MCM7、TIMELESS、TIPIN、MCM3、MCM2、POLA1、CRY2、ARNTL、HIF1A、EP300、PER1、CSNK1E、BLM、ATR、HDAC3、NCOR1、CSNK1D、MED1、BTRC、GSK3B和CLSPN)之间存在较强的关联性,进而使用Cytoscape 3.6.1软件对28个CHD-DEGs与22个BRGs构建编码产物蛋白的互作网络,最终根据CHD-DEGs与BRGs互作关系,筛选出与生物钟相关的钟控CHD-DEGs基因。
利用UCSC数据库(http://genome.ucsc.edu/cgi-bin/hgGateway)[23]和MapGene2Chrom web v2在线分析工具(http://mg2c.iask.in/mg2c_v2.0)[24]对488个CHD-DEGs与64个BRGs进行染色体定位和可视化分析,确定488个CHD-DEGs与64个BRGs的染色体确切位置,论证在染色体水平CHD-DEGs与BRGs之间存在的关联。
利用R软件的limma包对GSE71226数据集进行DEGs筛选(P.Value<0.05,fold-change≥2),获得488个CHD-DEGs,其中包括207个上调基因和281个下调基因(图1A)。利用R软件的pheatmap包将CHD-DEGs进行聚类分析,患病组(CHD)与正常组(normal)相比,差异表达显著(图1B)。以核心生物钟基因为中心,通过文本挖掘、GeneCards数据库和STRING互作分析获得了64个BRGs(其中包括核心生物钟基因CLOCK、CSNK1E、CRY1、CRY2、PER1、PER2、PER3、NPAS2、ARNTL、RORA、NR1D1 和NR1D2),见图2,其中ATR基因既是BRGs,又属于CHD-DEGs。
图1 冠心病差异表达基因火山图(A)和前10个冠心病差异表达基因的聚类热图(B)
圆形代表核心生物钟基因,菱形代表生物钟相关基因。图2 生物钟相关基因的互作网络
利用DAVID数据库将筛选获得的488个CHD-DEGs关联到GO生物学功能注释上(FDR≤0.05 和 Count≥10 genes),主要包括(图3A):核酸结合(nucleic acid binding,包含SMARCAD1、ZNF83和ZFP14等51个基因);转录调节(regulation of transcription,包含ITGB3BP、E2F2和ZNF83等63个基因);细胞核(nucleus,包含ITGB3BP、MYOD1和HMGN3等165个基因);有丝分裂细胞周期的G2/M转换(G2/M transition of mitotic cell cycle,包含OFD1、HAUS3和HAUS6等11个基因);DNA结合(DNA binding,包含ZMAT1、E2F2和ZNF83等58个基因);金属离子结合(metal ion binding,包含ZMAT1、MKRN1和ZNF83等69个基因);转录(transcription,包含ITGB3BP、ZNF83和ZFP14等66个基因);mRNA加工(mRNA processing,包含APOBEC2、PAN3和METTL3等11个基因);I-κb激酶/NF-κb信号转导正调节(positive regulation of I-kappaB kinase/NF-kappaB signaling,包含TRIM5、APOL3和TMEM9B等10个基因);特异性DNA序列转录因子结合活性(transcription factor activity,sequence-specific DNA binding,包含E2F2、BTAF1和ZNF83等35个基因);细胞内(intracellular,包含ALDH8A1、FGF6和ZNF83等44个基因);细胞核(nucleoplasm,包含ITGB3BP、MYOD1和E2F2等82个基因);多聚核糖核酸结合[poly(A) RNA binding,包含MKRN1、FASTKD1和U2SURP等39个基因];核苷酸结合(nucleotide binding,包含PABPN1、NOL8和SRSF11等15个基因)。由此可见,CHD-DEGs主要位于细胞核内,参与复制、转录和转录调控等过程。
将64个BRGs关联到GO生物学功能注释上(FDR≤0.05和Count≥10 genes),主要包括(图3B):转录(transcription,包含CEBPA、BTRC和RORB等19个基因);转录因子结合(transcription factor binding,包含CEBPA、HDAC3和HIF1A等12个基因);特异性DNA序列转录因子结合活性(transcription factor activity,sequence-specific DNA binding,包含CEBPA、BATF2和EPAS1等17个基因);序列特异性DNA结合(sequence-specific DNA binding,包含HIF1A、BATF2和EPAS1等11个基因);昼夜节律调节(regulation of circadian rhythm,包含NONO、CRY2和CSNK1D等12个基因);蛋白质结合(protein binding,包含PDP1、CLSPN和BTRC等50个基因);转录正调控(positive regulation of transcription,包含BLM、BTRC和PPM1A等16个基因);RNA聚合酶II启动子转录正调控(positive regulation of transcription from RNA polymerase II promoter,包含CEBPA、EPAS1和ROR等18个基因);细胞核(nucleus,包含PHLPP1、BLM和BTRC等48个基因);核浆(nucleoplasm,包含CLSPN、BLM和BTRC等36个基因);转录负调控(negative regulation of transcription,包含CEBPA、BTRC和RORB等19个基因);核糖核酸聚合酶2启动子转录负调控(negative regulation of transcription from RNA polymerase II promoter,包含CEBPA、PPM1A和SIRT1等19个基因);复制(DNA replication,包含CLSPN、CDC45和MCM7等11个基因);DNA结合(DNA binding,包含CEBPA、CLSPN和BATF2等23个基因);昼夜节律(circadian rhythm,包含RORC、ARNTL和NRIP1等19个基因);基因表达的昼夜调节(circadian regulation of gene expression,包含RORC、RORA和ARNTL等17个基因)。由此可见,BRGs主要参与复制、转录、转录正负调控和昼夜节律基因表达调节等过程。
图3 CHD-DEG(A)和BRGs(B)的DAVID基因功能注释图
488个CHD-DEGs关联到疾病的生物学功能注释上(FDR≤0.05和Count≥3 genes),主要包括:免疫(immune,包含BACH2、PTGS2和TACR2等85个基因);哮喘(asthma,包含EGR1、RNASE3和PTGS2等17个基因);白血病(leukemia,包含POLL、E2F2和IL4R等12个基因);类风湿性关节炎(rheumatoid arthritis,包含MTHFD1、PTGS2和IL4R等9个基因);牙周炎(periodontitis,包含IL1R2、COL17A1和PTGS2等7个基因);感染(infection,包含MTHFD1、IL1R2和PTGS2等7个基因);炎症(inflammation,包含IL1R2、IRX3和NOL8等6个基因);肾脏衰老(kidney aging,包含NOV、COL17A1和C3等6个基因);HIV感染(HIV infections,包含APOBEC3B、IL4R和DEFA4等5个基因)、疟疾(malaria,包含GYPB、GYPC和GYPA等4个基因);心绞痛(angina,包含MMP9、PLA2G7和ITGA3共3个基因);疾病(disease,包含TAF3、MMP9和CCDC91共3个基因);急性冠脉综合征(acute coronary syndrome,包含PTGS2、MMP9和PLA2G7共3个基因);霍奇金病(hodgkin disease,包含PTGS2、IL4R和TLR8共3个基因)。CHD-DEGs异常表达主要与免疫应答和炎症有关(图4)。64个BRGs关联到疾病的生物学功能注释上(FDR≤0.05和Count≥3 genes),主要包括:2型糖尿病(type 2 diabetes,包含EPAS1、BLM和RORA等21个基因);睡眠障碍(sleep disorders,包含TIPIN、RORA和ARNTL等18个基因);精神分裂症(schizophrenia,包含RORB、ARNTL和NPAS2等16个基因);心理(PSYCH,包含CLSPN、RORB和RORA等26个基因);前列腺肿瘤(prostatic neoplasms,包含NPAS2、CRY2和CSNK1E等5个基因);前列腺癌(prostate cancer,包含NPAS2、HIF1A和CRY2等13个基因);血浆HDL胆固醇水平[plasma HDL cholesterol (HDL-C) levels,包含CEBPA、EP300和GSK3B等7个基因];其他(OTHER,包含EPAS1、BLM和PGC等24个基因);肥胖(obesity,包含CEBPA、CRY2和DBP等8个基因);乳腺癌(breast cancer,包含CLSPN、BLM和ATR等16个基因);代谢综合征(metabolic syndrome,包含NPAS2、CRY2和TIMELESS等8个基因);昼夜偏好(diurnal preference,包含PER2、PER1和PER3等4个基因);抑郁(depression,包含RORA、ARNT和、NPAS2等19个基因);可卡因滥用(cocaine abuse,包含PER2、PER1和CLOCK共3个基因);癌症(cancer,包含CLSPN、BLM和PGC等34个基因);双相情感障碍(bipolar disorder,包含CLSPN、RORB和RORA等20个基因);自闭症(autism,包含NPAS2、MCM7和CSNK1E等8个基因);酗酒(alcoholism,包含NPAS2、CRY2和TIMELESS等10个基因)。BRGs主要与精神疾病、睡眠障碍和癌症的发生密切相关(图4)。ATR基因与癌症和白血病的发生密切相关,同时将CHD-DEGs和BRGs的疾病注释建立关联。
利用STRING在线分析工具和Cytoscape 3.6.1对488个CHD-DEGs与64个BRGs的编码产物进行互作分析,发现有28个CHD-DEGs的编码蛋白(DBF4、HAUS6、HAUS1、WDR75、MPHOSPH10、HAUS3、UBB、CDC34、UBA52、OBFC1、WRN、GMNN、RIOK1、SMURF2、OFD1、CEP135、MYOD1、UBA3、CNTRL、DEC1、EGR1、REV3L、ERCC3、MKRN1、PPP1R1B、NCAPD3、TOP2B和PURB)与22个BRGs编码蛋白(CDC45、MCM7、TIMELESS、TIPIN、MCM3、MCM2、POLA1、CRY2、ARNTL、HIF1A、EP300、PER1、CSNK1E、BLM、ATR、HDAC3、NCOR1、CSNK1D、MED1、BTRC、GSK3B和CLSPN)之间发生直接互作,且UBB、UBA52、TIMELESS、MCM3、POLA1、CRY2、ARNTL、CSNK1E、ATR和BTRC是互作网络中的中心节点蛋白(与之互作的蛋白数目>10个)(图5A)。ATR既是BRGs,也是CHD-DEGs;CRY2、ARNTL和CSNK1E是核心生物钟基因,其中CHD-DEGs UBB、UBA52、DEC1和EGR1可以与CRY2直接互作;DEC1和MYOD1可以与ARNTL直接互作;而OFD1、RIOK1、MPHO10、WDR75、HAUS6、CEP135、HAUS1、CNTRL、HAUS3、DEC1和PPP1R1B可以与CSNK1E发生直接互作;UBA52和UBB作为CHD-DEGs的中心节点蛋白,分别与BGRs即 EP300、ATR、GSK3B、MCM7、MCM2、NCOR1、PER1、BTRC、BLM、NCOR1、EP300和MCM2发生直接互作。
A中圆形代表疾病注释,菱形代表基因 ;B中圆形代表BRGs,方块代表TLR1-10,菱形代表CHD-DEGs。图4 CHD-DEGs和BRGs疾病生物学功能注释关联图(A)和与TLR1-10关联的CHD-DEGs和BRGs(B)
A中圆形越大,代表蛋白在网络构建中越重要;B中圆形代表生物钟相关基因,方块代表冠心病差异表达基因。图5 28个CHD-DEGs与22个BRGs编码蛋白的互作网络(A)及中心节点蛋白关系(B)
联合使用UCSC数据库和MapGene2Chrom web v2在线分析工具对488个CHD-DEGs和64个BRGs进行染色体定位和可视化。CHD-DEGs主要分布于1和19号染色体上,在13、18、21、22号染色体上基因分布偏少;64个BRGs主要位于染色体3、11、17号,所有基因均未分布在Y染色体上(图6)。基因分布具有连锁特征,表明这些基因可能具有相关的功能。
图6 488个CHD-DEGs和64个BRGs的染色体定位
随着大数据时代的到来,生物学数据增长迅猛,积累了丰富的实验数据资源,为冠心病等疾病的研究提供了数据平台。GEO数据库是目前世界最大的储存高通量数据的公共数据资源库[25],利用GEO挖掘获得冠心病的高通量实验数据进行研究分析,有利于进一步阐明其发病机制。
最近有研究表明,心血管的功能机理与生物钟密切相关,且多种心血管疾病的发生都具有昼夜节律性[26]。生物节律的紊乱可能会诱发动脉粥样硬化的发生[27],而动脉粥样硬化是冠心病的病理基础。本研究通过筛选出488个CHD-DEGs和64个 BRGs,发现CHD-DEGs主要分布于1、19号染色体上,BRGs主要位于3、11和17号染色体上,所有基因均未出现在Y染色体上。CHD-DEGs和BRGs具有连锁分布的特点,且具有一定关联性。通过DAVID富集分析发现,CHD-DEGs主要位于细胞核内,参与复制、转录和转录调控等过程,BRGs主要参与复制、转录、转录正负调控和昼夜节律基因表达调节等过程,CHD-DEGs和BRGs多数基因均与转录调控相关。另外,488个CHD-DEGs主要关联到免疫、炎症和急性冠脉综合征等相关的14个疾病生物学功能注释上,由此可见CHD-DEGs异常表达主要与免疫应答和炎症有关。而64个BRGs主要关联到精神疾病、肥胖、癌症和糖尿病等18个疾病生物学功能注释上。其中ATR基因与癌症和白血病的发生密切相关,同时将CHD-DEGs和BRGs的疾病注释建立关联。
通过Cytoscape互作分析发现有28个核心CHD-DEGs的编码蛋白与22个核心BRGs编码蛋白之间发生直接互作,其中UBB、UBA52、TIMELESS、MCM3、POLA1、CRY2、ARNTL、CSNK1E、ATR和BTRC是互作网络中的10个中心节点蛋白。CHD-DEGs UBB泛素化突变将会导致神经细胞损伤,进而导致神经性疾病的发生[28],UBB可与BRGs NCOR1、EP300和MCM2发生直接互作,有研究表明,EP300的高表达会诱导促炎趋化因子的表达,进而可能诱发冠心病[29-30];CHD-DEGs UBA52与泛素化过程密切相关,可促进非小细胞肺癌的细胞周期进程[31],与BRGs EP300、ATR、GSK3B、MCM7、MCM2、NCOR1、PER1、BTRC和BLM直接互作;节律因子TIMELESS在直肠癌、肝癌细胞、宫颈癌中的异常表达与肿瘤大小、分化、增殖情况密切相关[32-34];MCM2、MCM3异常表达与宫颈癌的发生密切相关[35-36];POLA1、ATR和CSNK1E对DNA复制及细胞的增殖分化具有调控作用,ATR和CSNK1E属于丝氨酸/苏氨酸蛋白激酶;ARNTL、CSNK1E和CRY2属于核心生物钟基因,ARNTL蛋白与CLOCK可形成异二聚体,与E-box增强子元件结合,激活周期蛋白基因PER1、 PER2和PER3及隐花色素基因CRY1、CRY2的转录,而ARNTL基因缺陷会导致不孕、脂肪代谢紊乱以及昼夜节律的改变[37-40]。CHD-DEGs DEC1和MYOD1可以与ARNTL发生直接互作;CSNK1E则是调控机体细胞生长增殖、能量代谢、昼夜节律等生命活动的主要信号通路[41-42],而CHD-DEGs OFD1、RIOK1、MPHOSPH10、WDR75、HAUS6、CEP135、HAUS1、CNTRL、HAUS3、DEC1和PPP1R1B可以与CSNK1E发生直接互作;节律因子隐花色素基因CRY2与骨肉瘤的生长和增殖有重要调控作用[43],CHD-DEGs UBB、UBA52、DEC1和EGR1可以与生物节律因子CRY2直接互作。ATR既是BRGs,也是CHD-DEGs,是DNA修复过程中的关键调控基因[44],BTRC与胶质瘤细胞的迁移、侵袭和增殖有关[45]。近些年来与心血管疾病相关的生物钟研究报道,大多数以Clock/BMAL(BMAL 1,BMAL 2)/PER(PER 1、PER 2和PER 3)等基因为核心,如Takeda等[46]、Maemura等[47]、Wang等[48]的研究。而本研究又发现其他与冠心病相关联的新生物钟基因(CDC45、MCM7、TIMELESS、TIPIN、MCM3、MCM2、POLA1、ARNTL、HIF1A、EP300、CSNK1E、BLM、ATR、HDAC3、NCOR1、CSNK1D、MED1、BTRC、GSK3B和CLSPN),这些基因往往研究不够深入,相关研究报道较少,但通过蛋白互作网络图发现这些基因却与心血管疾病存在着千丝万缕的联系,需要更深一步地对其进行研究。
并且通过上述的蛋白互作网络分析,还发现免疫系统与冠心病的发生同样可能存在着密切的关联[49],其中Toll样受体家族是重要的免疫模式识别受体,能够激活特定的免疫信号通路,诱发炎症反应[50]。以Toll样受体4(toll-like receptor 4, TLR4)为例,当病原微生物入侵机体时,其表面的脂多糖/脂多糖结合蛋白(LPS/LBP)复合物会与CD14分子相结合形成脂多糖/脂多糖结合蛋白(LPS/LBP)/CD14复合物,并使细胞活化[51]。TLR4通过识别并且结合(LPS/LBP)/CD14复合物,进而激活下游信号分子,最终释放炎症因子,诱发下游的炎症反应[52]。免疫通路中释放的炎症因子所介导的炎症反应与动脉粥样硬化的产生密切相关[53]。其他Toll样受体激活通路及作用机制可能有所不同,但是大多都会释放炎症因子,诱发炎症反应。本研究发现有8个BRGs(EP300、ARNTL、TIMELESS、BTRC、CSNK1D、CSNK1E、CRY2和GSK3B)和12个CHD-DEGs(UBA52、CHI3L1、REV3L、PGLYRP、ERCC3、GMNN、SMURF2、CDC34、WRN、UBB和UBA3、MKRN1)与Toll样受体1-10(TLR1、TLR2、TLR3、TLR4、TLR5、TLR6、TLR7、TLR8、TLR9、TLR10)存在着密切的互作关系,广泛地参与免疫系统的相关调控过程。暗示生物钟基因的异常可能通过免疫系统间接地与冠心病的发生存在关联。并且Heipertz等[54]研究表明,在一定程度上一些Toll样受体家族(TLR2,TLR4)会随着昼夜节律对脓毒血症的严重程度产生一定的影响,即通过调控免疫系统对炎症反应的程度产生一定的影响。炎症反应对动脉粥样硬化乃至冠心病的发生都起着重要的促进作用。
由此可见,CHD-DEGs和BRGs主要参与转录调控等过程,被关联到免疫、炎症和癌症等疾病的生物学功能注释上。UBB、UBA52、TIMELESS、MCM3、POLA1、CRY2、ARNTL、CSNK1E、ATR和BTRC是CHD-DEGs和BRGs编码蛋白互作网络中的10个中心节点蛋白,这些基因的异常表达与生物钟紊乱诱导冠心病的发生存在密切关联,为冠心病的研究和治疗提供了重要的生物分子靶标。对于进一步研究生物节律紊乱与冠心病的发生机制,探讨以上基因的具体作用,需进行进一步的分子实验验证。