席义博, 张皓旻, 杨 波, 陈熙勐1,, 贺培凤, 卢学春,
(1. 山西医科大学管理学院, 太原 030001; 2. 解放军总医院南楼血液科, 国家老年疾病临床医学研究中心 北京 100853)
肝细胞癌 (hepatocellular carcinoma, HCC) 是原发性肝癌中最常见的类型,占原发性肝癌的83%,也是全球癌症死亡的第二大主要原因[1]。HCC遗传异质性强,疾病发生发展中涉及到很多基因的改变及相互作用,这也是其复发、转移及耐药的分子学基础。目前已有大量关于HCC预后相关基因的报道[2, 3],其中多数研究探讨某个基因与HCC预后的关系,其结果具有一定的局限性且缺乏临床大宗病例验证,因此在临床评估HCC预后中受到限制。当前,已进入二代测序驱动的精准医学时代,海量的基因组、表观基因组和蛋白质组的数据层出不穷,这为人类从多组学角度研究肿瘤发生、发展及转移提供了良好的契机。
本课题组在前期建立了“疾病-药物多组学大数据临床生物信息学分析平台”[4-12]的基础上,本研究利用GEO和TCGA数据库中HCC的全基因组表达谱数据和临床生存信息,筛选HCC预后不良的相关基因,以期为临床指导HCC危险分层提供依据。
美国国立生物技术信息中心 (national center for biotechnology information, NCBI) 是生物信息学研究的重要工具和服务资源,基因表达综合数据库 (gene expression omnibus, GEO)是其中的一个国际公共高通量微阵列数据库。从GEO (https://www.ncbi.nlm.nih.gov/geo) 获取HCC的基因表达谱芯片数据GSE84402,其中包含9例HCC组织样本和9例癌旁正常组织样本,该数据使用HumanGenomeU133Plus2.0 Affymetrix表达谱芯片平台GPL570完成注释。此外,从癌症基因组图谱数据库 (the Cancer Genome Atlas, TCGA) 中获取到129例包含完整生存时间的HCC样本。本研究的分析流程(图1)。
Fig. 1 Analysis flow chart of this study
使用R语言程序包Impute (http://www.bioconductor.org/packages/release/bioc/) 对数据GSE84402进行缺失值的补充,使用R语言程序包Limma (http://www.bioconductor.org/packages/release/bioc/) 进行数据标准化并分析中9例HCC样本与9例癌旁正常组织的基因表达情况,根据Benjamini和Hochberg提出的方法修正原始P,并以FDR<0.05,|logFC|≥2作为DEGs的筛选阈值。对DEGs的表达谱数据进行聚类分析并构建热图,使用Origin lab (https://www.originlab.com/)进行可视化分析。
String蛋白相互作用数据库 (https://string-db.org/ version 10.5) 是关于已知或预测的蛋白质间相互作用的生物数据库。使用String构建蛋白质互作用网络 (protein-protein interation, PPI),以可信度评分>0.9为筛选阈值,删除无关联的孤立点,导出TSV格式的数据文件。Gephi (https://gephi.org version 0.9.2) 是一款开源免费的跨平台复杂网络分析软件。将TSV格式的数据导入Gephi进行可视化分析,统计网络节点和边(Degree)的数量,基于MCODE算法识别稠密子图,构建PPI加权网络图并筛选中心节点。
使用DAVID生物学信息注释及可视化数据库 (https://david.ncifcrf.gov version 6.8) 完成PPI中所有节点的基因本体分析与通路富集分析,分析其中的GO (Gene oncology) 生物进程和KEGG (Kyoto Encyclopedia of Genes and Genomes) 通路富集结果,以P<0.05及FDR<0.05表示具有显著性。根据PPI的中心节点及聚类情况,筛选在显著性富集结果中出现的基因为关键基因。
Cox比例风险回归模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析。从TCGA数据库 (https://cancergenome.nih.gov/) 获取129个具有完整生存时间数据的HCC样本。使用R语言程序包edgeR (http://www.bioconductor.org/packages/release/bioc/) 和survival (https://cran.rstudio.com/web/packages/survival/) 对关键基因进行Cox比例风险回归模型分析。依据赤池信息量准则 (Akaike information criterion, AIC)和Kaplan-Meier方法计算风险系数,并以此将样本分为高风险组和低风险组,利用log-rank进行生存差异检验,P<0.05表示其具有统计学意义。并绘制ROC曲线,曲线下所覆盖区域的面积 (Area Under roc Curve, AUC) >0.7表示结果具有一定的准确性。
使用R语言程序包Impute和Limma分别对数据GSE84402进行缺失值的补充与标准化处理,以提高数据分析精度(图2 A,B),并使用Limma程序包筛选DEGs,以校正P<0.05, |log2FC|>1作为筛选标准,得到1141个DEGs,其中上调基因720个,下调基因421个,DEGs的表达情况及聚类分析结果反映出样本数据间的差异情况 (图3 A,B,见彩图页Ⅱ)。
Fig.2Normalization of data set GSE84402
A, B: The ordinate in the figure shows the range of gene expression amount of each sample in the data set, and it is normalized by using R package. Impute, so that the median value of gene expression amount of each sample is roughly on the same level to screen the DEGs
利用String在线工具进行蛋白质互作用分析,并利用Gephi进行可视化分析,根据蛋白质间的互作用关系构建PPI网络图 (图4,见彩图页Ⅱ),结果显示PPI网络中有346个节点,Degree最大值为89,最小值为1 (表1),与之对应的上调基因有178个,下调基因有168个,经MCODE算法聚类得到7个显著类团,分别与细胞周期、凝血、DNA合成、细胞信号转导、神经活动、mRNA剪接、细胞色素P450代谢相关,这表明HCC是机体多因素变化的综合结果,除了异常的细胞增殖、血管生成、信号传导等方面,肝细胞色素P450的异常代谢也是HCC发生发展的关键因素(表2)。
Tab. 1 The top 20 genes by degree
使用DAVID对PPI网络中的基因进行富集分析。其中GO富集结果中有27个生物进程具有显著性,主要涉及DNA复制相关过程、有丝分裂G1/S期、异型生物质的代谢过程、色素P450通路等生物学过程 (表3)。KEGG的富集结果中有10条通路具有显著性,包括化学致癌作用、视黄醇代谢、药物代谢-细胞色素P450通路,神经胶质瘤、小细胞肺癌、乙型肝炎、黑色素瘤等疾病通路 (表4)。筛选阈值为P<0.05。
Tab. 2 The cluster analysis results of MCODE algorithm
Tab. 3 The top 10 enrichment analysis results of GO biological processes
Tab. 4 The enrichment analysis results of KEGG pathways
依据PPI网络的聚类情况、节点的Degree值以及DEGs功能富集的结果,筛选出10个关键基因,分别为CDK1、CDC6、CCNA2、CHEK1、CENPE 、PIK3R1、RACGAP1、BIRC5、KIF11和CYP2B6。
利用R语言包Survival对关键基因进行Cox回归模型分析,结果显示CDC6、PIK3R1、RACGAP1和KIF11的高表达和CENPE的低表达与HCC的不良预后具有显著相关性。使用Origin Lab进行可视化分析并绘制高低风险热图,反映出CDC6、PIK3R1、RACGAP1、KIF11和CENPE在样本中的表达情况,及其对预后风险的影响 (图5,见彩图页Ⅴ)。依据AIC和Kaplan-Meier方法计算风险系数将样本分为高风险组和低风险组,并用log-rank进行生存差异检验 (图6A),P<0.05表示具有统计学意义, 结果反映出样本高低风险组的生存率随时间变化的趋势,并以此反映预后情况。ROC曲线越凸越近左上角表明结果的参考价值越大,AUC用于判断其准确性,图中AUC=0.875表明该结果具有一定参考价值 (图6B)。
Fig.6Prognostic analysis results of significantly related genes
A: Survival curve of genes significantly associated with prognosis, which indicates that with the interaction of related genes, the survival rates of high and low risk group change with time, and survival rates presents significant difference. P-value<0.05 indicates that the result has statistical significance; B: ROC curve is performed to find out the most optimal cutoff value to divide the samples into high risk and low risk group. In statistical sense, the AUC value > 0.7 indicates that it is accurate to a degree
肝细胞癌 (hepatocellular carcinoma, HCC) 是一种发病率和死亡率较高的消化系统恶性肿瘤[13]。近年来,随着精准医学和高通量测序技术的发展,越来越多的新技术与新方法应用在肿瘤的研究上,本研究以HCC为研究对象,运用生物信息学方法,分析了基金表达综合数据库(GEO)和癌症基因组图谱数据库(TCGA)中HCC相关的数据集,通过Cox回归模型分析了差异表达基因(DEGs)与HCC预后的相关性,结果表明CDC6、PIK3R1、RACGAP1和KIF11的高表达和CENPE的低表达与HCC的不良预后密切相关,未来可能作为HCC预后不良的分子标志物具有潜在的临床价值。
在本研究结果中,细胞分裂周期蛋白6 (CDC6) 在DNA复制、有丝分裂等GO生物进程中出现显著富集,以往有研究表明[14]在真核细胞中,CDC6是启动细胞DNA复制的必需蛋白之一,其主要功能是促进“复制前复合体”形成,此外还通过多途径影响细胞分裂并参与细胞的恶性转化。另有研究表明[15],CDC6的高表达可有效抑制DNA复制和细胞增殖,从而阻止肿瘤的生长,这与本研究的结果保持一致,说明该基因对肿瘤预后具有重要意义,可能作为抗肿瘤药物的靶点。
目前,已有大量的实验研究表明PI3K信号通路对癌细胞的生长、存活和新陈代谢至关重要[16, 17]。而PIK3R1是PI3K信号通路的关键癌症相关基因[18]。本研究的结果发现,PIK3R1在多种癌症通路中均表现出高表达的状态,如神经胶质瘤、小细胞肺癌、乙型肝炎、黑色素瘤。过去已有研究表明PIK3R1突变发生于多种癌症,包括卵巢癌、结肠癌等[19]。另有研究证明PIK3R1是FOXA1的直接作用靶点,而FOXA1作为一种肿瘤抑制因子,通过抑制PI3K信号通路,对HCC的细胞增殖、迁移和入侵产生负面调节作用[20],证明本研究结果具有意义,PIK3R1作为癌症的关键基因,未来可能在HCC的诊断治疗和预后中发挥重要作用。
另外,CENPE是重要的纺锤体检查点蛋白之一,一旦其表达被抑制染色体就无法正常分离,可能引起染色体非整倍性变异,这是大多数实体癌的重要标志[21]。本研究结果显示,CENPE在HCC患者体内呈低表达状态,推测其可能引起了患者染色体数目或结构异常,进而导致肿瘤的发生。在以往的研究中[22],通过逆转录-聚合酶链反应 (RT-qPCR) 检测HepG-2人类肝癌细胞系和LO2正常细胞系中CENPE mRNA的表达水平,结果发现,在细胞分裂期间HepG-2细胞系中CENPE的蛋白质表达水平显著低于LO2细胞系,表明CENPE的表达在HepG-2肝癌细胞系中被抑制,因此 CENPE可能是人类肝细胞中染色体数目异常进而引发肝癌的关键因素之一,再次证明本研究结果具有可靠性。
Rac GTPase-活化蛋白1 (Rac GTPase activating protein 1, RACGAP 1) 是一种GTP 酶激活蛋白,在细胞有丝分裂过程中起到调节RAC、CDC42和RHOA的GTP酶活性的作用从而形成纺锤体,促进胞质分裂的完成[23],其在控制细胞分裂、转化、侵袭性转移等各种细胞活动中起着关键作用[24]。目前已陆续有文献证实RACGAP1在白血病[25]、胃癌[26]、非小细胞肺癌[27]中的高表达与癌症的预后不良关系密切,本研究的预后分析结果中,RACGAP1表达升高对HCC患者预后不良的影响具有统计学意义,可能作为潜在的HCC预后不良关键因素,但目前对该基因的相关研究少有报道,其分子作用机制还需进一步研究证实。
此外,本研究还发现,KIF11的高表达也与HCC的预后不良具有显著相关性。KIF11是驱动蛋白超家族蛋白 (kinesin superfamily proteins, KIFs) 的成员,它们参与细胞内的物质运输、有丝分裂、减数分裂、控制微管的动态特征和信号转导[28]。已有研究显示大多数驱动蛋白超家族蛋白的异常高表达与HCC的发生和预后不良显著相关[29],其中包括KIF14[30]、KIF18A[31],但针对KIF11的研究仍比较少,作为KIFs蛋白家族的重要成员,KIF11的高表达与HCC预后的相关研究,未来可能具有重要的临床意义。
综上所述,本研究通过对GEO数据库中HCC相关基因芯片的分析,结合TCGA的临床数据,发现基因CDC6、PIK3R1、RACGAP1和KIF11的高表达,CENPE的低表达与肝细胞癌的预后不良具有明显相关性,提示其可能成为HCC预后不良的新指标,并为其预后监测提供实质性指导。