李树强
(中国医科大学附属盛京医院普通外科,沈阳 110004)
原发性肝癌是目前我国第四位常见的恶性肿瘤,在肿瘤致死疾病中排第三位,严重威胁人们的生命和健康。肝细胞癌 (hepatocellular carcinoma,HCC) 占原发性肝癌的80%以上,手术切除和肝移植是根治原发性HCC的主要手段,但是由于早期发现困难,放化疗效果不佳,5年生存率仅为15%[1]。因此,更好地了解HCC发生的分子机制,发现影响HCC 5年生存期的关键基因,为HCC治疗提供新的靶点已成当务之急。
登陆TCGA数据库 (https://cancergenome.nih.gov)网站下载公开的HCC转录组数据和肿瘤样本临床数据。其中,生存期>5年 (无论存活与否) 的癌症样本43例,生存期<5年 (已死亡) 的癌症样本107例。本研究旨在探讨影响HCC 5年生存率的关键基因,故排除随访时间不到5年且存活的样本。
使用转录组数据中的reads count评估基因表达水平,应用R软件 (3.5.1版本) 中的limma及edgeR软件包[2]对数据进行标准化及差异表达分析,gplots软件包对数据进行图形可视化。筛选log FC绝对值 >2,FDR <0.01的基因为差异表达基因。
DAVID (The Database for Annotation,Visualization and Integrated Discovery) 是一个在线数据库[3](https://david.ncifcrf.gov),为研究人员提供了一套全面的功能注释工具,以便理解大量基因背后的生物学意义。应用DAVID分别对上调和下调差异表达基因进行GO (gene ontology) 和 KEGG (Kyoto encyclopedia of genes and genomes) 富集分析,P< 0.05为差异有统计学意义。
将差异基因上传到STRING数据库[4](https://string-db.org),选择置信度> 0.4构建蛋白-蛋白互作(PPI)网络。基因在PPI网络的连接度 (degree) ≥8且排名前10位的基因定义为候选关键基因。
应用在线网站 http://kmplot.com/analysis[5],绘制Kaplan-Meier生存曲线,计算95%置信区间的危险比和logrankP值,比较不同基因表达水平患者的生存期,筛选并验证候选关键基因是否为真正关键基因。
下载数据后进行归一化、对数化,去掉没有对应基因注释信息的探针,如果同一个基因有多个探针表达值,取平均数,去掉重复探针,最终得到包含19 754个基因,150个样本的表达谱。通过R中edgeR包,log FC绝对值 >2,FDR<0.01为表达差异基因筛选条件,共得到383个差异基因。其中表达上调基因253个,表达下调基因130个,见图1、2。
图1 差异表达基因火山图Fig.1 Volcano plots of differentially expressed genes
图2 差异表达基因主成分分析Fig.2 Principal component analysis of differentially expressed genes
用DAVID分别对上调和下调差异表达基因进行GO和 KEGG富集分析。得到了Biological process (BP)和KEGG pathway结果 (表1、2)。上调基因BP功能聚类主要集中在“positive regulation of cAMP biosynthetic process”,“synaptic transmission,cholinergic”,“cation transmembrane transport”,“regulation of membrane potential”等。有3种典型的KEGG通路在上调基因中过表达,包括“Neuroactive ligand-receptor interaction”,“Nicotine addiction” 和“GABAergic synapse”。下调基因BP功能主要富集在“potassium ion transport”,“energy reserve metabolic process”和“oxygen transport”等,下调基因在KEGG通路中主要富集在“Salivary secretion”,“cAMP signaling pathway”和“Cardiac muscle contraction”等。由此可见,差异表达基因功能主要富集在与某些神经内分泌调节有关的生物学过程和通路中,通过膜电位改变,跨膜离子的转运和突触传递等影响患者5年生存率。
表1 上调差异表达基因的BP及KEGG通路富集分析Tab.1 Enrichment analysis of BP and KEGG pathways of up-regulated differentially expressed genes
表2 下调差异表达基因的BP及KEGG通路富集分析Tab.2 Enrichment analysis of BP and KEGG pathways of down-regulated differentially expressed genes
差异表达基因在PPI网络的连接度≥8且排名前10位的基因定义为候选关键基因,包括GCG、LEP、PTH、HTR5A、CRH、CRHR1、CALCA、ADCY2、GAST和CHGA(图3)。除LEP为表达下调基因外,其余均为表达上调基因。
图3 蛋白-蛋白互作网络 (PPI) 图Fig.3 Protein-protein interaction network
图4 肝细胞癌关键基因预后分析Fig.4 Prognostic analysis of key genes in hepatocellular carcinoma
绘制Kaplan-Meier生存曲线,结果 (图4)显示,除了LEP和CHGA,HCC患者中GCG、PTH、HTR5A、CRH、CRHR1、CALCA、ADCY2和GAST基因的高表达,其总生存率明显升高,故认为这些差异表达基因可能为HCC患者长期生存的关键基因。
HCC是全球第五大常见癌症,每年约有85万新发病例[6],占肝癌的80%以上[7]。HCC通常发生在肝硬化患者中,越来越多的HCC病例伴有非酒精性脂肪肝,这是肥胖和胰岛素抵抗的结果[8]。常用的治疗方法有器官移植、手术切除、经动脉化疗栓塞、局部射频消融和局部微波消融等[9]。由于早期没有临床症状,大多数HCC病例发现即为晚期,治疗疗效差。索拉非尼作为不可切除HCC病例的临床替代药物,疗效一般[10]。因此,从基因水平更好地了解HCC发生机制,发现新的治疗靶点已成当务之急。
本研究利用TCGA数据库中HCC mRNA基因及临床表型信息,通过一系列分析,确定了8个与HCC 5年生存期密切相关的关键基因,GCG在糖代谢和体内平衡中起着重要作用[11],PTH通过溶解骨骼中的盐分和防止肾脏排泄来提高血钙水平,与前列腺癌侵袭程度相关[12]。HTR5A是一种生物激素,起神经递质、激素和有丝分裂原的作用。这种受体的活性是由G蛋白介导的,可能通过调节细胞内Ca2+水平而发挥作用。CRH所编码的前蛋白经蛋白水解处理后产生成熟的神经肽激素。应激反应时,这种激素由下丘脑室旁核分泌,与促肾上腺皮质激素释放受体结合,刺激垂体释放促肾上腺皮质激素。这种蛋白的显著减少与阿尔茨海默病有关。CRHR1编码一种G蛋白耦联受体,对激活信号转导通路至关重要,这些通路调节包括压力、繁殖、免疫反应和肥胖在内的多种生理过程。最近研究[13]报道,CRH/CRHR1可通过IL-6/JAK2/STAT3信号通路和VEGF诱导的肿瘤血管生成,促进结肠癌细胞增殖。CALCA表达水平与多种肿瘤有关,如胃癌、肺癌和睾丸肿瘤等[14-16]。ADCY2是一种膜相关酶,催化二级信使环腺苷单磷酸的形成。GAST能刺激胃黏膜产生和分泌盐酸,胰腺分泌其消化酶。还能刺激平滑肌收缩,促进胃和肠的血液循环和水分分泌。
综上所述,本研究应用TCGA数据库,发现了8个与HCC 5年生存期有关的关键基因,为今后HCC的研究提供了新的方向。本研究仅是通过数据分析初步得到可能有价值的关键基因,作用机制尚不清楚,需要后续实验加以验证。