生物信息学方法鉴定与肾透明细胞癌预后相关的关键基因△

2021-08-19 01:37何天基陈翔王伟刘峰蔡孟会石海林
癌症进展 2021年11期
关键词:关键蛋白数据库

何天基,陈翔,王伟,刘峰,蔡孟会,石海林#

1广西医科大学附属柳州市人民医院泌尿外科,广西 柳州 545006

2桂林医学院附属医院泌尿外科,广西 桂林 541001

肾癌是常见的泌尿系统恶性肿瘤之一,据预测2021 年美国将发生约76 080 例肾癌病例,其中死亡病例约13 780 例,而肾透明细胞癌(kidney renal clear cell carcinoma,KΙRC)约占肾癌的85%。早期KΙRC 患者的生存率超过75%,但由于解剖位置隐蔽、患者认知等因素影响,多数患者在确诊时已发生转移,而Ⅳ期患者的生存率﹤10%。既往对KΙRC 的研究多涉及单个基因,但随着研究的深入,单基因单疾病理论难以解析肿瘤的发生及发展,并且KΙRC 存在较大的异质性,靶向治疗的效果在不同患者中差异很大,对个体治疗药物的选择是临床实践中的一个巨大挑战。因此,对KΙRC 患者的基因特征进行系统分析以确定KΙRC新的生物标志物是非常必要的,这不仅有利于提高KΙRC 的诊断率,还能够为KΙRC 的治疗提供新的药物靶点。加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)是在复杂数据中快速提取出与样本特征相关的基因共表达模块,计算基因之间的表达相关性,从而将具有表达相关性的基因聚类到一个模块中,再分析模块与样本特征(包括临床特征、手术方式、治疗方法等)的相关性。本文通过WGCNA 对肿瘤基因图谱(The Cancer Genome Atlas,TCGA)及基因 表 达 汇 编(Gene Expression Omnibus,GEO)(GSE66272、GSE3)中的基因表达谱数据进行分析,以期发现KΙRC 发生发展的关键基因及信号通路,为KΙRC 患者的精准治疗提供新的靶点,现报道如下。

1 资料与方法

1.1 数据下载与提取

分别从TCGA(https://portal.gdc.cancer.gov/)和GEO(https://www.ncbi.nlm.nih.gov/gds)中 下 载KΙRC 的转录组数据及其对应的临床数据,TCGA中含539 例KΙRC 组织和59 例正常肾组织;采用R语言(https://www.r-project.org/)中的“limma”“edgeR”“pheatmap”“ggplot2”包对转录数据进行提取,得到14 701 个表达谱基因,并筛选差异表达基因(differentially expressed gene,DEG)。通过GEO数据库下载GSE66272 及GSE3 芯片基因表达数据,分别包括27、171 例KΙRC 组织及其配对的正常组织,然后利用实用报表提取语言(practical extraction and report language,PERL)合并GEO 数据集,通过“ggplot2”“limma”“pheatmap”包提取分析,共得到21 655 个DEG 用于后续研究。DEG筛选标准为错误发现率(false discovery rate,FDR)﹤0.05 和对数化表达变化倍数(fold change,|log2FC|)﹥2.0。

1.2 构建关键共表达模块及基因富集分析

利用“WGCNA”包对方差前25%的基因构建TCGA-KΙRC、GSE66272 及GSE3 基因共表达网络,通过分析所有基因表达量的Pearson 相关性,并转化为拓扑重叠矩阵(topological overlap matrix,TOM)以及基因不相似性的矩阵(1-TOM),利用基因显著性及模块显著性评估基因和临床信息的相关性,高相关系数的模块被认为是与临床性状相关的候选模块。利用R 语言中的“VennDiagram”包从TCGA 及GEO 数据库的共表达网络基因中提取重叠的预后基因。对预后基因进行基因本体论(gene ontology,GO)富集分析,主要分为3 个部分:细胞组分(cellular component,CC)、分子功能(molecular function,MF)、生物过程(biological process,BP)。通过这3 个功能大类,对一个基因的功能进行多方面的限定和描述;再通过京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)对所得差异表达基因的通路进行富集分析,用到的R 包为“org.Hs.eg.db”“clusterProfiler”“enrichplot”等。

1.3 蛋白质-蛋白质相互作用网络(protein-protein interaction network,PPI)的构建及筛选关键基因

通 过STRΙNG(http://string-db.org/cgi/input.pl)在线工具预测蛋白质-蛋白质相互作用,从而构建KΙRC 预后相关基因的PPΙ 网络;然后在STRΙNG 数据库中选择评分≥0.7 的基因且排除游离不相关的基因,所得基因应用Cytoscape(v3.7.2)软件中的cytoHubba插件以最大团中心(maximal clique centrality,MCC)为原则,取前10个基因进行排序并构建可视化的网络模型,从而筛选出KΙRC的关键基因。

1.4 关键基因的预后意义

结合TCGA 数据库中的生存时间进行预后分析,采用“survival”“survminer”包进行Kaplan-Meier生存曲线分析,探讨患者总生存期(overall survival,OS)与关键基因的关系。此外,使用在线工具GEPΙA2(http://gepia.cancer-pku.cn/)分析患者无病生存期(disease-free survival,DFS)与关键基因的关系。以关键基因表达量的中位值分为高表达和低表达。以

P

﹤0.05 为差异有统计学意义。

2 结果

2.1 加权基因共表达模块的构建

通过R 语言的相关程序包(logFC 过滤条件为1,矫正后的

P

值为0.05)进行筛选,在TCGA中得到DEG 3751 个,其中下调1862 个,上调1889 个;同样对GEO数据集合并,提取得到DEG 3629个(设置矫正后的

P

值为0.05),其中下调1721 个,上调1908个。构建基因共表达网络,TCGA-KΙRC中共有9个模块,进一步利用R语言包(“WGCNA”“limma”包)进行评估,分析每个模块与两个临床性状(肿瘤和正常)之间的相关性,结果表明,TCGA-KΙRC 中的绿色模块和GEO中的黑色模块相关性最大(绿色模块:

r

=0.59,

P

﹤0.05;黑色模块:

r

=-0.85,

P

﹤0.05)。利用“VennDiagram”包找出基因集中的重叠基因,共提取出112 个重叠基因,作为用于后续进行验证共表达模块的基因。

2.2 基因的功能富集分析

筛选出112 个在两个数据库中均表达的预后基因,选取112 个基因中表达量为前30 的预后基因进行GO 富集分析,结果发现,BP 以白细胞迁移、细胞黏附调节、上皮迁移及组织迁移为主,CC 以含胶原蛋白的细胞外基质、细胞顶端、顶端质膜及细胞-细胞连接为主,MF 以钠离子跨膜转运蛋白活性、肌动蛋白丝结合和钠通道活性为主(图1A);在KEGG 通路分析中,以细胞黏附分子、紧密连接和致病性大肠杆菌的感染为主要作用通路(图1B)。

图1 共表达基因的富集分析

2.3 PPI 网络构建和关键基因的识别

利用STRΙNG 数据库建立重叠基因的PPΙ 网络,共有21个节点和25个边缘(图2A)。采用Cyto-Hubba 插件的MCC 原则从PPΙ 网络中选择关键基因,排名前10 的基因包括RAS 癌基因家族成员25(member RAS oncogene family,RAB25)、上皮剪接调节蛋白1(epithelial splicing regulatory protein 1,ESRP1)、上皮细胞黏附分子(epithelial cell adhesion molecule,EPCAM)、血管内皮生长因子A(vascular endothelial growth factor A,VEGFA)、T 细胞分化蛋白2(T-cell differentiation protein 2,MAL2)、粒头样转录因子2(grainyhead like transcription factor 2,GRHL2)、衔接蛋白复合物1 亚单位mu 2(adaptor related protein complex 1 subunit mu 2,AP1M2)、磷 脂 酰 肌 醇 蛋 白 聚 糖3(glypican 3,GPC3)、铜蓝蛋白(ceruloplasmin,CP)、紧密连接蛋白(occludin,OCLN)(图2B)。

图2 PPΙ网络和关键基因的可视化图

2.4 关键基因的预后意义分析

结合TCGA 中的生存时间对得到的10 个关键基因的预后意义进行分析。Kaplan-Meier 曲线分析结果表明,OCLN 高表达患者的OS 长于OCLN低表达患者,而GPC3、RAB25 及GRHL2 低表达患者的OS 分别长于GPC3、RAB25 及GRHL2 高表达患者,差异均有统计学意义(

P

﹤0.05)(图3)。OLCN 及MAL2 高表达患者的DFS 分别长于OLCN 及MAL2 低表达患者,GPC3 及CP 低表达患者的DFS分别长于GPC3 及CP 高表达患者,差异均有统计学意义(

P

﹤0.05)(图4)。

图3 TCGA数据库中KΙRC患者关键基因的OS分析

图4 GEPΙA22数据库中KΙRC患者关键基因的DFS分析

3 讨论

KΙRC 占肾癌的85%左右,大部分散发性KΙRC是单侧单病灶,无症状肾癌占33%~50%,因此当患者确诊时往往处于临床晚期并存在远处转移的可能。KΙRC 患者除肾癌根治术外,对化疗、放疗及靶向治疗均不够敏感,并且缺乏精确的分子靶点,导致晚期KΙRC 患者的生存率较低。因此,需要更好的生物标志物预测KΙRC 患者的预后。本研究利用生物信息学方法对TCGA 及GEO 数据库中共737 例大样本基因组测序结果进行分析,共鉴定出112 个具有相同表达趋势的重要基因,然后利用GO 功能富集分析,发现大部分基因与白细胞迁移、含胶原蛋白的细胞外基质、钠离子跨膜转运活性有关,表明其在炎性反应、细胞组织构成及钠离子通道活性中发挥重要作用。KEGG 通路分析结果表明,这些基因深度参与细胞黏附分子通路,从而介导细胞间或细胞与细胞外基质间相互接触和结合分子,它们可通过受体-配体结合的形式发挥重要作用,使得其在细胞与细胞间或细胞与基质间或细胞-基质-细胞间发生黏附,在识别细胞、细胞活化和信号转导、细胞增殖与分化、细胞伸展与移动等过程中发挥关键作用,是免疫应答、炎性反应、凝血、肿瘤转移以及创伤愈合等一系列重要生理和病理过程的分子基础。此外,根据Cytoscape 中CytoHubba 插件的MCC 评分,筛选出了前10 个与KΙRC 预后最相关的基因(

RAB25

ESRP1

EPCAM

VEGFA

MAL2

GRHL2

AP1M2

GPC3

CP

OCLN

),其中

OCLN

RAB25

GRHL2

GPC3

与KΙRC 患者的OS 有关,而

OLCN

GPC3

CP

MAL2

与KΙRC 患者的DFS 有关。Rab 蛋白是真核生物中保守的小分子鸟苷三磷酸(guanosine triphosphate,GTP)酶家族,目前已有超过70 个Rab 蛋白成员被鉴定参与人类细胞囊泡转运的调控、内小体的捕获和循环以及胞吐作用等。RAB25 又名CATX-8 或RAB11C,是Rab家族中的一员,主要在上皮细胞中表达,具有鸟嘌呤核苷酸结合序列,可与GTP 或鸟苷二磷酸(guanosine diphosphate,GDP)结合以调节RAB25 的活性,而羧基末端的CCXXX 基序决定了RAB25 在特定囊泡上的结合,并控制了膜转运;当鸟嘌呤核苷酸交换因子激活后,GDP 与RAB25 分离,活性的GTP 结合RAB25 并参与囊泡的转运和内小体回收,高表达的RAB25 可不同程度地影响多种恶性肿瘤的发生发展过程,与肿瘤患者的不良预后密切相关。研究表明,RAB25 蛋白在肿瘤(如膀胱癌、前列腺癌、肺癌、胃癌等)组织中的表达水平明显高于正常组织。目前主要认为有3 种机制调控RAB25 的表达:表观遗传调控、微小RNA(microRNA,miRNA)调控和拷贝数变异,当RAB25 高表达时可导致预后不良。虽然各种细胞内机制研究表明RAB25 可诱导恶性肿瘤进展,但目前仍不清楚低水平的RAB25 如何抑制肿瘤发生和转移。有研究表明,RAB25 的结合伙伴Rab 偶联蛋白(Rab-coupling protein,RCP)可以促进肿瘤的侵袭和转移。Tang的研究发现,肿瘤细胞中RAB25 效应蛋白受体组分蛋白(receptor component protein,RCP)的表达水平可能是

RAB25

基因在恶性肿瘤进展中发挥依赖作用的关键因素,由于RCP 可以激活RAS 蛋白,推测

RAB25

基因的过表达可使RCP 远离激活的RAS 蛋白,从而降低其转化活性。本研究中,

RAB25

基因高表达可导致KΙRC 患者预后不良,但其具体作用机制尚需进一步实验验证。OCLN 蛋白是构成细胞间紧密连接的重要蛋白分子,可调节细胞旁通透性屏障,

OCLN

基因敲除小鼠在不同器官(如结肠、胃、膀胱)的上皮细胞中显示出正常的屏障功能和跨上皮阻力,但该基因的突变可能导致细胞异常增殖及组织学异常,从而影响幼儿的生长发育,甚至导致生殖缺陷;在人子宫内膜癌中,OCLN 蛋白表达水平随着恶性肿瘤的进展而降低。GPC3 是蛋白聚糖家族成员之一,是一种硫酸乙酰肝素蛋白多糖和细胞表面癌胚蛋白,在多种实体胚胎肿瘤中高表达,包括大多数肝母细胞瘤、肾母细胞瘤、某些生殖细胞肿瘤亚型和少数横纹肌肉瘤。GPC3 通过其核心蛋白和硫酸乙酰肝素侧链激活典型的WNT/β-联蛋白(β-catenin)通路,在调控细胞生长和分化方面具有重要作用,与多种恶性肿瘤的发生、发展密切相关,在这些恶性肿瘤中经常过表达。

GPC3

的功能缺失突变可导致辛普森-戈拉比-贝梅尔综合征,这是一种X 染色体连锁的遗传疾病,易导致恶性肿瘤,包括肝母细胞瘤和肾母细胞瘤。目前针对GPC3 有多种免疫治疗方法,包括肿瘤疫苗、抗体-药物结合物、双特异性抗体、嵌合抗原受体T细胞(chimeric antigen receptor T-cell,CAR-T)免疫疗法等,为多种实体胚胎肿瘤的治疗提了更多可能。粒头样转录因子(grainyhead like transcription factor,GRHL)家族由3 种核蛋白组成,分别为GRHL1、GRHL2 和GRHL3,它们负责驱动上皮细胞的命运。GRHL2 在发育过程中的主要作用是维持适当的肾小管形成和抑制上皮-间充质转化,有证据表明GRHL2 在各种恶性肿瘤中既有抑癌作用又有致癌作用。研究表明,GRHL2 与各种类固醇受体(如雄激素和雌激素受体)有关;GRHL2 作为一个先锋因子和辅激活因子,可能直接影响类固醇受体的转录活性,从而导致相应细胞的突变。综上所述,本文通过WGCNA 分析了不同数据库的高通量测序数据,识别了与KΙRC 预后相关的候选基因,其中

OCLN

RAB25

GRHL2

GPC3

与KΙRC 患 者 的OS 有 关,而

OLCN

GPC3

CP

MAL2

与KΙRC 患者的DFS 有关,这可能成为未来恶性肿瘤治疗的新靶点,但这些基因促进或抑制KΙRC 发展的具体机制尚不清楚。此外,这些基因之间的关系及与肿瘤发生和转移的关系也需进一步的研究证实。

猜你喜欢
关键蛋白数据库
RNA结合蛋白与恶性肿瘤发生发展关系的研究进展
细砂糖对法式蛋白糖的质量影响研究
水通道蛋白的发现
数据库
数据库
清淡健康的饮食是预防橘皮纹的关键!
数据库
数据库
阿尔茨海默症研究进展
鹏鹏猪