小细胞肺癌潜在治疗靶基因的生物信息学分析

2021-07-15 02:02冯振兴郑雅方田铁栓
黑龙江医药 2021年13期
关键词:通路关键数据库

冯振兴,郑雅方,田铁栓

天津市胸科医院·天津市心血管病研究所,天津 300222

小细胞肺癌(small cell lung cancer,SCLC)是一种高度恶性的神经内分泌肿瘤,约占所有肺癌的15%,具有增殖速度快,血管密度高,基因组不稳定和明显的早期转移倾向等特点,总体预后差[1]。全面的基因组分析在研究SCLC发病的机制和发现潜在治疗靶点中起到重要作用。目前非小细胞肺癌的靶向治疗和免疫治疗已进行了深入研究及临床广泛应用,尽管在过去的30年里进行了广泛的基础和临床研究,SCLC的靶向治疗仍未取得显著的进展,一个潜在的原因是外科手术治疗在SCLC中的应用较少,病理组织样本的缺乏限制了SCLC基因组学分析,进而阻碍了新的靶向药物的发现[2-3]。

随着基因表达芯片技术的广泛应用,大量数据在公共数据库平台上发布。美国国立生物技术信息中心旗下的基因表达综合数据库(gene expression omnibus,GEO)是一个国际公共数据库(https://www.ncbi.nlm.nih.gov/geo/),该数据库对高通量基因表达和其他功能基因组数据集进行归档和自由分发[4]。本研究利用GEO数据库中SCLC相关的基因芯片和临床数据,采用生物信息学方法挖掘与SCLC发生发展相关的关键基因和信号通路,为SCLC的靶向治疗提供新的思路。

1 材料与方法

1.1 GEO数据资料

从GEO数据库中检索到GSE6044、GSE40275和GSE43346 3套SCLC基因表达数据集,其中GSE6044(平台号:GPL10558)包括9例SCLC和5例正常肺组织,GSE40275(平台号:GPL15974)包括15例SCLC和43例正常肺组织,GSE43346(平台号:GPL570)包括23例SCLC和1例正常肺组织,用于筛选SCLC和正常肺组织的差异表达基因(Differential expressed genes,DEGs)。

1.2 数据处理和DEGs筛选

下载平台文件和基因表达矩阵文件,使用Active-Perl-5.26软件进行基因名注释,使用R-3.5.3软件的impute函数包进行缺失值补充(KNN法),基因对应多个探针时取均值,对芯片数据进行归一化校正和log2处理,采用limma包计算DEGs,定义P<0.05和|logFC|>1的基因为DEGs,应用ggplot2包绘制火山图,应用FunRich-3.1.3软件对上述3套数据集的DEGs取交集。

1.3 DEGs的富集分析

使用DAVID数据库(https://david.ncifcrf.gov)对DEGs进行GO(Gene ontology,基因本体)功能注释和KEGG(Kyoto encyclopedia of genes and genomes,京都基因与基因组百科全书)通路富集分析,GO分析包括DEGs的细胞组成、分子功能、生物学过程,选取P<0.05富集结果进行分析。

1.4 蛋白互作分析

使用交互基因检索工具

STRING-11.0(https://string-db.org)对DEGs进行蛋白互作网络分析。设置置信度阈值大于0.4,将DEGs的蛋白互作数据导入Cytoscape-3.7.1软件中建立互作网络可视化模型,并采用MCODE插件对蛋白互作网络进行评价,筛选显著模块进行通路富集分析,使用CytoHubba插件筛选关键DEGs[5]。

1.5 DEGs的验证和生存分析

GSE30219数据集(平台号:GPL570)包括21例SCLC和14例正常肺组织基因表达数据以及19例SCLC患者临床预后资料,该数据集用于关键DEGs的验证,分析关键DEGs对SCLC生存时间的影响。使用GraphPad 8.0进行统计学分析和绘图,DEGs的验证采用t检验,生存分析采用Kaplan-Meier法,P<0.05表示差异有显著统计学意义。

2 结果

2.1 SCLC和正常肺组织的DEGs

R软件运算结果表明,GSE6044数据集中共获得966个DEGs,其中上调基因474个,下调基因492个,GSE40275中共获得3 099个DEGs,其中上调1 524个,下调1 575个,GSE43346中共获得493个DEGs,其中上调352个,下调141个。3套数据集的结果取交集后筛选出81个DEGs,其中上调62个,下调19个,见图1。

图1 3个数据集共同差异表达基因的Venn图

2.2 DEGs的GO功能注释和KEGG 通路富集分析

通过DAVID在线分析工具对SCLC中81个DEGs的GO分析结果显示(图2A-C),SCLC的DEGs主要分布在中间体、纺锤体微管、胞浆的核周区、驱动蛋白复合体和有丝分裂纺锤体等细胞组分中;其分子功能主要涉及染色质结合、ATP结合、微管运动、ATP酶活性和微管蛋白结合等;DEGs主要参与DNA复制起始、有丝分裂胞质分裂、微管运动、DNA依赖性DNA复制和有丝分裂染色体浓缩等22个在生物过程,其中与有15个与有丝分裂有关,包括有丝分裂细胞周期的调控、有丝分裂纺锤体组织、胞质分裂和纺锤体组装等,涉及42个有丝分裂相关基因。KEGG分析结果表明(图2D),这些差异基因共涉及11条信号通路,主要的信号通路有细胞周期、DNA复制和肿瘤通路等。

图2 DEGs的GO和KEGG富集分析结果

2.3 蛋白互作网络及关键DEGs

通过SRING网站分析和cytoscape软件获得的DEGs蛋白互作网络如图3所示,该蛋白互作网络包括71个结点和819条相互作用线,包含55个上调DEGs和16个下调DEGs。使用MCODE插件筛选出1个显著的蛋白互作模块(见图4),包括39个结点(均为上调的DEGs)和706条线,涉及的DEGs主要富集在细胞周期、DNA复制和小细胞肺癌等信号通路。本研究使用CytoHubba插件中12种拓扑分析法分别计算出评分排名前30位的DEGs,并对12种算法结果取交集获得了8个关键DEGs:AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,详见表1。上述8个的关键DEGs均参与MCODE模块中的蛋白互作。

图3 差异表达蛋白相互作用网络

表1 蛋白互作网络筛选出的8个关键DEGs

2.4 DEGs的验证和生存分析

使用GSE30219中基因表达数据验证上述8个关键DEGs的表达水平,结果表明8个关键DEGs的mRNA在SCLC(n=21)中的相对表达水平均明显高于正常肺组织(n=14),差异具有显著统计学意义(P<0.001,见图4)。GSE30219数据集中共有293例肺癌基因表达及临床预后数据,从中筛选出19例随访资料完整的SCLC患者用于分析验证8个关键DEGs对SCLC患者生存时间的影响,以中位数为界分为低表达组和高表达组,结果表明CENPF高表达组患者生存期显著低于低表达患者(P=0.017,见图5)。

图4 关键DEGs在SCLC及正常肺组织中的相对表达水平

图5 CENPF表达水平与SCLC患者预后的关系

3 讨论

基于生物信息学方法比较分析SCLC与正常细胞基因表达谱的差异,寻找SCLC相关基因,是发现SCLC潜在的治疗靶基因的重要途径之一。目前国内鲜有利用生物信息学方法挖掘SCLC靶基因的相关研究报道。鉴于TCGA(The Cancer Genome Atlas)癌症基因组图谱数据库中没有SCLC的相关数据,本研究通过检索GEO数据库中SCLC数据,对SCLC的潜在靶基因表达水平及其临床预后进行了深度挖掘分析,共筛选出了81个DEGs,包括62个上调基因和19个下调基因。GO和KEGG功能富集分析表明这些DEGs的产物主要包括中间体、微管和纺锤体等有丝分裂相关的细胞组分,主要参与有丝分裂、细胞周期和DNA损伤修复等分子功能及信号通路。上述细胞组分、分子功能及通路与肿瘤细胞的增殖、侵袭和转移密切相关,为研究SCLC的发病机制及诊断治疗提供参考思路。

本研究通过蛋白互作分析筛选出8个处于互作网络核心节点的关键DEGs:AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,这些基因且均为有丝分裂相关基因且相互之间联系密切。SCLC快速增殖依赖于有丝分裂事件的增加,有丝分裂的关键步骤是纺锤体装置的调节装配和染色体的分离[24]。表1中汇总了8个关键DEGs在有丝分裂中的具体功能及相关研究进展。研究表明这些基因在人类多种恶性肿瘤等中异常表达,且与肿瘤的增殖、侵袭及预后密切相关,但与SCLC相关的研究鲜有报道。

目前仅有AURKA与SCLC的治疗相关的报道。AURKA是重要的有丝分裂调节因子,研究表明Alisertib和LY3295668等多种高选择性AURKA抑制剂可诱导细胞发生有丝分裂灾难,研究表明Alisertib单药作为晚期SCLC患者二线治疗的客观缓解率为21%[7-8]。此外,AURKA激酶磷酸化可招募着CENP家族的多种蛋白参与有丝分裂中期染色体在赤道板的正确排列[25]。CENPF是一种着丝粒-动粒复合体相关蛋白质,在有丝分裂着丝点形成和着丝粒组装中发挥重要作用,并与肿瘤细胞代谢和进展有关[9]。临床前研究表明抑制CENPF表达可起到抗肿瘤的作用,CENPF在非小细胞肺癌、前列腺癌、脑胶质瘤、结直肠癌和鼻咽癌等多种恶性肿瘤中呈高表达,CENPF高表达与肿瘤侵袭和不良预后相关,但其分子机制尚未阐明[10]。本研究对筛选出的8个关键DEGs进行预后分析,结果仅有CENPF高表达与SCLC不良预后相关,提示CENPF可能是SCLC潜在的治疗靶点。

综上所述,本研究共筛选出81个DEGs,其中8个关键DEGs包括AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,这些基因均是有丝分裂重要的作用因子,与SCLC的分裂和增殖关系密切,具有潜在的研究价值。鉴于CENPF在SCLC中高表达且与预后不良有关,因此我们筛选出CENPF作为候选靶分子。由于现有的数据库中SCLC病例数量较少,后续本课题组将进一步扩大样本量,探究CENPF表达与SCLC预后相关的临床研究,同时进行分子生物学机制的基础研究,以期为SCLC的治疗提供新的作用靶点。

猜你喜欢
通路关键数据库
DJ-1调控Nrf2信号通路在支气管哮喘中的研究进展
硝酸甘油,用对是关键
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
高考考好是关键
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究
白芍总苷调控Sirt1/Foxo1通路对慢性心力衰竭大鼠的保护作用研究
数据库
数据库
数据库
数据库