基于生物信息学方法识别肺腺癌预后相关基因

2020-08-31 01:46马国玉蒋国庆杨家甜木云珍
昆明医科大学学报 2020年7期
关键词:差异基因甲基化腺癌

马国玉,熊 庆,蒋国庆,杨家甜,木云珍

(1) 昆明医科大学公共卫生学院,云南昆明 650500;2) 云南省疾病预防控制中心环境卫生所,云南昆明 650022;3) 昆明医科大学第一附属医院产科,云南昆明 650032)

肺癌是严重威胁人类健康的恶性肿瘤之一,其发病率和病死率均较高,已分别占到癌症总发病数和总死亡数的11.6%和18.4%[1]。近年来,我国肺癌的发病人数不断上升,尤其以云南宣威较为严重[2]。据权威估计,到2020 年我国肺癌发病人数将突破80 万,死亡人数将接近70 万[3]。肺腺癌作为肺癌的主要类型之一,占到所有肺癌的40%,危害较大[4]。已有研究结果证明,一些基因在肺腺癌的发生发展过程中起着重要的调控作用[5-6]。肺腺癌分子机制研究对肺癌的靶点治疗有着重要意义。本研究基于GEO 数据库,获取肺腺癌的相关基因芯片数据集,利用多种生物信息学方法筛选出差异基因,并进一步筛选得到关键基因,进而分析关键基因的表达与肺腺癌的相关性。

1 材料与方法

1.1 基因表达谱数据的获取

基于美国国家生物信息技术中心(national center for biotechnology information,NCBI) 下的基因表达综合数据库(gene expression omnibus,GEO),获取肺腺癌基因表达谱数据,输入关键词为:“lung adenocarcinoma”,检索条件为:“homo sapiens”、“expression profiling by array” 和“tissue”。共下载到四个数据集,分别为GSE10072、GSE32863、GSE43458 和GSE116959,其平台及样本等详细信息见表1。

表1 基因表达谱数据信息表Tab.1 Information table of gene expression profile data

1.2 差异基因的筛选

用R 语言的Limma 包分别对四组基因表达谱数据进行差异基因的筛选,筛选条件为:P<0.05,|Log2FC|≥1。用Intersect 函数对四组差异基因取交集,并用VennDiagram 包绘制韦恩图。

1.3 差异基因的蛋白-蛋白相互作用网络分析

利用在线网站STRING(https://string-db.org/cgi) 对差异基因进行蛋白-蛋白互相作用(Protein-protein interaction,PPI) 网络分析。将已经建立的差异基因PPI 网络导入到Cytoscape 3.7.2(https://cytoscape.org/) 中进行可视化。

1.4 GO 和KEGG 通路分析

利用在线网站DAVID(https://david.ncifcrf.gov/home.jsp) 对差异基因进行GO 分析(Gene Ontology,GO),包括分子功能 (Molecular Function)、细胞组成(Cell Component) 与生物学过程(Biology Process),以及KEGG 通路分析(Kyoto Encyclopedia of Genes and Genomes),寻找不同的差异基因可能和哪些基因功能和细胞信号通路有关。

1.5 肺腺癌关键基因的筛选

Cytoscape 是一款图形化显示网络并进行分析和编辑的软件,可利用软件本身的编辑器模块直接构建PPI 网络。本研究将差异基因的PPI 结果导入Cytoscape 软件中,用其插件CytoHubba[7]筛选关键基因。

1.6 肺腺癌关键基因与预后的相关性分析

GEPIA(http://gepia.cancer-pku.cn/) 是由北京大学开发的基因表达谱动态数据分析数据库,利用该数据库挖掘肺腺癌关键基因在肺腺癌组织与正常肺组织中的差异表达,筛选条件为:|Log2FC|≥1、P<0.01。通过GEPIA 数据库对肺腺癌数据进行生存分析,筛选条件为95%置信区间,以月作为时间轴。采用t检验分析基因表达的差异,采用Log-rank 检验分析关键基因在肺腺癌中表达量与预后的关系。

1.7 肺腺癌关键基因与甲基化分析

人类疾病甲基化数据库2.0 版(http://bioinfo.hrbmu.edu.cn/disease meth) 结合了来自芯片和测序技术的甲基化数据,并注释了人类疾病中DNA 甲基化的状态[8]。笔者利用该网站对肺腺癌组织和正常肺组织中关键基因的甲基化水平进行了比较。

2 结果

2.1 差异基因的筛选结果

对四组基因芯片表达谱数据进行分析,共筛选到214 个差异基因,其中,上调基因42 个,下调基因172 个。筛选结果见图1。

2.2 差异基因的PPI 网络分析

用差异基因构建PPI 网络,网络中共包含186个节点和565 个链接,即186 个基因和565 个相互作用关系,见图2(红色表示上调基因,绿色表示下调基因)。

图1 差异基因表达的韦恩图Fig.1 Venn diagram of differential gene expression

图2 差异表达基因的PPI 网络图Fig.2 The PPI network diagram of differentially expressed genes

2.3 GO 和KEGG 通路分析结果

为了比较肺腺癌组织和正常肺组织中差异基因的功能,笔者对214 个差异表达的基因进行了GO 分析和KEGG 通路分析。GO 分析中显著富集的生物学过程结果显示差异基因与细胞增殖、细胞周期和凋亡过程有关,见图3(A、B 和C)。KEEG 通路分析的结果表明差异表达基因参与PPAR、HIF-1、细胞粘附分子(CAMs)和PI3K-Akt 等信号通路,见图3D。

2.4 关键基因的筛选结果

Cytohubba 插件计算的结果包括十一种算法的结果,笔者选择最常用的三种算法(Degree、Closeness 和Betweenness) 筛选排名前十的基因,筛选结果见表2,其相应的网络图见图4。

2.5 关键基因与预后

GEPIA 分析结果显示,PECAM1、SPP1 和KIAA0101 三个关键基因的表达对患者的总生存时间有着显著影响,三种关键基因与生存时间具有显著相关性(P<0.05),结果见图5。

2.6 关键基因的甲基化水平分析

为了探讨上述关键基因在肺腺癌组织和正常组织中的表达差异是否与DNA 甲基化水平有关,笔者参考了DiseaseMeth 2.0。结果显示,GNG11、COL3A1 和FOS 在肺腺癌组织中的甲基化水平高于正常组织,SPP1 和KIAA0101 在肺腺癌组织中的甲基化水平低于正常组织,结果见图6。6 个关键基因的在肺腺癌组织和正常组织中的表达差异见图7。

图3 GO 和KEGG 分析结果Fig.3 The results of GO analysis and KEGG analysis

表2 排名前10 的基因信息表Tab.2 Information table of 10 strongest genes

图4 三种算法结果排名前10 的基因在网络中的相互关系Fig.4 The interrelationships in gene networks of 10 strongest genes in three algorithms

图5 关键基因的表达与患者预后的生存曲线Fig.5 The key gene expression and survival curves of the patients'prognosis

图6 肺腺癌关键基因的甲基化分析Fig.6 The methylation analysis key genes of the patients

图7 关键基因在肺腺癌组织与正常肺组织中表达量的GEPIA 分析结果Fig.7 The key genes expression'GEPIA analysis results of pulmonary adenocarcinoma and normal lung tissue

3 讨论

当前对于肺癌的环境因素研究相对成熟,但其发生发展的分子机制尚不明确。肺腺癌基因的研究有助于明确其发生发展的病理机制,进而有利于肺腺癌疾病的诊断、治疗及其预后。随着二代基因测序和芯片技术的不断成熟,以及生物信息学的迅猛发展,肺腺癌发生发展过程中的差异表达基因筛选变得更加简易,这从分子层面为研究肺腺癌发病机制提供了更广泛的思路和更优化的条件,打开了新的视角。已有文献表明多种基因与肺腺癌的预后相关[9]。为了寻找与肺腺癌关系密切的基因,笔者从全球最大的基因表达综合数据库(GEO) 中选取了四组基因表达芯片数据集GSE10072、GSE32863、GSE43458 和GSE116959。将四组数据集整合后获得肺腺癌的差异表达基因,为了对数据整理结果进行更透彻的分析,明确结果的意义,本研究采用了多种生物信息分析方法,对筛选出的差异基因进行分析。

本研究的GO 分析表明,差异基因与细胞增殖、细胞周期和凋亡过程有关。KEEG 通路分析结果表明差异基因参与PPAR、HIF-1、CAMs 和PI3K-Akt 等信号通路。PPARγ 是核激素受体配体依赖性转录因子,在多种生物过程中扮演重要角色,包括调制的代谢、炎症反应和细胞分化,在肺腺癌中参与了肿瘤的增殖和凋亡[10]。CAMs 与肿瘤疾病的诊疗已被广泛研究,已经有大量研究表明其与肿瘤的增殖、侵袭和转移密切相关[11-14]。PI3K-Akt 信号通路作为经典的肿瘤信号通路已经在肺腺癌的发病机制中被多次报道[15-17]。生物信息学分析结果提示肺腺癌组织中差异基因与肺腺癌的发病机制密切相关,可能通过这些信号通路参与其发生发展。

本研究分析结果显示,MMP9,PECAM1,VWF,COL1A1,SPP1,TIMP1,CD34,EDN1,DCN,COL3A1,GNG11,KIAA0101 和FOS 这13个基因富集分数较高。生存分析表明PECAM1,SPP1 和KIAA0101 与患者的生存密切相关,甲基化分析结果显示,肺腺癌组织中的SPP1 和KIAA0101 甲基化程度较低,COL3A1、GNG11 和FOS 甲基化程度较高。PECAM1 是血小板-内皮细胞黏附分子(Platelet Endothelial Cell Adhesion Molecule 1),已有研究结果表明其在非小细胞肺癌中表达高于正常组织[18],笔者的分析结果与之相同,这更加验证了PECAM1 对于肺腺癌发生发展的重要意义。SPP1 是分泌性磷蛋白-1(Secreted Phosphorprotein-1),众多研究表明其参与多种病理生理过程以及肿瘤的发生发展,包括结直肠癌[19]、肝细胞[20]、肺鳞癌[21]和肺腺癌[22]等肿瘤的进展。笔者的分析结果也表明SPP1 与肺腺癌预后存在相关性。因此,SPP1 精确的分子机制在肺腺癌中的表达、定位和分子功能的进一步研究是极为必要的。KIAA0101 也被称为也PCLAF,很可能参与了细胞的增殖、分化、迁移、凋亡、代谢及DNA 修复等过程,先前有报道出其在卵巢癌[23]、胃癌[24]的表达水平异常,但是关于其与肺腺癌的相关研究为数尚少。笔者的发现为肺腺癌预后相关基因提供了新的切入点,发现肺腺癌发生发展与KIAA0101 基因的关系。有研究报道了COL3A1 与早期卵巢癌预后有关[25],FOS 对肺腺癌A549 细胞的恶性生物学行为具有抑制作用[26],其亚型c-Fos 在癌细胞中的表达明显高于癌旁组织,可导致上皮间质化,促进肿瘤转移[27]。但GNG11 与肺腺癌的研究尚未见有报道。本研究的分析结果提示COL3A1、GNG11 和FOS 可能通过甲基化调控参与了肺腺癌的发生发展。

综上所述,本研究分析发现了PECAM1、SPP1、KIAA0101、COL3A1、GNG11 和FOS 六个基因在肺腺癌组织与正常组织中表达存在显著差异,预测它们极有可能参与了肺腺癌发生发展的调控。通过甲基化分析发现它们的甲基化水平也存在差异,因此它们可能通过甲基化调控参与了肺腺癌的发展。这六个基因对于预测肺腺癌预后有一定参考意义和价值,可作为肺腺癌的生物标志物进一步研究,有望成为肺腺癌重要的诊断标志物和治疗靶点。因此,笔者的发现将有助于从分子机制了解肺腺癌的发生发展,并为肺腺癌的早期诊断、靶点治疗和预后提供新的潜在生物学标志物。

猜你喜欢
差异基因甲基化腺癌
云南地区多结节肺腺癌EGFR突变及其临床意义
十二指肠腺癌88例临床特征及相关预后因素
甲基苯丙胺改变成瘾小鼠突触可塑性基因的甲基化修饰
以盆腔巨大包块就诊的宫颈微偏腺癌2例报告
DNA甲基化与基因活性的调控
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
紫檀芪处理对酿酒酵母基因组表达变化的影响
肝癌组织hSulf-1基因表达与其甲基化状态的关系
术后抗幽门螺杆菌治疗对Ⅲ期贲门腺癌预后的研究
SOX30基因在结直肠癌中的表达与甲基化分析