基于GEO数据库筛选滤泡性甲状腺癌关键基因及生物信息学分析

2023-08-11 07:07陈保林李佳阳姜焱罗承敏鲍宇翔闫忠梁程晓明吕俊远
中国现代医生 2023年21期
关键词:生物信息学

陈保林 李佳阳 姜焱 罗承敏 鲍宇翔 闫忠梁 程晓明 吕俊远

[摘要] 目的 滤泡性甲状腺癌(follicular thyroid carcinoma,FTC)临床上较少见,其在疾病早期即可发生血行转移。本研究利用生物信息学方法探索FTC发生发展的关键基因、发掘FTC的致病机制及治疗靶点。方法 从基因表达综合数据库(gene expression omnibus,GEO)下载基因芯片GSE82208,利用R软件分析以获得差异表达基因(differentially expressed genes,DEGs),利用数据库注释、可视化和综合发现(database for annotation,visualization and integrated discovery,DAVID)在线网站对DEGs进行基因本体论(gene ontology,GO)功能分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析。对DEGs行蛋白质–蛋白质相互作用(protein-protein interaction,PPI)分析,并筛选核心基因,对核心基因进行生存分析。结果 共筛选获得74个DEGs,其中表达上调基因61个,表达下调基因13个。GO富集在细胞对锌离子的反应、细胞对镉离子反应、細胞核及金属离子结合等过程。KEGG信号通路富集在矿物质吸收信号通路。通过对PPI网络分析,筛选出核心差异表达基因MT1E、MT1F、MT1G、MT1H、MT1M、MT1X和MT2A共7个金属硫蛋白基因。生存分析发现MT1F和MT1M与甲状腺癌患者预后相关(P<0.05)。结论 金属硫蛋白介导的金属离子代谢紊乱与FTC密切相关,有望成为FTC的诊治靶点。

[关键词] 滤泡性甲状腺癌;滤泡状腺瘤;差异表达基因;生物信息学;金属硫蛋白

[中图分类号] R736.1      [文献标识码] A      [DOI] 10.3969/j.issn.1673-9701.2023.21.010

Screening and bioinformatics analysis of key genes for follicular thyroid carcinoma based on GEO databases

CHEN Baolin1,2, LI Jiayang3, JIANG Yan1,2, LUO Chengmin1,2, BAO Yuxiang1,2, YAN Zhongliang1,2, CHENG Xiaoming1,2, LYU Junyuan1,2

1.Department of General Surgery, the Affiliated Hospital of Zunyi Medical University, Zunyi 563099, Guizhou, China; 2.Department of Thyroid and Breast Surgery, the Affiliated Hospital of Zunyi Medical University, Zunyi 563099, Guizhou, China; 3.Office of Drug Clinical Trial Institution, the Affiliated Hospital of Zunyi Medical University, Zunyi 563099, Guizhou, China

[Abstract] Objective Follicular thyroid carcinoma (FTC) is rare, and hematogenous metastasis occurs more commonly in the early phase. In the present study, a bioinformatics approach was used to identify key genes and investigate the pathogenesis and therapeutic targets of FTC. Methods The gene microarray data GSE82208 was downloaded from the gene expression omnibus (GEO) database. We used R software to screen the differentially expressed genes (DEGs) from the gene microarray datas. The database for annotation, visualization and integrated discovery (DAVID) online database was used to perform the gene ontology (GO) function analysis, Kyoto Encyclopedia of Genes and Genomes (KEGG). The protein-protein interaction (PPI) network of DEGs was analyzed, screen the hub genes, and patient survival analysis were performed. Results A total of 74 DEGs were screened out from gene expression profile, of which 61 were up-regulated and 13 were down-regulated. GO is enriched in cellular response to zinc ion, cellular response to cadmium, nucleus and metal ion binding. KEGG signaling pathway involves in mineral absorption signaling pathway. A total of 7 metallothionein genes were screened out through the PPI network, including MT1E, MT1F, MT1G, MT1H, MT1M, MT1X and MT2A. Finally, we found MT1F and MT1M had a significant impact on the survival rate of thyroid carcinoma patients (P<0.05). Conclusion The disorder of metal ion metabolism mediated by metallothionein is closely related to FTC, and is expected to become a diagnostic and therapeutic target for FTC.

[Key words] Follicular thyroid carcinoma; Follicular adenoma; Differentially expressed genes; Bioinformatics; Metallothioneins

近年來,甲状腺癌发病率居高不下,在过去30年间呈现急剧增长[1]。据统计,2023年全世界将新增甲状腺癌病例43 720例[2]。滤泡性甲状腺癌(follicular thyroid carcinoma,FTC)是一种少见的分化型甲状腺癌,具有明显血管侵犯性,在疾病早期即可通过血行转移至肺、肝、骨及中枢神经系统,使患者预后不良[3-4]。由于FTC较少见,目前缺乏大宗病例研究,对其致病机制及治疗靶点知之甚少。因此,本研究利用生物信息学方法分析FTC的关键基因,探索其致病机制,并寻找潜在治疗靶点。

1  资料与方法

1.1  一般资料

登录基因表达综合数据库(gene expression omnibus,GEO)(https://www.ncbi.nlm.nih.gov/geo),以“follicular thyroid carcinoma”为关键词检索,选择“homo sapiens”“tissue”“expession profiling by array”,下载符合条件的基因数据矩阵文件GSE82208,该芯片文件来自GPL570平台[(HG-U133_Plus_2)Affymetrix Human Genome U133 Plus 2.0 Array],数据集包含FTC样本27例,滤泡状腺瘤样本25例,样本信息见表1。

1.2  数据处理和DEGs筛选

下载基因矩阵数据后,利用perl 5.32.1和R 4.0.5软件及limma、ggplot、clusterProfiler等R包处理。通过背景校正、标准化及表达值计算进行差异表达基因(differentially expressed genes,DEGs)筛选,定义满足条件|log2(FC)|>1和校正后P<0.05为有效的DEGs,即在有统计学意义的条件下DEGs表达水平是对照组的2倍。并将筛选参数log2(FC)>1的DEGs定义为上调基因,log2(FC)<–1的DEGs定义为下调基因,分别得到数据集中具有差异表达的上调基因和下调基因。

1.3  GO功能注释与KEGG通路富集分析

数据库注释、可视化和综合发现(database for annotation,visualization and integrated discovery,DAVID)(https://david.ncifcrf.gov/)是一种流行的生物信息学资源系统,主要用于基因列表的功能注释和富集分析[5]。为了解DEGs的生物学功能及参与的信号通路,将DEGs上传至DAVID网站,进行基因本体论(gene ontology,GO)注释分析和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,研究分析生物过程(biological process,BP)、分子功能(molecular function,MF)、细胞组成(cellular component,CC)和参与的信号通路富集情况,设置条件为P<0.05。

1.4  PPI分析与核心基因筛选

String(https://www.string-db.org)是相互作用信息最大的蛋白质相互作用在线数据库,可提供大量已知或未知蛋白质之间直接或间接作用关系数据[6]。将所得到的DEGs上传至String并预测DEGs的蛋白质–蛋白质相互作用(protein-protein interaction,PPI)网络作用,物种来源选择“homo sapiens”。将得到的String结果上传至Cytoscape 3.7.2软件中,利用MCODE插件提取关键子网,根据节点得分从大到小的顺序提取出表达较为聚集的子集,将其定义为核心基因。

1.5  生存预后分析

UALCAN(http://ualcan.path.uab.edu)是一个基于TCGA、CPTAC、CBTTC等多平台的开放数据库,可进行全面的基因分析,如表达谱分析、临床特征分析、生存分析、泛癌分析等[7]。鉴于目前缺乏FTC基因表达数据库,笔者利用UALCAN中的“TCGA分析”功能,分析核心基因对甲状腺癌患者生存预后的影响曲线,观察基因高表达与低表达样本之间的预后差异性。

2  结果

2.1  DEGs的筛选结果

在数据校正及标准化后(图1),通过对比分析FTC组和滤泡状腺瘤组表达差异的基因,GSE82208共筛选出74个DEGs,其中表达上调基因61个:LIMK2、ZFYVE21、SLC5A3、MAFB、ITIH5、CBX7、MT1M、C2orf42、SLC43A3、SGK223、GJA1、RSPH1、MIOX、GLUL、LMOD1、IER2、FOS、SCN4B、FCGBP、AFAP1L2、LTF、ID1、MT1G、DUSP1、CSGALNACT1、LOC101929122、SLCO2A1、CRABP1、TIMP3、MT1F、LOC101928303、SELENBP1、SMCO4、TPST2、MT1E、CA4、LRP1B、MT1X、SSPN、GLT8D2、MT1H、RAMP3、RP11-389C8.2、PLAT、DNALI1、CTB-50L17.7、SDF2L1、PRICKLE2、CYYR1、CRELD2、TSHZ3、MT2A、CPQ、CLIC3、GNA14、EMCN、AOC3、MT1HL1、FNDC1、PHYHD1、ID3。表达下调基因13个:ELOVL4、HIST3H2A、CENPK、TOP2A、UBE2C、C2orf88、MKX、MANEAL、SLC7A5、CIART、MST4、EPHX4、UBE2T。笔者通过R语言显示出数据集的差异基因火山图(图2A),并绘制DEGs热图,体现出差异基因的聚集程度(图2B)。

2.2  GO功能注释与KEGG通路富集分析

将74个DEGs通过DAVID进行GO功能注释分析和KEGG通路富集分析。GO功能分析显示,生物过程主要集中在细胞对锌离子反应、细胞对铜离子反应、负性调控增长和细胞对镉离子反应等;细胞组成分布在细胞核和高尔基体;分子功能有锌离子结合和金属离子结合,见表2。DEGs的KEGG通路富集分析显示涉及矿物质吸收,见表3。

2.3  PPI分析与核心基因筛选

通过String对74个DEGs进行PPI分析,见图3A。将得到的String文件上传至Cytoscape3.7.2软件,利用MCODE插件按节点得分从大到小的顺序分析得到两簇交点最多的基因簇,分值为6分,具有7个节点和18条线,将其定义为核心基因,共获得7个核心基因,且全部为上调基因,包括MT1E、MT1F、MT1G、MT1H、MT1M、MT1X和MT2A,均属于金属硫蛋白(metallothioneins,MTs)基因家族,见图3B。

2.4  核心基因生存预后

使用UALCAN对MT1E、MT1F、MT1G、MT1H、MT1M、MT1X和MT2A进行生存分析发现,MT1F和MT1M与甲状腺癌患者生存预后相关(P<0.05),见图4,高表达组较低/中表达组预后差,生存时间更短。

3  讨论

甲狀腺癌发病率在全世界已引起广泛的关注,FTC作为少见的分化型甲状腺癌,在早期经常侵犯血管或包膜,患者预后较差[8]。因此,早期准确诊断FTC尤为重要。随着生物信息学的发展,微阵列技术已广泛应用于各种癌症的诊断与治疗研究,其中包括甲状腺癌[9]。因此,应用生物信息学技术探索FTC的有效诊断标志物成为可能。

本研究通过GEO下载的基因数据集,以滤泡状腺瘤为对照组,对数据集进行整合分析,筛选得到74个DEGs,包括表达上调基因61个,表达下调基因13个。GO功能注释和KEGG富集分析显示,DEGs主要富集于细胞对锌离子反应、细胞对铜离子反应、细胞对镉离子反应、细胞核及金属离子结合。这些结果表明FTC的恶性发展机制可能与细胞对某些金属离子结合吸收存在根本的联系或相关性。已有研究报道,当DNA结合区域中锌离子缺失或结合力改变时,突变的TP53蛋白将形成无法降解的超稳定的微观或宏观聚集体在肿瘤细胞中积累,促进癌细胞的侵袭和转移,甚至形成耐药[10]。镉离子在人体中过度积累易导致肝肾功能障碍、骨软化及造血系统损害[11]。矿物质是人体七大营养素之一,对维持生命至关重要。研究发现,矿物质的缺乏和不足可能与癌症有关或增加患癌风险,如维生素D的有效补充和吸收可预防结直肠癌、乳腺癌、前列腺癌等[12-13]。

本研究通过构建差异表达基因PPI网络,利用MCODE插件计算出7个核心基因,分别为MT1E、MT1F、MT1G、MT1H、MT1M、MT1X、MT2A,均为上调基因并同属于MTs亚型。MTs是一种低分子量的富含半胱氨酸的胞质蛋白,大量研究表明MTs的表达与癌症进展及预后有关[14-15]。研究证实MTs在癌组织中的表达与Ki-67呈正相关,包括基底细胞癌、脂肪肉瘤及滑膜肉瘤等,提示MTs与肿瘤细胞增殖相关[16-17]。此外,MTs的过表达可促进胸膜间皮瘤、大肠癌、卵巢癌等多种肿瘤对铂类药物的耐药性[18-20]。Weinlich等[21]通过对1270例黑色素瘤患者随访分析,发现MTs的过表达严重降低患者的生存率。而对甲状腺癌,MTs可能扮演双重角色。一方面Królicka等[22]与Schmid等[23]研究均证实MTs在FTC中高表达,尽管目前仍缺乏相关研究明确MTs表达上调对FTC的作用机制,但结合本研究生存分析发现,MT1F、MT1M与甲状腺癌预后呈负相关,提示MTs可能是促进FTC发生发展的关键因子;另一方面,研究表明MTs在甲状腺癌中高表达而在甲状腺良性病变中低表达,因此MTs还可作为鉴别甲状腺癌良恶性病变的标志物[24]。

综上所述,本研究利用生物信息学方法对公共数据进行分析,阐明FTC发生发展的重要生物学过程与信号通路,最终发现以MT1F、MT1M为代表的MTs家族可能是FTC发生发展的关键基因,为FTC发生机制的研究及分子靶向治疗提供新的视角。但本研究也有不足之处,由于FTC发病率低,目前缺乏可提供研究基因表达与FTC预后的数据库,未能进行MTs与FTC的生存分析,有望后续结合临床数据探讨MTs对FTC患者生存预后的影响。

[參考文献][1] SEIB C D, SOSA J A. Evolving understanding of the epidemiology of thyroid cancer[J]. Endocrinol Metab Clin North Am, 2019, 48(1): 23–35.

[10] GARUFI A, FEDERICI G, GILARDINI MONTANI M S, et al. Interplay between endoplasmic reticulum (ER) stress and autophagy induces mutant p53H273 degradation[J]. Biomolecules, 2020, 10(3): 392.

[18] BORCHERT S, SUCKRAU P M, WALTER R F H, et al. Impact of metallothionein-knockdown on cisplatin resistance in malignant pleural mesothelioma[J]. Sci Rep, 2020, 10(1): 18677.

猜你喜欢
生物信息学
中药蛋白质组学研究策略
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
生物信息学课堂危机及对策研究
论生物信息学研究进展及在蛋白质组学研究中的应用
农学类专业《生物信息学》课程教学改革探讨
微生物二元网络作用关系研究