基于生物信息学筛选、分析和验证骨肉瘤差异基因*

2021-04-02 06:59郭良煜余铃陈敬腾龚长天施玉博郭卫春
肿瘤预防与治疗 2021年3期
关键词:蛋白激酶网络图信息学

郭良煜,余铃,陈敬腾,龚长天,施玉博,郭卫春

430060 武汉,武汉大学人民医院 骨科

骨肉瘤是儿童和青少年中最常见的原发性恶性骨肿瘤,具有恶性程度高、转移早、转移率高、侵袭力强等特点[1-2]。骨肉瘤最常见的部位是股骨远端,且早期就会出现肿瘤转移,转移部位最常见于肺部,其次是髂骨部位,并且是一个不良的预后指标[3]。早期对骨肉瘤的治疗多以截肢为主,但预后较差,随后引入化疗从而改善了患者的预后[4]。至此,手术加化疗成为骨肉瘤治疗中常用的治疗方法。但即使这样,骨肉瘤患者的5年生存率仍不足20%[5]。因此,寻找新的治疗方法提高骨肉瘤患者生存率的研究一直在进行。

近几年,学者们开始运用生物信息学筛选与骨肉瘤有关的基因,如通过GEO数据库筛选出与骨肉瘤相关的基因GMFG[6]; 张晋煜[7]利用生物信息学发现NQO1、ALDH3A1基因的低表达提示骨肉瘤患者的预后不良;此外,Zhu等[8]筛选出了7个关键基因SLC18B1、RBMXL1、DOK3、HS3ST2、ATP6V0D1、CCAR1和C1QTNF1,都与骨肉瘤的能量代谢有关。虽然相关研究发现了一些骨肉瘤潜在的分子靶标,但与常见的肿瘤如肺癌、肝癌等相比,治疗该病的分子靶标相对较少。因此,本文通过查找GEO数据库中的骨肉瘤数据从而找出差异基因,并通过Gene Ontology(GO)富集分析、Kyoto Encyclopedia of Genes and Genomes(KEGG)通路分析和蛋白互作(protein-protein interactions,PPI)网络图找出最具有意义的基因,为新的治疗方案提供参考或线索。

1 材料和方法

1.1 基因芯片的检索和选取

登录GEO数据库(http://www.ncbi.nlm.nih.gov/geo/),输入检索目标“osteosarcoma和bioinformatics”,找出已经公布的骨肉瘤基因芯片数据集[9]。随后进行骨肉瘤数据集的筛选工作,所纳入的骨肉瘤数据集必须满足2个条件,否则不予纳入:1)包含骨肉瘤病变组织或细胞系和正常骨组织或细胞系;2)基因芯片是人类全基因组数据。筛选出数据集GSE36001和GSE12865。GSE36001平台包含20个骨肉瘤细胞组和6个正常组(2个成骨细胞系和4个正常骨组织);GSE12865包含12个骨肉瘤组织组和2个正常组(2个成骨细胞系)。

1.2 筛选差异基因

采用GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)筛选差异基因[10]。将GSE36001和GSE12865中的骨肉瘤组和正常组数据导入GEO2R中,筛选条件为校正后P<0.05,随后差异基因以火山图展示。然后将差异基因导入韦恩图在线制作软件(http://bioinformatics.psb.ugent.be/webtools/Venn/)制作韦恩图。

1.3 差异基因功能注释和通路分析

DAVID(http://david.ncifcrf.gov)是一个公开的数据库,整合了生物学数据和分析工具,其中包括了GO和KEGG分析等重要功能[11]。将差异基因导入DAVID数据库中进行GO和KEGG分析,筛选条件为P<0.05。

1.4 构建和分析蛋白质相互作用网络

STRING数据库(第10.5版,https://string-db.org/cgi/input.pl)是进行蛋白质相互作用的数据库[11],将GO和KEGG分析后所得到的差异基因导入到STRING 9.1数据库中,置信度选择“Medium 0.400”,随后将STRING 9.1数据库中得到的数据导入到Cytoscape(第3.6.1版,http://www.cytoscape.org/)中得到PPI网络图,随后使用CytoHubba插件按照Degree算法选取PPI网络图中排名前5的基因[12]。

1.5 HCMDB数据库验证

HCMDB是一个用于存储和分析肿瘤的数据库。其中数据库的来源主要来于GEO和TCGA数据库,一共收集了124个以前发表的转录组数据集,包含了29种癌症类型。将由CytoHubba得到的基因输入HCMDB中进行验证。

2 结 果

2.1 确定共同的差异基因

通过GEO2R在线分析GSE36001和GSE12865两个数据集,筛选出421个共同的差异基因(图1A),其中有187个基因是上调基因,234个基因是下调基因(图1B)

图1 差异基因的火山图和维恩图

2.2 差异基因的功能注释和分析

对所筛选出来的421个差异基因进行GO和KEGG分析,按照P值进行排序,排名前5的结果见表1、2。在生物进程方面,差异基因参与的前5个生物学过程为蛋白激酶活性的激活、肽基-酪氨酸磷酸化的正调控、蛋白激酶C激活G蛋白偶联受体信号通路、共同伴侣SMAD蛋白磷酸化和蛋白丝氨酸/苏氨酸激酶活性的正向调节。分子功能方面,差异基因的前5个功能为蛋白结合、肝素结合、蛋白的同源二聚化活动、离子型谷氨酸受体结合和蛋白激酶结合。细胞成分方面,差异基因前5个存在部位为胞外的外泌体、突触前膜、粘着斑、脂筏和突触后密度。信号通路方面,差异基因参与了Rap1信号通路、百日咳病、肾素分泌、甘油磷脂的新陈代谢和磷脂酰肌醇信号系统。

表1 差异基因的GO分析

表2 差异基因的KEGG分析

2.3 PPI网络图的构建

将差异基因导入到STRING数据库中得到PPI网络图(图2),随后用CytoHubba软件,根据Degree得出排名前5的基因(图3),依次为:SMAD2、CD44、CXCL12、UBE2D3和KEAP1,5个基因均在骨肉瘤中下调。

图2 蛋白-蛋白互作网络图(PPI)

图3 PPI网络图中的前5个差异基因

2.4 数据库验证

将CytoHubba软件得到的排名前5的基因输入HCMDB数据库中进行验证,以P<0.05为筛选条件,图4显示CD44、CXCL12、UBE2D3和KEAP1的表达水平与GSE36001和GSE12865的分析结果一致,在骨肉瘤中的表达均下调,差异具有统计学意义(P<0.001、P<0.001、P<0.001和P=0.021)。

图4 CD44,CXCL12,UBE2D3和KEAP1在数据库中的表达

3 讨 论

骨肉瘤是最常见的恶性骨肿瘤,当前的治疗主要以手术切除加放化疗为金标准,但治疗效果往往不佳[13]。近年来,随着生物信息学技术的高速发展,可以挖掘疾病发生进展中的关键基因,为探索疾病的发病机制和治疗带来好处。例如Zheng等[14]认为LHPP蛋白的过表达可以抑制宫颈癌的增殖和转移;Tan等[15]确认了BZRAP1-AS1是前列腺癌的一个预后指标;Cao等[16]认为COL1A12的表达在胃癌患者中具有重要意义,可以作为胃癌患者的预后指标。因此,可以通过利用生物信息学的方法预测潜在的靶基因。

首先,本研究组选取GSE36001和GSE12865两个数据集,采用GEO2R选出差异基因,GEO2R是GEO数据库自带的差异基因分析工具,它能够比较两个或者多个样本之间的区别从而寻找出差异基因。本研究共筛选出421个基因,其中187个上调基因和234个下调基因。随后用DAVID数据库对差异基因进行GO和KEGG分析,GO分析主要包括3个方面:细胞成分、分子功能和生物进程;KEGG是一个包含了基因组学、基因所参与的生物学途径、疾病和化学物质等基本信息的数据库。 将421个差异基因进行分析后,在生物进程方面差异基因参与蛋白激酶活性的激活、肽基-酪氨酸磷酸化的正调控、蛋白激酶C激活G蛋白偶联受体信号通路等过程。分子功能方面差异基因功能为蛋白结合、肝素结合、蛋白的同源二聚化活动等功能。细胞成分方面差异基因存在部位为胞外的外泌体、突触前膜、粘着斑等部位。信号通路方面差异基因参与了Rap1信号通路、百日咳病及肾素分泌等通路。随后将差异基因导入到STRING数据库中得到PPI图,而Cytoscape软件是一款可以将PPI可视化的软件,可以对PPI进行后续的分析,再使用插件CytoHubba根据Degree(代表一个基因相邻分子的数量)筛选出排名前5的基因SMAD2、CD44、CXCL12、KEAP1和UBE2D3。最后在HCMDB数据库中对5个基因进行验证,发现CD44、CXCL12、KEAP1和UBE2D3在骨肉瘤中的表达均下调,差异具有统计学意义(P<0.05),且与GSE36001和GSE12865的分析结果相一致,其中的3个基因已有文献报道与骨肉瘤有相关性。研究者发现在骨肉瘤细胞中过表达CD44,接种裸鼠后增加了骨肉瘤肺转移的概率[17];Shi等[18]对骨肉瘤转移样本和非转移进行生物信息学分析后发现CXCL12在两组中的表达量有差异且具有统计学意义;研究人员发现KEPA1在骨肉瘤中是低表达,且其表达与骨肉瘤患者的预后相关,表现为低表达患者预后较差[19]。虽然还没有UBE2D3与骨肉瘤相关的研究,但数据库提示在骨肉瘤中的表达具有统计学意义,且文献报道UBE2D3的过表达增加了食管癌细胞放疗的敏感性[20]。

总之,本次研究通过GEO数据库里的数据信息进行了挖掘和分析,分析结果提示CD44、CXCL12、UBE2D3和KEAP1可能与骨肉瘤发生发展有关。在本次研究中,因GEO数据库缺乏骨肉瘤患者的生存时间和生存状态,无法准确预测这些基因与骨肉瘤预后的关系,因此未来还需要继续在GEO 数据库中去发掘和探索更多符合研究条件的样本芯片表达谱数据并进行验证。

作者声明:本文全部作者对于研究和撰写的论文出现的不端行为承担相应责任;并承诺论文中涉及的原始图片、数据资料等已按照有关规定保存,可接受核查。

学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统的学术不端检测。

同行评议:经同行专家双盲外审,达到刊发要求。

利益冲突:所有作者均声明不存在利益冲突。

文章版权:本文出版前已与全体作者签署了论文授权书等协议。

猜你喜欢
蛋白激酶网络图信息学
基于磷脂酰肌醇-3-激酶/蛋白激酶B/葡萄糖转运蛋白4通路的中药治疗糖尿病新进展
基于蛋白激酶的喉癌预后预测模型的构建与评估
鸡NRF1基因启动子区生物信息学分析
网络图计算机算法显示与控制算法理论研究
生物信息学辅助研究乳腺癌转移相关lncRNA进展
解析参与植物胁迫应答的蛋白激酶-底物网络(2020.2.11 中国科学院)
谷子抗旱相关蛋白激酶基因家族鉴定及表达分析
PBL教学模式在结构生物信息学教学中的应用
网络图在汽修业中应用
叙事文的写作方法