生物信息学方法筛选鼻咽癌的7个关键基因

2022-08-12 05:53吴师雄方佳宇周绪红
武汉大学学报(医学版) 2022年2期
关键词:鼻咽癌样本蛋白

吴师雄 谢 静 方佳宇 周绪红

武汉大学中南医院耳鼻咽喉-头颈外科 湖北 武汉 430071

鼻咽癌(nasopharyngeal carcinoma,NPC)是头颈部最常见的恶性肿瘤之一,由于NPC发病部位较隐蔽,并且早期无明显症状,大部分患者难以在早期确诊[1]。目前,因为大多数鼻咽癌为鳞状细胞癌,治疗鼻咽癌首选的方法为放疗。为了进一步提高患者的生存率,常采用手术治疗、化疗、放疗联合进行的方法[2]。在过去的研究中,研究差异表达基因最常见的研究方向是分子靶向和诊断标志物,如Jiang等[3]的研究证实,6-高甲基化基因与鼻咽癌患者生存负相关,尽管如此,我们仍需进一步对鼻咽癌的发生发展机制进行深入探索。

基因芯片技术可以高通量、大规模检测肿瘤基因,并且因其具有可自动化、集成化等优点而被广泛应用于各个领域[4]。本研究通过基因芯片技术及生物信息学技术,将鼻咽癌组织和正常鼻咽部组织基因表达谱数据进行生物信息学分析,筛选出相关差异表达基因,对筛选出的基因进行构建加权基因共表达网络,并且对差异基因进行聚类及功能富集分析,同时构建蛋白互作网络,进一步筛选出核心基因,并将对两者结果取交集,最终得到7个核心基因,可为鼻咽癌提供更多的潜在生物标记物以供后续研究。

1 资料与方法

1.1 芯片数据集下载和实验设计从NCBI的GEO数据库(https://www.ncbi.nlm.nih.gov/)下载了数据集GSE13597和相应的NPC临床资料,该数据集包含了25个NPC样本和3个正常样本。临床资料包括组织学分级、病理分期及大量随访资料。本研究利用数据集和临床资料寻找差异基因并构建加权基因共表达网络。另外,我们还从GEO数据库中下载了GSE12452数据集,此数据集涉及31个NPC样本、10个正常样本和相应的临床信息,进一步验证了我们的核心基因。

1.2 芯片数据预处理和差异基因筛选使用R软件 中 的“Affy”包[5]进 行 归 一 化 处 理 数 据 集GSE12452,采用RMA方法进行背景校正。最后,我们利用R软件中的“limma”包[6]筛选31个NPC样本和10个正常样本之间的差异基因。在此我们设定差异基因筛选标准为错误发现率(FDR)<0.05,基因表达值倍数变化(fold change,|log2FC|)≥1。

1.3 构建加权基因共表达网络利用R软件的“WGCNA”包[7]来构建数据集GSE13597中28个NPC样本的838个差异基因的共表达网络。首先,通过皮尔森相关分析检测出离群的微阵列样本,该结果显示没有离群的样本,我们保留了来自差异基因分析的微阵列数据。其次,我们确定了拓扑分析的软阈值β=6,然后将邻接矩阵转化为拓扑重叠矩阵(TOM)[8]。在此同时,我们使用TOM进行层次聚类,并且使用动态树切割算法进行模块筛选。模块特征基因是各模块基因表达矩阵中最重要的组成部分,它可以代表模块基因的表达谱。

1.4 重要基因模块的标识和功能注释通过WGCNA的模块-性状关系分析,来计算模块与临床表型的相关性,组织学分级和病理分期均被选为合适的临床表型。然后,我们可以分析与组织学分级和病理分期的临床表型相关的基因模块。为了研究草绿色模块的主要功能途径,我们使用R软件中的“clusterProfiler”包[9]进行了基因本体(gene ontology,GO)及京都基因与基因组百科全书通路(Kyoto Encyclopedia of Genes and Genomes pathway,KEGG pathway)分析。在这一步中,将具有统计学意义的临界值设置为P<0.05。

1.5 蛋白互作网络分析蛋白互作网络(proteinprotein interation,PPI)可以为细胞活动的分子机制提供信息。使用字符串数据库(https://string-db.org/)[10]来构建蛋白互作网络,设置阈值为综合评分>0.4。将所得结果利用Cytoscape[11]来可视化所有核心基因的网络图,然后计算默认参数下蛋白互作网络的属性。最后,我们进行连接度分析,并识别核心基因。总而言之,我们通过基因表达来重建生物网络,并希望在这一步骤中发现新的规律。

2 结果

2.1 差异表达基因的筛选我们使用R软件中的“limma”包来评估数据过滤后的质量。在这一步中,我们筛选出了838个差异基因,包括上调和下调的基因(如图1)。

图1 鼻咽癌组织和正常鼻咽部上皮组织差异基因表达热图

2.2 加权基因共表达网络的构建利用R软件中的“WGCNA”包来构建差异基因的共表达网络(如图2),通过聚类分析筛选出表达谱相似的基因模块,因为具有调控关系或相互作用的基因往往会表现出相似的表达模式。选择软阈值为β=6,以确保我们的研究在一个无标度网络中。我们在这一步一共筛选了4个聚类的基因模块,用作于下一步的分析。

图2 加权基因共表达网络的软阈值测定

2.3 重要模块的标识和功能注释在这4个基因模块中,每种颜色代表一个与肿瘤分级和分期显著相关的基因模块。通过模块-特征关系分析,我们可以知道草绿色模块在肿瘤的病理分期中具有最高的基因显著性。所以我们选择草绿色模块作为研究的重点模块,并将其用于后续的分析。为了找到与NPC密切相关的关键模块及其生物学过程,我们对所有基因模块进行了GO富集分析和KEGG通路分析(如图3)。GO富集分析显示,差异表达基因主要涉及蛋白同化作用、调控细胞增殖、细胞黏附等分子功能和生物学过程。KEGG信号通路分析显示显著富集的通路包括细胞周期、癌症通路、氨基糖和核苷酸糖代谢、癌症中的转录失调等。

图3 模块功能注释

2.4 蛋白互作网络分析我们构建了蛋白互作网络分析对差异基因的蛋白相互作用进行可视化分析(如图4),根据相关性排序,取节点数目最多,也就是相关度最高的前10位的核心蛋白,并且与共表达网络中的草绿色模块里的基因取交集,最后得到7个最终的核心基因:NCAPG、CCNA 2、CDC45、TTK、RACGAP1、CCNB1、KIF11。

图4 鼻咽癌临床特征相关模块的鉴定及蛋白互作网络的构建

3 讨论

鼻咽癌主要来源于鼻咽部上皮细胞,具有极强的转移能力[12]。是中国南部及东南亚最常见的头颈部恶性肿瘤。此前多项研究表明鼻咽癌与EB病毒等相关[13]。越早发现,鼻咽癌的治疗疗效越好。它的发生发展常涉及到多个基因的改变,因此,全面了解鼻咽癌的分子机制对疾病的诊断和治疗至关重要。随着二代测序技术的快速发展,生物信息学技术使广大研究者们更易成规模地检测出肿瘤的基因变化,并且已经在各大肿瘤的研究领域得到广泛应用。本研究通过对GSE12452的差异基因分析得到838个差异基因,并将此结果纳入另一基因组GSE13597中构建加权基因共表达网络,并且经过GO富集和KEGG通路分析揭示了差异基因主要参与的细胞生物学过程。最后经过与差异基因的蛋白互作网络相互取交集,获得了相关性最强的7个 核 心 基 因NCAPG、CCNA 2、CDC45、TTK、RACGAP1、CCNB1、KIF11。并 且 使 用GO及KEGG数据库对目的基因进行分析,发现这些差异基因的功能主要集中在细胞周期相关的分子生物学功能和通路。细胞周期是细胞增殖的基本过程,其活性的增加可导致肿瘤的进展[14],这与上述生物信息学分析的结论一致。

在这7个核心基因中,我们发现NCAPG与细胞的侵袭、迁移、增殖和凋亡均相关[15],NCAPG是染色质浓缩复合体[16]的重要组成部分,会对细胞生长产生负面影响[17]。而RACGAP1是鸟嘌呤三磷酸酶激活蛋白家族的成员,与细胞的侵袭相关[18],可促进肿瘤的发展[19]。在之前的研究中,我们可以得知核心基因CCNA 2、RACGAP1、CCNB1与之前的研究结果一致[20-22],在我们的研究中进一步验证了其与鼻咽癌在更深层次上的研究价值,同时,我们也发现了新的基因NCAPG、CDC45、TTK、KIF11。这4个基因虽然在其他肿瘤中被证实有着相应的作用[23-26],但与鼻咽癌发生发展过程的相关性研究暂未开展,这为我们日后进一步的研究提供了新的方向。

总之,我们通过基因芯片技术及系统的生物信息学分析,对一系列差异基因进行了研究,为鼻咽癌提供了更多的潜在生物标记物,对研究鼻咽癌发生发展的分子机制提供了有效指导。

猜你喜欢
鼻咽癌样本蛋白
miRNA在鼻咽癌中的研究进展
RNA结合蛋白与恶性肿瘤发生发展关系的研究进展
细砂糖对法式蛋白糖的质量影响研究
鼻咽癌高发,该如何预防
警惕:这些症状不引起重视,小心鼻咽癌找上身!
规划·样本
水通道蛋白的发现
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
鼻咽癌有哪些症状?