前列腺癌相关基因、癌组织差异表达基因及预后相关基因筛选

2023-01-06 04:38梅玉洁赛麦提喀日阿布都巴日安恒庆陶宁
山东医药 2022年15期
关键词:关键样本模块

梅玉洁,赛麦提喀日·阿布都巴日,安恒庆,陶宁,3

1 新疆医科大学公共卫生学院,乌鲁木齐 830017;2 新疆医科大学第一附属医院泌尿三科;3 新疆泌尿男生殖系统临床医学研究中心

前列腺癌(PCa)是男性常见的癌症之一,在全球男性恶性肿瘤中,发病率排第二[1]。前列腺特异性抗原(PSA)是PCa 早期诊断标志物[2],但是依靠PSA 检测并不能准确诊断PCa,并且PSA 也与前列腺其他良性疾病有关,常会造成误诊[3]。为了提高PCa 患者的早期诊断率并改善其预后,确定新的有效生物标志物至关重要。加权基因共表达网络分析(WGCNA)在2005 年由ZHANG 等提出,能够从大数据中快速地提取与样本特征相关的基因模块,以供后续分析,为寻找疾病相关生物标志物提供了很大便利。因此,本研究采用WGCNA 方法筛选与PCa相关性最高的基因模块(关键基因模块)及关键基因,通过对配对的PCa 组织和正常癌旁组织样本基因表达分析,进一步筛选其中的PCa 关键差异表达基因及预后相关基因,为PCa 患者提供新的研究靶点。

1 材料与方法

1.1 数据及其来源 从GEO数据库(https://www.ncbi. nlm. nih. gov/geo/)中,通过以下条件“Prostate cancer”、“Series”、“Homo sapiens”及“Sample count大于15”搜索PCa相关数据集,从中筛选含配对正常癌旁组织的数据集。最后选择下载了GSE104131 数据集的转录组测序标准化后的FPKM 数据及相关资料。GSE104131 数据集是通过平台GPL16791 Illumina HiSeq 2500(Homo sapiens)测序生成的,包括16 个患者的PCa 组织样本及其正常癌旁组织样本,共32个样本,病种来源于美国。

下载GSE69223 数据集的原始数据和平台数据。GSE69223 数据集是通过平台GPL570[HGU133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array 生成,包括15 个患者的PCa 组织样本及其正常癌旁组织样本,共30个样本,病种来源于德国。

采用 Rstudio 4. 0 软件 affy 包处理 GSE69223 数据集的原始数据,获取探针和样本的表达矩阵,并利用平台数据将探针名称转换为基因名称,GSE104131 数据集的FPKM 数据只需提取基因和样本的表达矩阵,最后对两个表达矩阵进行log2转换,后续分析将处理过的两个表达矩阵称为GSE69223数据集和GSE104131数据集。

1.2 PCa 组织关键基因模块的筛选及通路富集分析 在Rstudio 4. 0 软件中,加载WGCNA 包对GSE104131 数据集进行WGCNA 分析。首先,选择数据集中基因表达量排名前5 000的基因;然后对数据进行样本聚类,并去除差异较大的样本;其次,通过分析每对基因之间的Pearson相关性,生成关系矩阵;最后根据无标度拓扑拟合指数(R2)值和平均连接度,确定最佳软阈值(β),由此构建WGCNA[4]。

根据基因间的高拓扑重叠度将相似基因合并构建为多个基因模块,并根据模块间的协同表达情况对基因模块进行聚类,合并相似度较高的模块,计算每个模块与PCa 之间的相关性,最后选择和PCa 关联度最高的基因模块作为关键基因模块。

在 Rstudio 4. 0 软件中,加载 clusterprofiler 包对关键基因模块中的基因进行KEGG 分析,观察关键基因模块的生物信号通路富集情况。

1.3 PCa 组织关键基因的筛选 计算关键基因模块中所有基因的基因显著性(GS)值和模块身份(MM)值,根据|MM|>0. 8、|GS|>0. 8,筛选出与关键基因模块、PCa 均高度相关的基因作为关键基因[4]。GS 代表基因与疾病的相关性,MM 代表基因与模块的相关性。

1.4 PCa 组织关键差异表达基因的筛选 在GSE104131、GSE69223 两个数据集中通过 t 检验或非参数检验比较关键基因在PCa组织与正常癌旁组织中的表达情况,将差异有统计学意义的关键基因作为关键差异表达基因。

1.5 PCa 组织预后相关基因的筛选 GEPIA2 数据库(http://gepia2. cancer-pku. cn/)包括来自TCGA和GTEx 项目的9 736 个肿瘤和8 587 个正常样本RNA测序表达数据[5],本研究在GEPIA2数据库中进行Kaplan-Meier 生存分析,根据关键差异表达基因表达量的中位数将数据分为高表达组和低表达组,生存指标分别选择总体生存期(OS)和无病生存期(DFS),数据选择“PRAD”癌症选项(PRAD是数据库中 PCa 的简称),共有492 个PCa 样本,进行生存曲线绘制。选择两组生存曲线比较差异有统计学意义的关键基因作为PCa组织预后相关基因。

1.6 统计学方法 采用Rstudio 4.0 和SPSS26.0软件进行统计分析。计量资料中,符合正态分布采用表示,两组间比较采用 t 检验,否则采用中位数(M)及四分位数(P25,P75)表示,两组间比较采用非参数检验。以P<0.05 为差异有统计学意义。

2 结果

2.1 PCa 组织关键基因模块及调控的信号通路最终确定了10个基因模块并进行了颜色编码,其中灰色模块是未聚类的基因集(以下分析不关注该模块)。根据基因模块与PCa 相关性,棕色、黄色、青色、粉色、绿色、灰色、黑色、红色、蓝色、紫色模块与PCa 的r 分别为 0.86、0.52、0.43、0.30、0.25、0.21、-0.041、-0.24、-0.49、-0.66,P 分 别 为 <0.01、0.006、0.02、0.1、0.2、0.3、0.8、0.2、0.01、<0.01。棕色模块与PCa 组织的相关性最高(r=0.86,P<0.01),最终确定棕色模块为本研究的关键基因模块,其中包含789个基因。

关键基因模块内的基因主要富集于内质网中的蛋白质加工通路。

2.2 PCa 组织关键基因 关键基因模块中,|MM|>0.8、|GS|>0. 8 的基因有 14 个,分别是 P4HB、ERGIC1、FOXA1、RP11-498C9.2、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D,将这14 个基因作为PCa 组织的关键基因。

2.3 PCa 组织关键差异表达基因 GSE104131 数据集中,PCa 组织中关键基因 P4HB、ERGIC1、FOXA1、RP11-498C9.2、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D 相 对 表 达 量 分 别 为 7.01 ± 0.30、5.97 ± 0.36、5.83 ± 0.34、5.68 ± 0.31、4.64 ±0.33、4.60 ± 0.34、4.43 ± 0.25、4.22 ± 0.42、3.79 ± 0.30、4.10 ± 0.52、3.90 ± 0.31、3.88 ±0.43、4.21± 0.71、3.20± 0.31,正常癌旁组织中分别为 5.73 ± 0.37、4.80 ± 0.33、4.67 ± 0.42、4.52 ±0.39、3.88 ± 0.24、3.38 ± 0.38、3.32 ± 0.35、2.99 ± 0.48、2.98 ± 0.24、2.64 ± 0.56、2.77 ±0.37、2.52 ± 0.39、1.54 ± 0.72、2.26 ± 0.41,与正常癌旁组织比较,关键基因在PCa 组织中表达水平均 升 高(t 分 别 为 9.811、8.788、7.809、8.557、6.839、8.802、9.417、7.021、7.752、7.027、8.554、8.631、9.703、6.681,P均<0.001)。

GSE69223 数据集中,PCa 组织中关键基因P4HB、ERGIC1、FOXA1、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D 相 对 表 达 量 分 别 为 11.12[10.91,11.43]、8.87 ± 0.33、9.68 ± 0.29、8.00[7.80,8.20]、10.08 ± 0.27、7.52 ± 0.29、7.07 ± 0.34、7.95[7.69,8.50]、11.42 ± 0.52、9.88 ± 0.37、7.16±0.24、9.11±0.79、7.69±0.34,正常癌旁组织中分别为 10.11[9.82,10.76]、7.97 ± 0.54、7.89 ± 0.88、7.83[7.54,7.70]、8.87 ± 0.68、6.63 ± 0.39、6.13 ± 0.52、7.77[7.44,7.92]、10.02 ± 0.55、8.90 ± 0.38、6.21 ± 0.42、6.25 ±1.07、6.78±0.45,与正常癌旁组织比较,关键基因在PCa 组织中表达水平均升高(t/z 分别为3.712、5.532、7.484、2.053、6.378、7.030、5.846、2.717、7.222、7.108、7.654、8.336、6.283,HNRNPF:P=0.04,EIF2AK1:P=0.006,其 余 P 值 均 <0.001)。RP11-498C9.2 在该数据集中未出现,故未做比较分析。

最终确定14 个关键基因均为PCa 组织的关键差异表达基因。

2.4 PCa组织预后相关基因 P4HB、ERGIC1 以及RP11-498C9.2 高表达较低表达的患者DFS 更长(Log rank P 分别为0.018,0.029,0.024),HNRNPF低表达患者较高表达的患者OS 更长(Logrank P=0.03),其余基因两组患者DFS 或OS 预后差异无统计学意义(P>0.05)。最终确定P4HB、ERGIC1、RP11-498C9.2、HNRNPF 为 PCa 组织预后相关基因。

3 讨论

RNA 测序目前是分子生物学领域最常用的工具,为研究者们提供了极大的便利,这推动了对PCa 早期诊断和治疗靶点的研究。但是目前,PCa进展中的病因和早期事件仍不清楚,并且多种因素可能促成其发展。本研究对PCa 组织样本基因进行了WGCNA 分析,获得了与PCa 关联最强的基因模块,并且通过富集分析显示内质网中的蛋白质加工通路在该模块中被显著富集,与文献报道[6]一致。

随后,我们进一步分析发现了与PCa 患者相关的14个关键基因,且与正常癌旁组织相比,均在PCa组织中高表达。其中,P4HB 是一种自噬相关基因,自噬对肿瘤既有抑制作用也有促进作用,正常情况下,可在肿瘤早期抑制细胞癌变,但形成肿瘤后,自噬会维持促进肿瘤的发展[7]。有研究[8]报道,P4HB的敲低显著抑制了膀胱癌细胞的侵袭和增殖,P4HB的沉默抑制了体内肝细胞癌发生[9],我们在PCa 组织中也发现P4HB 高表达,下调P4HB 是否会影响PCa 的发展还有待研究。ERGIC1 是一种循环膜蛋白,与内质网密切相关,其表达异常会导致内质网功能障碍,进而可能对癌细胞造成影响[10],例如,可能会发生内质网应激(ERS)障碍,而肿瘤会根据ERS不同的调节作用而发生抑制或增殖等变化[11]。ERGIC1 对不同肿瘤影响也不同,低表达可能对胃癌的发生和进展起到促进作用[12],但在PCa 中沉默ERGIC1 对肿瘤有抑制作用[13]。RP11-498C9.2 是RP11家族的一位成员,其家族不同成员对恶性肿瘤有不同影响,上调RP11-468E2.5可抑制结直肠癌细胞增殖[14],下调 RP11-295G20.2 可抑制体内肝细胞癌生长[15],敲低 RP11-567G11.1 可减弱肾细胞癌细胞的增殖和侵袭能力[16],本研究中RP11-498C9.2在PCa 组织中高表达,具体机制需做进一步分析。HNRNPF 属于异质核核糖核蛋白(hnRNPs)亚家族,在基因表达和信号转导中起着重要作用,hnRNPs与癌症相关[17],HNRNPF也可能与致癌过程有关[18],有研究[19-20]发现,HNRNPF 在胶质瘤、膀胱癌中过表达,敲低HNRNPF 可抑制胶质瘤和膀胱癌细胞的增殖,HNRNPF 与 PCa 也有一定联系,在 PCa 中高表达[21],本研究结果与其相同。Rab3D,是 Rab3 亚型中的一个,该亚型在乳腺、结肠、食道、皮肤和脑肿瘤中起致癌作用,上调Rab3D 会促进肿瘤细胞的增殖[22]。HID1可编码一种与运输相关的蛋白质,有研究发现HID1 与无功能垂体腺瘤有关[23],而在乳腺癌,宫颈癌,肺癌,甲状腺癌和胃肠道癌细胞系中表达 丧 失[24]。 EIF2AK1 是 一 种 EIF2S1 激 酶 ,介 导EIF2S1 磷酸化,与子宫内膜癌发生相关[25]。SYNGR2 是突触脑蛋白家族成员,可参与区分良性和恶性甲状腺肿瘤[26]。已有研究[27-31]发现,FOXA1、CANT1、MARCKSL1、NME1、HPN 以及 ST14 与 PCa的发病和进展有关,参与了不同机制影响PCa 的发生发展,而其余关键差异表达基因与其他癌症有一定关系,但与PCa 的关系尚不清楚,可进行深入探索。

最后,我们筛选出了4 个与PCa 预后相关的基因。其中,P4HB与PCa的DFS相关,其高表达的患者预后较好,有研究[32]也发现P4HB与PCa的DFS显著相关,高表达的患者预后更佳,但在其他癌症研究中,其高表达的患者预后更差[33-34],这可能与自噬的双向作用相关。本研究发现,ERGIC1 高表达的PCa患者预后更佳,与文献[11]报道一致。在本研究中,RP11-498C9.2 低表达 PCa 患者的DFS 预后较差,RP11-468e2.5、RP11-783K16.13、RP11-631N16.4、RP11-1109F11.5、RP11-228B15.4、RP11-496I9.1 及RP11-95O2.5 高表达的组织 DFS 延长[35],目前还没有RP11-498C9.2 与PCa 间关系的研究报道。HNRNPF及其家族hnRNPs在不同癌症中预后不同,大多数hnRNPs 与肾上腺皮质癌、肝细胞癌和肺腺癌的较差生存率相关,与肾透明细胞癌和胸腺瘤的预后更好也有关[19],而在本研究中,HNRNPF高表达PCa患者OS更短。

总之,本研究通过公共数据库发现了14 个PCa的关键差异表达基因,其中P4HB、ERGIC1、RP11-498C9.2 及 HNRNPF 与 PCa 预后相关,为 PCa 的研究提供了新的方向,也有助于确定潜在的新药靶点。

猜你喜欢
关键样本模块
硝酸甘油,用对是关键
28通道收发处理模块设计
“选修3—3”模块的复习备考
高考考好是关键
用样本估计总体复习点拨
规划·样本
随机微分方程的样本Lyapunov二次型估计
蒋百里:“关键是中国人自己要努力”
生意无大小,关键是怎么做?
生意无大小,关键是怎么做?