庄胜,花奇凯,2*,赵劲民*
(1.广西医科大学生物医药协同创新中心,广西 南宁;2.广西医科大学第一附属医院,广西 南宁)
神经胶质瘤,也称为胶质细胞瘤,是最常见的原发性中枢神经系统肿瘤,几乎占原发性恶性脑肿瘤的80%。它们来自神经胶质细胞,即中枢神经系统的神经上皮支持细胞。恶性神经胶质细胞瘤具有弥散性和侵润性生长的特点,同时具有极强的血管生成能力,再加上其对放疗和化疗的内在抗性,导致了这些肿瘤治疗困难[1]。尽管进行了积极的手术,放疗和化疗,多形胶质母细胞瘤的中位生存期仍然只维持在12-15 个月。因此,迫切需要开发新的预后生物标记物和有效的治疗靶向标记物,以更好的对神经胶质瘤患者进行危险分层和更加科学的进行治疗选择。
STK3,也称为MST2,它的中文翻译为丝氨酸/ 苏氨酸激酶,在人类中是由蛋白编码基因STK3 基因编码的。STK3 是一种由促凋亡分子激活的丝氨酸/苏氨酸蛋白激酶,表明其编码的蛋白具有抑制生长的功能,它是河马(Hippo) 信号通路中控制细胞增殖,细胞凋亡的中央核心酶之一[2,3]。研究显示,STK3 在肿瘤疾病中有重要作用,例如,STK3 可通过失活YAP 致癌基因来抑制肺癌和肝癌的的肿瘤发生[4-6]。在60 例肉瘤标本中12 例(20%)检测到MST2 启动子甲基化[7]。然而,STK3 在神经胶质瘤中的作用仍未阐明。
近年来,随着组学、生物信息学的蓬勃发展,带来了海量的肿瘤生物医学数据,如基因,甲基化,蛋白质组学,拷贝数等数据,这些数据的不断出现,给肿瘤的诊断和治疗迎来了新的挑战和机遇,也给广大科研研究人员提供了大量公开的可利用的数据进行研究。
本研究通过中国脑胶质瘤基因组图谱数据库(CGGA)的两个独立转录组数据集,研究了STK3 基因表达对神经胶质瘤预后的影响以及分析了STK3 基因与不同临床特征之间的关系。
本研究是基于公共数据库中国脑胶质瘤癌症基因图谱计划的数据的研究,在数据下载页面,本研究下载了两个独立批次的神经胶质瘤数据,分别是mRNAseq693 数据集和mRNAseq325 数据集。另外还获取了两个数据集对应的临床信息。
对同时包含有mRNA 测序信息和对应完整临床信息的病例予以保留,无mRNA 测序信息或对应完整临床信息的病例予以剔除。完整临床信息包括:生存时间、生存状态、性别、年龄、放疗、化疗、IDH 突变情况、1p19q 丢失状态、WHO 分级、复发状态、组织学类型共11 个变量。根据纳入和排除标准对两个数据集处理后,mRNAseq693 数据集共纳入489 例神经胶质瘤病例,剔除204 例无完整临床信息的神经胶质瘤病例;mRNAseq325 数据集共纳入284 例神经胶质瘤病例,剔除41 例无完整临床信息的神经胶质瘤病例。分别将处理后的mRNAseq693 和mRNAseq325 数据集定义为:发现队列和验证队列。
目前,已发表文献中,对于某基因的表达水平进行分组最常用的截断点是中位值。因此,我们以STK3 基因表达量的中位值作为截断点进行划分,高于中位值的神经胶质瘤病例分为高表达组,低于中位值的病例分为低表达组。对STK3 高低表达组的病例进行统计学分析(Wilcoxon 秩和检验)并绘图展示。
本研究利用R 语言软件(版本:v.3.5.0)完成所有的统计分析及相应的图片绘制。在发现队列中,采用非参数检验——秩和检验的方法:如Wilcoxon 秩和检验或Kruskal-Wallis 检验对STK3 基因高低表达组和其他9 个临床变量(性别、年龄、放疗、化疗、IDH突变情况、1p19q 丢失状态、WHO 分级、复发状态、组织学类型)进行统计学分析,分析STK3 基因与其他临床病例参数的关系。采用K-M 生存分析和log-Rank 检验比较STK3 基因高表达组和低表达组神经胶质瘤病例的预后。采用单因素COX 回归分析和多因素COX 回归分析明确STK3 基因是否是神经胶质瘤患者独立的预后因素。采用接受者操作特性曲线(ROC)和曲线下面积(AUC)分析和评价STK3 基因作为预后因素的特异性和敏感性。上述统计分析在验证队列中也进行分析,以验证STK3 基因的作用是否一致。
基于STK3 基因的高低表达量,我们定义了STK3 基因高表达组和STK3 低表达组两个表型。为了了解这两个表型预后差异存在的可能原因,本研究利用基因集富集分析[8,9],分析了高低表型在京都基因与基因组百科全书(KEGG)通路上的富集情况。
以下两个三线表展示了发现队列和验证队列神经胶质瘤患者的临床病理参数。
表1 发现队列的临床病理特征
表2 验证队列的临床病理特征
本研究比较了在两个不同的队列中STK3 基因高低表达组的差异情况,发现在两个队列中,STK3 基因高低表达组存在统计学差异(P<0.05),见图1。
在发现队列中,STK3 基因与放疗、化疗、IDH 突变情况、1p19q 丢失状态、WHO 分级、组织学类型共6 个临床病理特征相关(P<0.05);在验证队列中发现,STK3 基因与年龄、化疗、IDH 突变情况、1p19q 丢失状态、WHO 分级、组织学类型共6 个临床病理特征相关(P<0.05)。见图2、3。
图1 发现队列和验证队列中STK3 基因高低表达组的差异情况
图2 发现队列中神经胶质瘤患者STK3 基因表达与临床病理特征的关系
图3 验证队列中神经胶质瘤患者STK3 基因表达与临床病理特征的关系
图4 发现队列和验证队列的生存曲线
图5
图6 发现队列和验证队列的ROC 曲线
在发现队列中进行K-M 生存分析,可以发现STK3 基因高低表达组具有显著的预后差异,差异具有统计学意义(log-Rank 检验,P<0.05)。高表达组具有较差的预后,低表达组具有较好的预后。同样,在验证队列中可以观察到同样的现象。见图4。
纳入STK3 基因、性别、年龄、放疗、化疗、IDH 突变情况、1p19q 丢失状态、WHO 分级、复发状态、组织学类型共10 个变量进行单因素和多因素COX 回归。单因素COX 回归结果显示,在发现队列中,除性别和放疗这两个变量外,STK3 基因、年龄、化疗、IDH 突变情况、1p19q 丢失状态、WHO 分级、复发状态、组织学类型共8 个变量与总生存率相关(P<0.05);在验证队列中,除性别这一个变量外,STK3 基因、年龄、放疗、化疗、IDH 突变情况、1p19q丢失状态、WHO 分级、复发状态、组织学类型共8 个变量与总生存率相关(P<0.05)。多因素COX 回归结果显示,在发现队列中,STK3 基因、年龄、化疗、IDH 突变情况、1p19q 丢失状态、WHO 分级、复发状态共7 个因素是独立的预后因素;在验证队列中,STK3基因、化疗、1p19q 丢失状态、WHO 分级、复发状态、组织学类型共6 个因素是独立的预后因素。见图5。
在发现队列中,STK3 基因的ROC 曲线及AUC 值显示:1 年生 存 率AUC 值:0.612,3 年 生 存 率AUC 值:0.674,5 年 生 存 率AUC 值:0.692。在验证队列中,STK3 基因的ROC 曲线及AUC 值显示:1 年生存率AUC 值:0.629,3 年生存率AUC 值:0.726,5 年生存率AUC 值:0.780。见图6。
以发现队列的基因表达数据作为基准文件进行GSEA 分析,GSEA 富集分析结果显示,STK3 高表达表型与低表达表型相比,高表达表型主要富集了癌症相关通路以及自噬,白细胞迁徙等途径。见图7。
图7 GSEA 富集分析结果
本研究展示了基于人群的神经胶质瘤患者队列中的STK3 基因的表达情况。STK3 基因低表达与更长的总生存率显著相关。在对临床病理参数(包括性别、年龄、放疗、化疗、IDH 突变情况、1p19q 丢失状态、WHO 分级、复发状态、组织学类型)进行多变量调整后,可以发现STK3 基因表达与神经胶质瘤患者的总生存率之间的关联仍然很显著。另外,验证队列的分析同样证实了上述结果。因此,STK3 基因在神经胶质瘤中的表达是独立于当前的预后因素的。
STK3 是一种存在细胞质和细胞核的蛋白激酶,能与多种肿瘤相关蛋白相互作用,研究表明,原癌基因产物RAF1 和STK3 相互作用能阻止STK3 自身的二聚化和磷酸化,因为RAF1 可作用于STK3 的180 位苏氨酸位点,而STK3 的完整活性需要同源二聚体结构以及180 位苏氨酸自身磷酸化。另外,STK3 可与NOREI,SAV1,RASSFI,NKX2-1 相互作用,可使STK3 发挥酶激活或磷酸化的功能[10-13]。STK3 在不同肿瘤类型中可发挥不同作用,一方面,STK3 可通过失活YAP 致癌基因来抑制肝癌和肺癌的肿瘤发生[4,5];另一方面,有研究报道显示,在急性白血病细胞系中,敲低STK3可导致导致急性白血病细胞系和原代细胞凋亡[14]。
目前还没有研究探讨STK3 与神经胶质瘤预后的关系。本研究发现患者之间在mRNA 水平上表达的STK3 差异很大,并且与预后密切相关。本研究表明,STK3 的表达是神经胶质瘤的一个独立预后因素,这一结果可以在一组独立的数据集中得到验证。
基于基因集富集分析的方法为了解STK3 的假定功能和作用提供了一些有趣的发现,当然这些发现需要在进一步的实验研究中加以证明。本研究发现STK3 似乎在以下领域发挥其主要功能:肿瘤相关通路途径及过程。这也与STK3 目前文献报道的功能相互吻合。
综上所诉,本研究是描述STK3 在神经胶质瘤患者中预后作用的第一项研究。对于神经胶质瘤患者而言,STK3 基因是一个有潜力的预后生物标志物。然而,STK3 基因在神经胶质瘤中的功能作用仍有待进一步研究。