庄小捷 余 双 陈金平 冯继红(宜春市人民医院肿瘤科,宜春 336000)
宫颈癌为全球女性第二常见的肿瘤,发病率仅次于乳腺癌[1]。最新统计数据表明,全世界每年有超过52.5万例新病例和26.5万例患者死亡,其中中国是宫颈癌的高发地区,一年中有超过13万例新增病例,我国宫颈癌患者的年龄主要集中在40~50岁[2-4]。近年来,从宫颈癌的发病率和病死率的趋势来看,该疾病目前仍处于上升趋势[5]。许多复杂因素与宫颈癌的生物学行为有关,并影响患者预后,导致部分患者疗效不理想,复发率较高,五年生存率偏低[6-8]。
2007年,美国国家癌症研究所的一项研究表明,顺铂化疗的同时进行放疗是晚期宫颈癌患者的标准治疗方法,死亡的风险率(hazard rate,HR)值可降低至0.52[9-10]。然而,尽管患者接受了同步放化疗,仍有部分患者治疗失败,并且治疗反应和预后的差异可能与肿瘤异质性及患者个体差异有关[11]。由于分子生物学技术的飞速发展,肿瘤治疗也进入了分子基因水平,并且发现了许多与肿瘤相关的基因突变[12]。通过基因标志物的检测和针对这些标志物的靶向治疗,为癌症的个性化诊断和治疗奠定了基础[13]。尽管关于宫颈癌生物标志物预测的研究越来越多,但大多数都是基于基因表达谱的分析,临床上尚无理想的标志物。因此,宫颈癌基因组学的研究仍是当前研究的热点和重点。最新的研究发现,甲硫氨酸亚砜还原酶B3(methionine sulfoxide reductase-B3,MSRB3)基因缺乏会诱导乳腺癌细胞、肺癌细胞及结肠癌细胞凋亡,但其在宫颈癌中的作用机制尚未明确。
1.1数据下载并筛选差异表达基因(differentially expressed genes,DEGs) 从TCGA数据库(https://www.cancer.gov/)中获得宫颈癌基因组的mRNAseq表达数据和临床特征资料。使用R语言中的“limma”软件包分析转化下载的标准化宫颈癌组织与正常组织数据的DEGs(定义为倍数变化>4,Padj=0.001)。最后,从TCGA数据库中下载了306个宫颈癌样品和3个正常对照样本的RNA序列数据和相应的临床数据,并进行基因差异分析。
1.2Cox比例风险回归模型筛选并分析预后相关基因Cox回归模型是生存分析中的重要模型,可用于描述某些时候不变的多个特征对病死率的影响。风险评分是基于多元Cox回归分析的加权基因表达水平的总和,可用于计算每位患者的风险评分。对每个基因分别进行单变量分析,并根据P<0.05的标准筛选重要基因进行进一步分析,然后采用多元Cox回归比例风险模型分析通过单因素回归分析筛选差异有统计学意义的基因。最后,根据基因的中位风险评分将宫颈癌患者分为高风险组和低风险组,并使用R软件包分析获得基因风险热图。
1.3单基因表达数据的提取与分析 使用R语言的“limma”软件包对所选基因进行差异分析,并将数据标准化。分析MSRB3在宫颈癌中的表达,并与正常组织进行比较。宫颈癌患者的临床特征可从TCGA数据库下载,包括性别、生存时间、年龄、种族、等级分类和TNM分期。其中一些不可用,被认为是缺失值。然后使用R语言中的“survive”软件包进行生存分析,结合Kolmogorov-Smirnov(KS)检验分析得出MSRB3与宫颈癌的临床相关性。最后,单因素分析和多因素分析再次验证MSRB3的临床意义。
1.4基因集富集分析(GSEA)GSEA是一种基因探针富集测定法,基于对来自微阵列数据各种水平的基因探针进行评估。GSEA基于MSRB3表达的相关性生成所有基因的有序列表,并进行KEGG信号通路分析和GO生物功能富集分析。每次分析进行1 000个基因组随机替换,然后按P值大小选择显示前20个结果。最后使用R语言“ggplot2”软件包对单独选择的KEGG/GO分析的10个结果进行多GESA浓缩总结。
1.5统计学分析 所有研究数据均使用R软件包(版本3.6.1)和Perl脚本工具(版本5.30.0)进行分析。平均值和标准偏差代表连续变量,频率和百分比代表类别变量。通过KS检验和Logistic回归分析评估单基因表达与临床特征的关系。使用Kaplan-Meier生存分析和单因素/多因素Cox比例风险回归进行预后基因验证分析。
2.1DEGs的分析和预后基因的筛选 从TCGA数据库下载的306个宫颈癌组织和3个对照正常组织的临床资料详细特征主要包括生存时间、年龄、种族、等级分类和TNM分期等。使用R软件分析共获得654个DEGs,其中包括239个上调基因和415个下调基因(倍数变化>4,Padj=0.001)。所有DEGs均由火山图表示(图1A)。应用单因素生存分析法分析宫颈癌中654个DEGs,获得与预后相关的基因(P<0.05)。随后,通过Logistic回归和多元Cox分析最终筛选出5个预后相关基因。这5个基因分别为PPP1R14A、MSRB3、SELP、CENPM和ZIC2。根据患者的中位风险评分将患者分为高危组和低危组,并用高、低风险评分热图确定这5个基因特征的富集程度(图1B),该结果表明,5个基因在宫颈癌组织和正常对照组织中显示出极大的特异性。
图1 差异表达分析和预后验证Fig.1 Differential expression analysis and prognosis verification
2.2MSRB3单基因差异表达分析 采用Wilcoxon秩和检验分析了MSRB3在306例宫颈癌组织和3例正常组织中的表达。结果表明,MSRB3的表达在宫颈癌组织和正常组织间存在差异,且差异有统计学意义(P<0.01)。比较肿瘤组织和正常组织中MSRB3的均值发现,癌组织中MSRB3的表达明显低于正常组织(图2)。差异表达分析初步表明MSRB3可能抑制宫颈癌的发生。
图2 宫颈癌组织中MSRB3的表达明显低于正常组织Fig.2 Expression of MSRB3 in cervical cancer tissue was significantly lower than that in normal tissue
2.3MSRB3临床相关性分析 在TCGA数据库分析了309例宫颈癌样本中MSRB3的表达数据。使用KS检验和Logistic回归分析研究了MSRB3与宫颈癌临床特征间的关系。结果表明,MSRB3的表达增加与肿瘤分级(P=0.000)、淋巴结转移(P=0.045)、远处转移(P=0.002)和年龄(P=0.000)密切相关。尽管与TNM分期的相关性差异无统计学意义,但由图3可知,临床分期越高,MSRB3的表达就越高。单因素Logistic回归分析显示,MSRB3基因与宫颈癌的临床特征存在相关性,由表1可知,MSRB3基因与肿瘤分期、年龄、种族、淋巴结转移和远处转移均具有相关性,且差异具有统计学意义。以上结果表明,MSRB3基因在宫颈癌的晚期发挥促癌因子作用,其表达越高,宫颈癌就越容易向晚期和远处转移。
表1 MSRB3表达与临床特征相关(KS检验和Logistic回归)Tab.1 MSRB3 expression associated with clinical characteristics(KS test and Logistic regression)
图3 MSRB3差异表达的临床相关性分析Fig.3 Clinical correlation analysis of differential expression of MSRB3
2.4MSRB3作为预测宫颈癌预后的独立因素Kaplan-Meier生存分析表明,MSRB3低表达的宫颈癌患者预后优于MSRB3高表达患者(P=0.002,图4)。单因素变量分析和多因素变量分析显示,MSRB3与宫颈癌总体生存率显著相关。此外,MSRB3基因可能是宫颈癌患者的独立预后因素。单因素Cox回归分析结果显示,宫颈癌分级、N分型、年龄及MSRB3表达与宫颈癌预后相关。多因素Cox回归分析表明,尽管其他协变量对其进行了调整,MSRB3仍然是宫颈癌的独立预后因素(表2)。
表2 单因素和多因素Cox比例风险回归分析对总生存率的影响Tab.2 Univariate and multivariable Cox proportionalhazards regression analysis on overall survival
图4 MSRB3的生存分析Fig.4 Survival analysis of MSRB3
2.5GSEA分析MSRB3的生物学功能和相关信号通路 功能基因集采用KEGG和分子特征数据库(MSigDB)中的GO基因集,然后使用GSEA软件进行基因集富集分析,MSigDB集富集(c2.cp.v7.0)存在明显差异(FDR<0.05,NOMP<0.05)。根据标准富集分数(NES)选择P值最具统计学意义的信号通路和相关生物学功能。分别选择MSRB3低表达组和高表达组的结果,并将其整合到多GSEA富集图中。KEGG结果表明,MSRB3主要富集于MAPK、TGF-β和WNT等信号通路(图5A);GO结果表明,MSRB3的生物学功能主要富集于血管生成、细胞-基质连接及上皮细胞增殖等生物功能(图5B)。
图5 MSRB3 GSEA结果Fig.5 GSEA results of MSRB3
宫颈癌是全球女性第二大最常见的妇科肿瘤。据不完全统计,中国女性患者数量高居全球女性患者首位[14]。宫颈癌的主要治疗方法是手术治疗联合放化疗[15]。随着治疗手段的进展,新辅助化疗也是晚期宫颈癌术后复发转移的一种治疗方法,目前的化疗药物主要是铂类药物[16]。另外,基因治疗也是研究热点之一。ALK、ROS1、c-met、PI3K和mTOR等大量靶向药物的出现为癌症患者带来了新希望[17]。但目前尚无针对宫颈癌,特别是晚期和复发性宫颈癌的化疗相关靶基因的研究。鉴于目前晚期宫颈癌患者的低生存率和全球癌症负担,本研究通过TCGA数据库初步探索与宫颈癌临床预后相关的分子标志物。
在本研究中,TCGA数据库提供了宫颈癌基因组测序信息和相应的临床信息,并使用R语言分析获得了宫颈癌中差异表达的基因。通过单因素生存分析法分析宫颈癌样本中654个DEGs,获得与预后相关的基因。并通过多变量Cox分析获得了5个基因用于预测宫颈癌预后,包括PPP1R14A、MSRB3、SELP、CENPM和ZIC2。通过查阅文献和单基因数据分析获得与宫颈癌预后相关的特异基因MSRB3。结果表明,与正常组织相比,宫颈癌组织中MSRB3基因表达降低。多变量分析表明,MSRB3的高表达与晚期临床病理特征如肿瘤分级、临床分期及远处转移有关,且MSRB3表达越高,患者预后越差。本研究首先揭示了MSRB3基因可能是一把双刃剑,在宫颈癌的早期阶段发挥抑癌作用,但又可预测晚期宫颈癌患者的预后状态。除MSRB3外,单因素Cox分析还显示年龄、分级和临床分期也是影响宫颈癌总生存率的因素。进一步多变量Cox回归分析表明,MSRB3和肿瘤分级是宫颈癌总生存率的独立预后因素。综上所述,MSRB3基因是宫颈癌患者总生存率的独立影响因素,可作为宫颈癌潜在的预后分子标志物。
MSRB家族被认为是清除细胞活性氧的重要抗氧化酶,而人类MSRB3基因位于8号染色体上,编码位于线粒体、细胞质和细胞核中的蛋白质[18]。作为MSRB家族的重要成员,MSRB3可抑制癌基因诱导的DNA损伤,表明MSRB3可能与肿瘤发生有关。然而,只有少数研究报道了MSRB3对癌细胞的作用[19]。MOREL等[20]证明了MSRB3的表达可促进乳腺癌干细胞的恶性转化。KWAK等[21]报道MSRB3的缺乏可导致乳腺癌、肺癌和肝癌细胞凋亡。MA等[22]表明胃癌组织中MSRB3表达升高与胃癌患者预后不良有关。2016年,KWAK等[23]首次证明了MSRB3下调可诱导癌细胞凋亡,而导致MSRB3诱导细胞死亡的途径之一是内源性线粒体凋亡的激活。2017年,KWAK等[24]的另一项研究发现,MSRB3缺陷通过p53独立和内质网应激依赖途径诱导癌细胞凋亡。截至目前,MSRB3影响肿瘤发展和预后的机制尚不明确。
随着高通量技术的飞速发展,生物信息学提供了一种强大的手段来筛选分子生物标志物或癌症预后靶向基因[25]。与其他研究相比,该研究的优势在于使用大型数据库,完整的临床数据和良好的样品质量控制,为宫颈癌的未来研究提供了新的思路和目标。本研究基于TCGA数据库分析了306例宫颈癌患者和3例正常对照样本,结果发现MSRB3在晚期宫颈癌中的表达与临床病理特征密切相关,且较高水平的MSRB3通常与患者的不良生存率直接相关。此外,结合MSRB3在宫颈癌中的表达低于正常对照组织,课题组发现,MSRB3可能在宫颈癌的发展中发挥双重作用,其取决于癌症的发展阶段,在癌症的早期阶段发挥抑癌作用,但在癌症的晚期阶段却促进肿瘤发展,即表达水平越高,预后越差。这项研究的局限性在于,从TCGA数据库获得的基因水平数据可能无法完全代表MSRB3在蛋白质水平上的表达。为了使这项研究在临床上更有意义,上述所有结果均需要在临床上进一步验证。