胶质母细胞瘤预后预测lncRNA模型的建立及验证

2021-08-26 08:35杜宝顺王运刚张哲莹
肿瘤基础与临床 2021年4期
关键词:母细胞胶质胶质瘤

杜宝顺,王运刚,尚 飞,张哲莹

(1.新乡市中心医院神经外二科,河南 新乡 453000;2.新乡医学院病理学教研室,河南 新乡 453003)

成人最常见的恶性原发性脑肿瘤是胶质瘤,胶质瘤占成人恶性原发性脑肿瘤的75%[1]。根据WHO脑肿瘤分级系统对胶质瘤进行分类,将胶质瘤分为Ⅰ~Ⅳ级等4级[2]。Ⅳ级恶性程度最高,又被称为胶质母细胞瘤,胶质瘤的一半以上都是胶质母细胞瘤[3]。胶质母细胞瘤是成人原发性脑肿瘤中最致命的肿瘤,大多数患者不能存活超过1 a,大约5%的患者存活超过5 a[4]。近年来,尽管在胶质瘤发病机制方面取得了长足的进步,但仍缺乏有效的治疗手段,分子生物学的最新进展提高了胶质瘤的早期诊断率以及发病机制的理解,并且描述了一些临床上重要的遗传分子改变。寻找并了解这些分子将有助于脑肿瘤的诊断、分级和治疗,早期采取有针对性的干预措施,提高患者生存率。

长链非编码RNA(long non-coding RNA,lncRNA)是一类转录本长度超过200个核苷酸的RNA分子,它们并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平[5]。目前发现lncRNA具有重要的生物学功能,如调控细胞增殖、细胞周期、细胞分化、细胞凋亡等[6]。LncRNA的异常表达与人类疾病密切相关,尤其在肿瘤方面[7]。现已在乳腺癌、胃癌、肺癌、胶质瘤、甲状腺癌和卵巢癌等多种肿瘤中发现lncRNA异常表达,且这些lncRNA主要参与肿瘤的发生、生长、浸润、转移及复发等过程,提示lncRNA在肿瘤的发生、发展过程中起到重要作用[8-11]。

本研究通过信息挖掘的方法从肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库获得lncRNA的表达数据及临床资料,将其整合为一个具有风险分型和预后评估价值的预测模型,并在胶质母细胞瘤患者中进行验证。

1 资料与方法

1.1 数据来源从GDC Data Portal(https://portal.gdc.cancer.gov/)下载胶质母细胞瘤患者的RNA表达谱数据及相关的临床资料。共174例样本,其中肿瘤患者169例,正常对照者5例。

1.2 数据处理对下载的基因表达谱数据进行注释,根据GENCODE数据库(https://www.gencodegenes.org/)注释文件获得lncRNA。对下载的数据进行数据标准化,并筛选在胶质母细胞瘤组织和正常组织样本中差异表达的lncRNA,筛选条件为logFC≥2或≤-2,P<0.01。对差异表达的lncRNA采用单因素Cox和Lasso回归分析,筛选出来相关变量,纳入多因素Cox回归分析并建立lncRNA预后风险评分模型,进一步验证风险评估模型及筛选出来的lncRNA与胶质母细胞瘤患者预后的关系。

1.3 统计学处理采用R 3.6.1进行数据分析及相应图形绘制,筛选差异基因用edge R软件包,单因素和多因素Cox回归分析模型筛选用Survival软件包,并建立多基因预后模型。使用Survival软件包计算受试者工作特征(receiver operator characteristic,ROC)曲线评价模型的有效性,并计算曲线下面积(area under curve,AUC)[12]。

2 结果

2.1 胶质母细胞瘤中差异表达的lncRNA相关基因使用edge R软件包进行lncRNA差异基因分析(logFC≥2或≤-2,P<0.01)得到差异基因1 255个。其中591个基因表达显著高于正常脑组织,为上调基因;664个基因的表达明显低于正常脑组织,为下调基因。

2.2 LncRNA预后模型的建立对筛选出的1 255个差异lncRNA进行单因素Cox回归分析,依据P<0.01 筛选得到影响患者生存的39个lncRNA,进而进行Lasso回归分析得到23个差异lncRNA,将上述23个基因纳入多因素Cox回归分析,按P<0.05最后得到5个lncRNA,分别是AC006487.1、AC021594.1、AC066612.2、AC092287.1、OSMR-AS1。对Lasso回归分析得到的23个基因和多因素Cox回归分析得到的5个基因分别构建风险预测模型。23个差异基因组成的风险模型:风险得分=(0.122*AC005632.4)+(0.353*AC006487.1)+(-0.0356*AC007375.3)+(0.009*AC010327.3)+(0.501*AC021594.1)+(0.283*AC066612.2)+(0.092*AC080112.2)+(0.305*AC092287.1)+(0.215*AC093388.1)+(-0.052*AC093627.1)+(0.160*AC104667.1)+(0.109*AGAP2-AS1)+(-0.194*AL132800.1)+(0.049*AL450003.2)+(0.089*HOXB-AS1)+(0.060*HOXC-AS2)+(0.062*HOXC-AS3)+(-0.031*LINC01268)+(0.169*LINC01574)+(0.115*LINC01956)+(0.147*LINC02078)+(0.189*OSMR-AS1)+(0.025*UNC5B-AS1)。基于5个lncRNA的预后风险模型:风险得分=(0.362*AC006487.1)+(0.522*AC021594.1)+(0.366*AC066612.2)+(0.347*AC092287.1)+(0.232*OSMR-AS1)(表1)。

表1 Cox回归分析筛选到的5个差异lncRNA

2.3 2种lncRNA预后模型的评估2种风险模型构成2种风险得分,计算每个样品的风险得分,根据风险得分的中位数进行分组,划分为高风险组和低风险阻。2种模型Kaplan-Meier生存分析均显示高风险组与低风险组相比预后明显较差(P<0.001)(图1)。绘制2种模型的ROC曲线,3 a生存率AUC分别为0.955和0.890,5 a生存率AUC分别为0.961和0.849。23种lncRNA构成模型要优于5种lncRNA模型(图2)。但两者AUC差别不大,5种lncRNA构成的模型比较简单,我们选择5种lncRNA进一步分析。

图1 单因素Lasso(左)和多因素Cox(右)回归分析构建模型Kaplan-Meier生存曲线

图2 单因素Lasso(左)和多因素Cox(右)回归分析构建模型ROC曲线

2.4 多因素Cox回归分析模型中lncRNA的生存分析我们对所选5种基因对生存情况影响进行分析,发现5种基因均与预后有关(P均<0.05)。最相关基因为AC066612.2,P=0.001。见图3。

图3 多因素Cox回归分析构建模型分析5种lncRNA不同表达的Kaplan-Meier生存曲线

3 讨论

LncRNA的异常表达与恶性肿瘤的疾病进展关系密切,广发参与了恶性肿瘤的各个生物学过程以及治疗手段发挥重用的各种途径[10,13-17]。本研究中筛选出的1 225个差异lncRNA基因,通过单因素Cox、Lasso和多因素Cox回归分析筛选出和预后相关的lncRNA,并分别构建了2种预后风险预测模型。2种模型划分的高风险组和低风险组均能很好预测患者生存率。我们对5个lncRNA组成的模型中的每个lncRNA做Kaplan-Meier生存分析,结果显示5个基因均和预后相关,其中相关性最大的是AC066612.2。

该模型独立于患者年龄等经典的临床预后指标,为现行的胶质母细胞瘤分子病理诊断系统提供一定的拓展。这2种模型特异性和敏感性性均较强,可用于患者的风险分型和预后评估。为胶质母细胞瘤的临床预后判断提供帮助,并为基础研究提供更多可供选择的生物标志物。然而本研究尚存在许多不足之处,很多基因数据库没有覆盖,纳入模型的lncRNA尚没有文献报道,在胶质母细胞瘤发生、发展中起的作用尚缺乏实验证据的支持。

猜你喜欢
母细胞胶质胶质瘤
成人高级别脑胶质瘤术后复发相关因素分析
乳腺炎性肌纤维母细胞瘤影像学表现1例
成人幕上髓母细胞瘤1例误诊分析
星形胶质细胞-神经元转化体内诱导研究进展
BFAR 在胶质瘤中的表达及其与胶质瘤预后的关系
顶骨炎性肌纤维母细胞瘤一例
研究神经胶质细胞的新兴技术
人类星形胶质细胞和NG2胶质细胞的特性
恐惧应激对胶质瘤影响机制及干预研究进展
神经胶质细胞