张洪博 张宇泽 黄飚
胶质瘤是成人最常见的恶性原发性脑肿瘤,其中弥漫性胶质瘤发病率最高[1]。2013年,Killela等[2]提出编码端粒酶逆转录酶(telomerase reverse transcriptase,TERT)启动子是多种常见肿瘤的关键驱动因素。在WHO中枢神经系统肿瘤分类第5版(the fifth edition of the WHO Classification of Tumors of the Central Nervous System,WHO CNS 5)中提出,异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH)野生型弥漫性胶质瘤TERT启动子突变能够提高胶质瘤的组织学分级[3]。近年来,人工智能(artificial intelligence,AI)被用于医学影像的工作流程和研究中,主要体现在脑肿瘤分级、分子信息和病人预后预测等方面[4]。本文就AI在弥漫性胶质瘤TERT启动子突变预测中的研究进展进行综述。
AI作为计算机科学的一个分支,能够模拟、延伸和扩展人的智能[5]。AI涵盖的范围非常广泛,它由不同的技术组成,例如机器学习(machine learning,ML)、计算机视觉、生物识别技术,其中ML与医学影像联系最为紧密。ML通过使用不同的算法指导计算机从数据中学习,然后根据学习经验来提高自身的性能。在医学研究中常见的ML算法包括线性回归、支持向量机、逻辑回归算法、决策树、随机森林和朴素贝叶斯算法等[5]。影像组学是从医学成像(CT、MRI、PET等)的兴趣区中高通量地提取影像特征,采用ML方法从其中获取关键信息,进而用于疾病的诊断、分级或预后判断等。但当面对一些复杂的临床问题时,传统ML的整体算法分析、学习流程应用时显得较为繁琐,而预测效果也欠佳。深度学习(deep learning,DL)作为ML的子领域,相对于ML,它的性能更为强大。DL本质上是构建含有多个隐含层的ML架构模型,通过大规模数据进行训练,得到大量更具代表性的特征信息,从而对样本进行分类和预测,提高分类和预测的精度[6]。其中卷积神经网络(convolutional neural network,CNN)是DL的代表算法之一。CNN可以通过输入定量数据、像素或体素信息等多维数据,进而解决图像的分类问题。因此,DL作为一种使用CNN架构的ML形式,在医学成像应用中展示出巨大的前景[6]。
TERT基因位于5号染色体短臂末端(5p15.33),是编码端粒酶复合体的重要基因之一[7-8]。由于TERT启动子的转录抑制作用,在大部分的人类细胞中端粒酶活性是缺失的[9]。但通过端粒酶表达重新激活端粒维持机制可以促使细胞无限增殖,从而使正常细胞发展成癌细胞。大约90%的癌症中,细胞永生是通过重新激活端粒酶实现的,其中包括重新激活TERT基因表达。在胶质瘤的发生中,TERT启动子突变重新激活TERT基因发挥着关键作用[10-11]。TERT突变常发生在启动子区域的C228T和C250T,其中C228T突变发生率较高[12]。
有文献[13]报道,TERT启动子突变对胶质瘤亚型具有高度特异性。在胶质母细胞瘤(glioblastoma,GBM)中TERT启动子突变型占70%~80%,远高于WHO 2和3级的弥漫性胶质瘤[14-15]。TERT启动子突变型的GBM相较TERT启动子野生型表现为侵袭性更强、易复发,并且病人的生存期更短(分别为14个月和27个月)[16]。此外,Li等[17]通过原位注射表达空肠弯曲菌腺嘌呤碱基编辑器的腺相关病毒可抑制TERT启动子突变的胶质瘤生长,证明TERT启动子是治疗胶质瘤的潜在靶点。
较低级别胶质瘤(WHO 2和3级)重要的临床相关分子标志物包括IDH、1号染色体短臂及19号染色体长臂缺失状态(1p/19q)、TERT启动子及α地中海贫血伴智力低下综合征x连锁基因(alpha thalassemia/mental retardation syndrome x-linked gene,ATRX),其中IDH和TERT启动子的突变对于诊断较低级别胶质瘤和判断病人预后方面至关重要[18-19]。
Shboul等[20]使用影像组学方法预测WHO 2和3级弥漫性胶质瘤分子标志物(IDH突变、1p/19q共缺失、TERT启动子突变和ATRX突变),从多参数MRI中提取了680个影像组学特征,经过特征筛选,使用极端梯度提升算法进行建模并进行了5折交叉验证,最终在测试集中发现TERT启动子突变预测模型的预测效能良好,平均受试者操作特征曲线下面积(AUC)为0.82。Jiang等[21]使用基于常规MRI的影像组学特征预测WHO 2和3级胶质瘤中的TERT启动子突变状态,提取肿瘤实质、肿瘤周围水肿和整体肿瘤的影像组学特征,应用支持向量机、随机森林和自适应增强算法进行建模,结果发现使用肿瘤实质的影像组学特征并采用随机森林算法建立的模型分类效果最好,AUC为0.827。Fang等[22]基于常规MRI影像组学特征建立线性支持向量机模型来预测WHO 2级胶质瘤的TERT启动子突变状态,经过10折交叉验证,最终模型的AUC为0.844 6。Yan等[23]分别从T1WI、T2WI、T2-液体衰减反转恢复(FLAIR)、增强T1WI和扩散加权成像中提取影像组学特征并构建多模态MRI特征融合模型,在预测TERT启动子突变状态方面,基于增强T1WI和表观扩散系数(ADC)的特征融合模型取得了最佳的预测效果,AUC为0.669,准确度为0.655;年龄是TERT启动子突变状态唯一的临床预测因素,然而加入年龄的融合模型的预测效能并没有提高。Lu等[24]从176例较低级别胶质瘤病人术前增强T1WI中提取了851个影像组学特征,使用最小绝对值收敛和选择算子(least absolute shrinkage and selection operator,LASSO)进行特征降维,最终选择了7个影像组学特征并计算影像组学评分,使用多因素逻辑回归构建包含病人年龄、性别和影像组学评分的影像组学列线图模型,列线图模型对TERT启动子突变状态预测的AUC为0.873。Fukuma等[25]纳入164例WHO 2和3级弥漫性胶质瘤病人,基于术前MRI通过影像组学和DL方法提取特征,预测胶质瘤IDH和TERT启动子突变,分别以病人年龄、影像组学特征、CNN特征以及三者联合共建立了4个模型,结果表明,利用CNN提取的高阶特征对胶质瘤的3种分子亚型(IDH野生型、IDH和TERT启动子突变型、IDH突变型和TERT启动子野生型)分类效果最好,准确度可达到63.1%;在IDH突变的WHO 2和3级弥漫性胶质瘤中,对TERT启动子突变状态分类效果同样使用CNN特征建立的模型准确度最高,可达84.0%。综上所述,AI有助于预测较低级别胶质瘤TERT启动子突变状态。利用基于深度特征和集成学习算法所构建的模型可以获得较好的预测效能。值得注意的是,多模态MRI特征融合方法的应用为预测弥漫性胶质瘤TERT启动子突变状态的研究提供了新的思路,但上述研究使用此方法的预测效果欠佳。目前基于DL方法预测弥漫性胶质瘤TERT启动子突变状态的研究较少,且总体样本量仍有待扩大。因此,基于多序列、多尺度影像特征融合的影像组学或DL方法应用于预测弥漫性胶质瘤TERT启动子突变有待进一步研究。
高级别胶质瘤(high-grade gliomas,HGG)具有细胞生长更旺盛,肿瘤新生血管更多,肿瘤异质性更高的特点,尤其是胶质瘤中最高级别的GBM[26]。TERT启动子突变状态对于HGG病人的总生存期的判断十分重要[16]。
Tian等[27]研究提示,年龄、胆碱/肌酸比值、乳酸峰值、肿瘤坏死体积(core necrosis volume,CNV)和影像组学特征是HGG中TERT启动子突变预测的重要指标。该研究纳入126例HGG病人,使用影像组学方法预测TERT启动子突变状态,基于T1WI、T2WI、T2-FLAIR、增强T1WI和MR波谱影像提取了1 230个影像组学特征,并采用LASSO算法进行降维,最终筛选出6个影像组学特征并建立了4种模型。模型A由年龄、胆碱/肌酸比值、乳酸峰值、CNV和影像组学特征组成;模型B在模型A的基础上减少了CNV;模型C仅由影像组学特征建模;模型D仅通过CNV值建模,结果显示模型A预测效能最佳(AUC为0.889)。此外,CNV可作为TERT启动子突变的独立预测因素,如Yamashita等[28]对GBM病人进行TERT启动子突变状态的预测研究,纳入2个临床指标(年龄和性别)和9个MRI特征采用支持向量机算法建模,模型预测能力较高,AUC为0.776;多因素分析显示,TERT启动子野生型病人的年龄和坏死体积百分比显著高于TERT启动子突变型。另一研究团队对159例IDH野生型HGG病人利用动态O-(2-18F-氟代乙酯)-L-酪氨酸PET预测TERT启动子突变状态,使用峰值时间图像提取了9个影像组学特征,据此建立的逻辑回归模型获得了最佳预测性能,其AUC为0.82[29]。综上所述,AI同样有助于预测HGG病人TERT启动子突变状态,并且基于多序列和多参数的联合模型能够进一步提高模型的预测能力。但上述研究均仅关注了TERT启动子的预测因子,然而预后也是HGG病人重要的信息,因此应进一步对构建弥漫性胶质瘤TERT启动子突变状态及预后预测的多任务模型进行研究。
综上所述,TERT启动子是弥漫性胶质瘤诊断及判断预后的重要分子标志物。AI是预测TERT启动子突变状态行之有效的方法。但目前AI在预测弥漫性胶质瘤TERT启动子突变方面仍局限于学术研究,且大部分研究以小样本量和单中心为主。因此,今后预测弥漫性胶质瘤TERT启动子突变的研究可以从以下几方面开展:①根据WHO CNS 5划分胶质瘤类别进行研究;②基于功能成像和扩散加权成像构建多序列、多参数影像组学或DL模型进行研究;③构建弥漫性胶质瘤TERT启动子突变状态及预后预测的多任务模型;④进行多中心、前瞻性研究。