石钰阳何 平* 刘 奕安利智田 宇
(1、河北工业大学人工智能与数据科学学院,天津300401 2、天津医科大学研究生院,天津300203)
脑胶质瘤是最常见的中枢神经系统肿瘤,WHO将其分为I~IV级,高级别胶质瘤术后复发率和病死率极高,严重威胁人们的身心健康[1]。烷化剂是恶性胶质瘤常用的化疗药物之一,但是一些患者出现较高的耐药性,使得临床治疗效果不佳[2]。近年来研究表明,烷化剂耐药的主要原因是由于DNA修复蛋白O6-甲基鸟嘌呤-DNA甲基转移酶(MGMT)的存在。故2016年WHO做出更新,将MGMT启动子甲基化增加为胶质瘤预后的独立预测指标,自此对MGMT启动子甲基化的测定被提到了前所未有的高度[3]。
MGMT启动子甲基化作为脑胶质瘤中重要的分子生物学标记,已逐渐在临床病理学诊断中展开应用,然而医学上常用的病理免疫组化检测MGMT启动子的甲基化状态并不完全可靠[4]。
放射组学将宏观的影像量化,并客观的预测微观分子表达,以期于术前给予临床及病理指导。多项研究探讨了利用纹理特征预测MGMT甲基化状态的有效性[5],但这些特征可能不能完全表征图像,从而限制了模型的潜力。近年来的研究通过分析多区域特征来探索肿瘤的微环境,证明了多区域图像分析对肿瘤的诊断及预后治疗有重要临床意义[6-7]。
多项研究证明将量化的MRI放射组学特征与机器学习方法相结合[8-9],建立模型可以用于临床诊断。支持向量机(Support Vector Machine,SVM)作为一种监督学习的分类方法,在解决高维非线性,以及小样本数据分类问题中具有很大优势,并且已成功应用在基因识别和癌症肿瘤诊断方面[10]。粒子群优化-支持向量机(Particle Swarm Optimization-Support Vector Machine,PSO-SVM)算法较SVM算法有操作简单、能快速寻找支持向量机参数最优组合的特点。本文基于多区域多参数MRI放射学特征建立PSO-SVM脑胶质瘤MGMT分类模型,以期准确预测脑胶质瘤患者MGMT启动子甲基化状态。
在这项研究中,影像学和临床数据来源于天津市某医院放射科,包括患者的年龄、性别、胶质瘤级别和放射组学特征。共有127例患者符合研究标准,纳入标准为:(1)经病理学证实的原发性中枢神经系统胶质瘤。(纳入级别WHO II~IV级);(2)预处理T1WI增强序列和T2WI序列影像;(3)有效MGMT甲基化状态。
1.2.1 图像分割
该数据集包括127名患者的889个切片。由126个星级2级、98个少突2级、483个胶母4级、98个间变少突3级和84个间变星级3级胶质瘤类型图像组成。除影像外,在不知任何临床及病理资料的情况下,由2名影像科医生参考横轴位多序列(T2WI、DWI、ADC、FLAIR、T1WI增强)原始图像,共同商议确定瘤体及水肿边界,再由其中1人逐层勾画。
肿瘤勾画标准:(1)增强T1WI上无强化的肿瘤,以T2WI上肿瘤异常高信号边缘作为瘤体边界,再将上述轮廓复制到其它序列上;(2)增强T1WI上于病变内部呈散在斑片样不规则强化的肿瘤(病变于ADC图上呈明显不均质性,无法区分瘤体及瘤周水肿),以T2WI上肿瘤异常高信号边缘作为瘤体边界,再将上述轮廓复制到其它序列上;(3)增强T1WI上呈明显实性团块样强化或环形强化的肿瘤,以增强T1WI上瘤体强化边缘作为肿瘤边界,如果强化以外的区域于FLAIR/T2WI上呈高信号,而于ADC上呈明显低信号者,则需要将ADC上低信号的区域纳入勾画范围。再将上述轮廓复制到其它序列上。水肿勾画标准:FLAIR像上除肿瘤外的高信号区且在TIWI-CE上显示为低信号的区域定义为水肿区。于FLAIR上勾画水肿边界,再将上述轮廓复制到其它序列上,图1显示一个分割实例,红色区域为肿瘤,绿色区域为水肿。
图1 FLAIR上的分割结果
1.2.2 特征提取与特征选择
实验中,我们对每名患者均分别从肿瘤区域(T1WI增强、T2WI、FLAIR和ACD序列)和水肿区域(T2WI、FLAIR和ACD序列)中每个序列各提取1029个特征。提取的特征包括三种特征集:(1)247个一阶统计量用于描述图像的体素强度分布;(2)767个纹理特征用于反映图像表面的特性;(3)15个形状特征用于描述感兴趣区域(Region Of Interest,ROI)的三维大小和形状。
高维数据处理时,我们采用主成分分析(Principal Component Analysis,PCA)降维方法。如图2所示,MIN-MAX归一化后的1029维放射组学特征经过PCA,保留原始数据95%以上的信息,降到30维进行建模,既保留了原始数据的重要信息又提高了模型的效率和准确率。
图2 特征提取示例
1.2.3 支持向量机
SVM是一种基于统计学习的机器学习方法,它以分类的泛化性能为目标,分布意义下错误率最小。对于有限的训练样本具有较高的学习能力,非训练样本具有良好的预测能力,因此,适用于脑胶质瘤MGMT启动子甲基化状态分类这种非线性问题。
一个非线性可分的二分类问题,且两种样本的标签分别是{+1,-1},这个优化问题写成:
3 每餐食物都要有一定质和量的蛋白质 人体没有为蛋白质设立储存仓库,如果一次食用过量的蛋白质,势必造成浪费;相反,如果食物中蛋白质不足时,宝宝的生长发育就会受影响。
根据拉格朗日对偶性,定义拉格朗日函数,其中a=(a1,a2,…,aN)T为拉格朗日乘子向量:
由于噪音的存在,引入松弛变量δ≥0解决非线性可分的问题,惩罚因子C代表离群点带来损失的严重程度,此时最优化目标和约束条件为:
此时的分类决策函数为:
1.2.4 PSO-SVM算法
PSO-SVM算法即采用PSO算法优化SVM核函数参数σ和惩罚因子C。对于低维平面线性不可分的数据,通过一个映射将低维平面的点投放到高维平面中,低维映射到高维,需要引入核函数,避开直接在高维空间中进行计算,引入核函数k,分类决策函数为:
径向基核函数(Radical Basis Function,RBF)既能实现非线性映射,而且参数较少,选取RBF函数作为核函数:
此时的分类决策函数为:
上述公式中,wk为惯性因子,c1和c2为学习因子,通常c1=c2=2,φ1和φ2为[0,1]之间的随机数。将优化后得到的局部最优解和全局最优解作为支持向量机的核函数和惩罚参数,带入到支持向量机的目标函数中,优化后的目标函数对脑胶质数据达到最高的精确度。
1.2.5 基于PSO-SVM的脑胶质瘤MGMT分类模型
依据前面所述的SVM算法原理、PSO优化算法以及PCA降维方法,建立基于PSO-SVM算法的MGMT甲基化状态分类模型。把127名患者样本分为训练集和测试集,其中训练集99例,包括57例MGMT启动子甲基化,42例MGMT启动子未甲基化;测试集28例,包括19例MGMT启动子甲基化,9例未甲基化。
基于PSO-SVM的脑胶质瘤MGMT分类流程图如图3所示,示意图显示了图像分割、特征提取、特征选择和建模过程。建立具有多区域多参数MRI放射组学模型,首先,对从MRI提取出的放射组学特征进行MIN-MAX处理并降维;其次,不同序列的样本训练集均以RBF函数作为核函数,同时引入PSO算法优化分类模型,得到最优惩罚因子C和核函数参数g;最后,将多参数MRI放射组学特征和支持向量机最优参数组合,构建模型。
图3 PSO-SVM脑胶质瘤MGMT分类
采用受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)对模型进行评估,AUC为ROC曲线的下面积,是一种衡量学习器优劣的性能指标。
本文将从脑瘤区域和水肿区域提取出的7组特征与PSO-SVM算法结合,模型中有两个重要的参数,c是惩罚系数,即对误差的宽容度,c过大或小,泛化能力变差,g是RBF核函数的自带参数,影响支持向量个数,支持向量个数影响训练与预测速度。在PSO-SVM模型中,脑胶质瘤MGMT甲基化状态检测精度均能达到90%以上,表明提出分类方案评估的整体诊断性能较好。其中,预测集相应序列特征模型中,水肿区T2WI(96%,AUC=0.89 )和ADC序列(100%,AUC=0.90 )特征的测试结果高于肿瘤区T2WI(92%,AUC=0.73 )和ADC序列(90%,AUC=0.77 )。结果最好的情况是水肿区ADC序列特征,c和g的值分别为23和0.001 ,程序运行时间约26秒,在训练集中AUC为0.98 ,准确率为100%,在测试集中进一步证实预测性能,AUC为0.90 ,准确率为100%,脑胶质瘤样本全部分类正确。脑胶质瘤样本全部分类正确。PSO-SVM模型在肿瘤及水肿区域预测性能如表1所示。
表1 PSO-SVM在肿瘤及水肿区域预测性能
图4用ROC曲线评价模型的诊断性能,图4(a)显示了在肿瘤区域,基于T1WI序列中提取的多参数放射学特征预测脑胶质瘤MGMT甲基化状态结果最好,训练集AUC达到0.95 ,在测试集中进一步验证,AUC为0.88 。图4(b)显示了水肿区域,基于ADC序列中提取的多参数放射学特征预测脑胶质瘤MGMT甲基化状态效果最好,训练集AUC高达0.98 ,在测试集中进一步验证,AUC为0.90 。
图4 训练集和测试集的受试者工作特性(ROC)曲线
肿瘤区T1WI增强序列在测试集中,25/28例预测正确,3/28例预测错误;水肿区ADC序列在测试集全部预测正确,显示出更好的诊断性能。此外,本文实验训练集和测试集样本放射学图像分别从两个机器进行扫描,训练模型可以应用于测试集,表明模型具有较强鲁棒性。
文献[11]Xi等人证明T1WI、T2WI以及增强T1WI序列放射组学特征作为预测胶质母细胞瘤中MGMT启动子甲基化潜在影像学标记,训练集准确率为86.59 %,测试集准去率为80%。本研究扩大数据集,表明这些放射组学特征在星型细胞瘤、间变少突和间变星形胶质瘤中预测效果依然良好,测试集准确率高达90%~96%。文献[12]Yoon RG等人报道ADC值与MGMT启动子甲基化和预后相关,我们的实验结果表明在肿瘤区T1WI增强、T2WI和FLAIR序列预测精度高于ADC序列预测精度,这与文献[13]Wei等人的研究一致,但是Wei等人研究仅限于星型细胞瘤,且观察的ADC成像分辨率相对较低,本研究结果表明,增加其它类胶质瘤后,水肿区ADC序列模型预测性能最佳。
此外,大多数研究只针对肿瘤区单参数或者多参数MRI特征分析,文献[14]Lemee等人发现GBM在水肿区存在遗传异质性,文献[15]Zhi-Cheng Li等人发现,水肿区模型可以识别胶质瘤的影像学预测因子。我们的研究基于肿瘤区和水肿区提取了一阶、形状和纹理特征三类特征,全面的反映微环境中颗粒结构差异信息以及MGMT甲基化相关的重要原型成像特征,提高了预测性能,多区域多参数MRI鉴别脑胶质瘤MGMT甲基化状态是一种高效的辅助诊断方法。
目前研究存在几个局限性:(1)数据集临床资料样本少,未来寻求更大的数据集来建立模型,提高模型鲁棒性;(2)本文中描述肿瘤和水肿ROI的人工分割方法耗时耗力,引用基于深度学习的自动分割方法,可以提高我们模型和临床诊断的客观性。
综上所述,MGMT启动子甲基化状态与肿瘤耐药及患者预后关系密切,MGMT启动子甲基化能够促进化学治疗药物对肿瘤的抑制作用,MGMT启动子甲基化状态作为了脑胶质瘤的重要分子标记物,该项分子测评已经逐渐在临床诊断中展开应用。根据MRI影像特征与分子之间的联系可以预测病理结果为临床提供指导,本文基于多区域多参数MRI放射组学特征建立PSO-SVM模型鉴别脑胶质瘤患者MGMT启动子甲基化状态,结果表明,本研究的肿瘤及水肿区模型均能准确预测脑胶质瘤患者MGMT启动子甲基化状态,且是一种无创高效的方法,临床医生及病理医生可以使用机器学习模型进行MGMT启动子甲基化状态的预判,为患者制定更完善的个性化诊疗及病理诊断。