基于DCE图像优化胶质瘤自动分级纹理模型

2018-12-01 07:46南海燕杨洋颜林枫张欣王文崔光彬

磁共振成像 2018年10期

南海燕，杨洋，颜林枫，张欣，王文，崔光彬

胶质瘤是最常见的中枢神经系统肿瘤且死亡率高，世界卫生组织(World Health Organization，WHO)标准将其分为Ⅰ、Ⅱ、Ⅲ、Ⅳ级，不同级别胶质瘤手术方案和预后情况不同，因此术前精准诊断胶质瘤级别非常重要[1-2]。病理诊断是目前胶质瘤诊断的金标准，但是存在时间滞后性和采样误差[2]。随着科技的发展，磁共振技术已经成为胶质瘤术前诊断的主要技术手段[3-4]，不断有先进的功能序列被研发出来，可以从结构、血流、细胞代谢等方面反映肿瘤的不同信息，其中动态对比增强磁共振(dynamic contrast enhanced magnetic resonance imaging，DCE-MRI)序列通过动态监测对比剂在体内的吸收和代谢等药代动力学过程，获得血流动力学定量参数，观察肿瘤组织血管分布与血流灌注信息，包括转运常数(volume transfer constant，Ktrans)、部分细胞外血管外间隙容量(volume fraction of extravascular extracellular space，Ve)、血液回流常数(reflux constant，Kep)及血浆容积(fractional plasma volume，Vp)等。已经有研究证明DCE-MRI在胶质瘤分级问题上存在诊断价值[5-6]，同时越来越多的研究开始使用纹理分析方法[7-9]。纹理分析不仅仅关注图像的灰度值，还对图像灰度空间分布模式情况提取和分析，得到相应纹理参数，可以量化肿瘤内部的异质性[10]。不同的纹理模型反映了灰度空间分布模式的不同特征，常见的纹理模型包括灰度共生矩阵(gray-level co-occurrence matrix，GLCM)、灰度游程长度矩阵(gray-level run-length matrix，GLRLM)和灰度区域大小矩阵(gray-level size-zone matrix，GLSZM)等[11-13]。但是，基于DCE-MRI数据的胶质瘤分级问题首先需要解决的是选择哪一种纹理模型。因此，本研究利用不同纹理模型提取DCEMRI参数图的纹理特征，通过支持向量机递归特征消除(support vector machine recursive feature elimination，SVM-RFE)算法选择特征后，使用SVM对胶质瘤自动分级[14]，来探究DCE-MRI图像纹理提取方法对SVM胶质瘤自动分级效能的影响，从而建立优化后的分级模型。

1 材料与方法

1.1 研究对象

收集本院首次发现未经手术、放疗和化疗的疑似脑胶质瘤患者行磁共振扫描，后经术后病理证实为胶质瘤患者共120例。依据2007年WHO标准病理诊断为Ⅰ级3例，Ⅱ级25例，Ⅲ级29例，Ⅳ级63例。本研究已获得空军军医大学唐都医院伦理委员会批准(TDLL-20151013)，并且临床试验已经注册(NCT02622620，https://www.clinicaltrials.gov/)。由于I级胶质瘤样本量过小，为避免样本量不均引起的偏倚，排除Ⅰ级后共剩余117例。

1.2 检查方法

采用美国GE公司Discovery MR750 3.0 T超导型磁共振仪，头部8通道线圈，传统结构像扫描序列包括：(1)横轴位快速反转恢复扰相梯度回波T1加权像：重复时间1750 ms，回波时间24 ms，层厚5 mm，层间距1.5 mm，视野24 cm×24 cm，矩阵256×256；(2)快速自旋回波T2加权像：重复时间4247 ms，回波时间93 ms，层厚5 mm，层间距1.5 mm，视野24 cm×24 cm，矩阵512×512；(3)长T1反转恢复像(fluid attenuated inversion recovery，FLAIR)：重复时间8000 ms，回波时间65 ms，层厚5 mm，层间距1.5 mm，视野24 cm×24 cm，矩阵256×256；(4) DCE-MRI：重复时间2.9 ms，回波时间1.3 ms，层厚5 mm，层间距0 mm，视野24 cm×24 cm，矩阵128×128，翻转角12°，单次扫描4 s，共50期。动态增强扫描第5个时相结束后采用高压注射器同步静脉注射小分子量钆双胺对比剂欧乃影(Omniscan，GE Healthcare)，注射速率2 ml/s，注射剂量0.2 ml/kg，并以相同速率注射生理盐水15 ml冲洗导管；(5)增强后T1加权像(T1Ce)：在动态增强序列后采集，序列参数与增强前T1加权成像相同。

1.3 图像分析和特征提取

1.3.1 肿瘤分割

利用磁共振灌注图像分析软件NordicICE(Version 4.0；NordicNeuroLab，Bergen，Norway)中重采样模块，将增强后T1加权成像和FLAIR图像通过最近邻法上采样至与DCE图像相同层数和大小。参考T1加权像、FLAIR、增强后T1加权像在重采样后的增强后T1加权像或FLAIR图像上逐层划取肿瘤区域，尽量避开囊变、坏死及正常血管，得到分割后三维肿瘤区域。

1.3.2 DCE图像处理

将所有动态增强图像导入NordicICE，通过DCE模块计算相应灌注参数图。其中动脉输入函数(arterial input function，AIF)选择软件自带通用函数，T1值固定为1000 ms，利用药代动力学模型Extended Tofts Linear两室模型拟合计算灌注参数图，参数图示例见图1。

1.3.3 纹理特征提取

利用MATLAB开源代码“Radiomics”计算相应纹理特征。获得三维肿瘤区域后，选取包含整个三维病灶的最小立方体并标准化至各向同性，在灰阶分别为32、64、128和256时计算每个患者4种参数图病灶区域的13个GLCM(沿空间均匀分布的13个方向)、1个GLRLM和1个GLSZM矩阵。最终在不同灰阶下，每个患者得到32个GLCM特征、52个GLRLM特征和52个GLSZM矩阵。

1.4 机器学习

将各模型提取的纹理特征输入到开源数据挖掘平台WEKA (Waikato Environment for Knowledge Analysis)，由于各级别样本量不同，为不造成因样本量不同而引起的分类偏倚，首先采用SMOTE(Synthetic Minority Over-sampling Technique)算法将Ⅱ、Ⅲ级别肿瘤分别上采样至与Ⅳ级相同数量。通过SVM-RFE特征选择算法依据特征权重对纹理特征从大到小排序，依次选择权重排序前1～n的特征组，分类采用线性SVM及留一法交叉验证(leave-one-out cross-validation，LOOCV)。

1.5 统计学分析

所有分类结果使用Graphpad Prism 6统计软件分析，比较不同纹理模型和不同灰阶对分类效能的影响采用多因素方差分析和Bonferroni校正。P＜0.05为差异有统计学意义。

图1 两例胶质瘤患者DCE-MRI参数图表现，红色表示肿瘤区域。其中第一行为Ⅱ级胶质瘤患者，女，78岁；第二行为Ⅳ级胶质瘤患者，女，45岁Fig. 1 DCE-MRI parameter maps from two patients with glioma, the red region represents tumor. The first line is grade Ⅱ, female, 78-year-old; second line is grade Ⅳ, female, 45-year-old.

图2 不同特征数时分类效能变化(灰阶=32)，横坐标表示所选特征数(间隔=1)，纵坐标为正确率，各模型下分类正确率最高的点用红色表示Fig. 2 Classi fication performance of GLCM, GLRLM and GLSZM with gray-level 32 using different feature subsets. Feature number (interval=1) on the horizontal axis and accuracy on the vertical. Red dot represents best performance.

表1 不同纹理模型不同灰阶时所有特征组正确率Tab.1 All feature subsets of different textural models with different gray-levels

灰阶 GLCM GLRLM GLSZM 32 0.73±0.04 0.73±0.03 0.71±0.03 64 0.73±0.03 0.71±0.03 0.69±0.07 128 0.74±0.04 0.72±0.02 0.69±0.09 256 0.71±0.05 0.71±0.03 0.73±0.05

2 结果

不同纹理模型下不同灰阶时，每组特征组输入支持向量机后得到相应正确率，将结果统计如表1所示。多因素方差分析结果显示，(1)灰阶对分类效能的影响差异无统计学意义(P=0.1589)；(2)纹理模型对分类效能的影响差异存在统计学意义(P＜0.0001)，其中，灰阶为64和128时，GLCM和GLRLM、GLSZM存在显著差异。从表1可以看到，GLCM整体平均正确率最高，GLSZM效能相对较差。

由于灰阶对分类效能的影响差异无统计学意义，图2显示了灰阶为32时，选择不同特征数对分类效能的影响。GLCM在选择前22个特征时效能最高，正确率为0.79；GLRLM在选择前42个特征时效能最高，正确率为0.77；GLSZM在前9个、11个、17个、35个和42个特征时效能最高，正确率为0.75。

3 讨论

实验结果发现：(1)灰阶对分类效能的影响差异无统计学意义；(2)纹理模型的选择对分类效能的影响差异存在统计学意义，其中GLCM相比较效能最佳。在使用GLCM提取纹理特征并且灰阶为32和256时，分别选取前22个和前17个特征所得分类正确率最高(正确率=0.79，AUC=0.89)。因此，在使用DCE图像纹理特征对支持向量机胶质瘤自动分级时，建议选择GLCM纹理提取模型并结合特征选择技术。因为灰阶越大，相应的运算量和运算时间越大，而从本实验中得出灰阶对SVM胶质瘤分级效能的影响差异无统计学意义，因此优先选择小的灰阶值。

已经有研究使用纹理分析方法诊断胶质瘤，但是产生的结果不一致。一部分原因是使用的纹理模型和MRI序列不同，Eliat 等[13]使用灰阶直方图(gray-level histogram，GLH)、GLCM和GLRLM鉴别恶性胶质神经元肿瘤和其他恶性胶质瘤，使用GLRLM时阳性预测值为0.58，GLCM阳性预测值为0.75。Skogen等[7]则使用软件TexRAD提取灰阶直方图特征来区分低级别和高级别胶质瘤，正确率达0.93。想要将计算机辅助诊断系统应用于临床，必须达到稳定可靠的分类效能，然而在多种纹理模型中选择一种适用于胶质瘤分级的模型比较困难。本实验仅选择了3种常用的二阶纹理模型，其他模型(如灰度差分矩阵、局部共生矩阵的游程矩阵)也存在各自的优势，因此，今后的研究需要综合比较更多的纹理模型，从而更加深入地理解肿瘤异质性，以期得到适用于胶质瘤分级的模型。

另一方面，本实验所涉及的样本量相对不均衡，所采用的SMOTE算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本[8]。虽然SMOTE消除了样本量不均衡引起的偏倚问题，但是部分用于分类的数据并非真实值，后期需要纳入更加均衡的样本或纳入多中心实验数据进一步验证结果。本研究未采用测试组数据验证分类器，而是使用LOOCV技术代替是研究的另一局限性，后期研究仍需持续纳入患者作为测试组验证分类器效能。

综上，本研究建立和优化了基于DCE图像纹理特征的支持向量机胶质瘤自动分级系统，发现灰阶对分类效能无影响，纹理模型GLCM在灰阶为32时结合特征选择是胶质瘤分级的最优方案。