李智慧 陆建平 沈 浮
近年来随着我国人口的老龄化及饮食结构的西化,以结直肠癌为代表的结直肠外科疾病发病率明显增加,这类疾病严重威胁我国人民健康[1]。目前依靠传统影像学方法一般仅在形态学上对肿瘤进行术前评估,无法达到精准影像医学的标准。
基于精准医疗的要求,传统的影像医学模式亟待改变,必须与分子生物学、分子病理学结合,必须与新型治疗模式、预后判断和康复结合[2]。放射组学(radiomics)应用大量的自动化数据特征化算法,将影像感兴趣区域(region of interest,ROI) 的影像数据转化为具有高分辨率的、可发掘的特征空间数据[3],具有数据维度高、定量分析等优点,可与传统影像学与分子生物学、分子病理学、信息科学相整合,采用大数据分析方法将其用于影像诊断、疗效评估、预后预测等,有望成为精准影像医学的重要基石。
本研究基于磁共振高分辨率T2WI,引入影像组学的方法,得到直肠高分辨率T2WI图像影像组学特征,目的在于探讨直肠高分辨率T2WI影像组学特征对直肠良恶性病变鉴别诊断的价值。
回顾性分析2016年1月~2017年12月期间在上海长海医院经手术病理证实,术前行直肠MR检查的109例直肠占位性病变患者,男性63例,女性46例,平均年龄57.19±11.23岁。经组织病理证实,良性病灶23枚(炎性肉芽肿1枚,囊性肠炎1枚,平滑肌瘤3枚,腺瘤18枚),恶性病灶92枚(腺癌54枚,间质瘤6枚,黏液腺癌15枚,神经内分泌肿瘤12枚,恶性黑色素瘤2枚,印戒细胞癌2枚,淋巴瘤1枚)。6例患者为两枚病灶:2例腺癌并神经内分泌肿瘤,3例腺瘤并腺癌,1例神经内分泌肿瘤为2枚病灶。
磁共振扫描采用SIMENS 3.0T Skyra 磁共振成像系统,腹部相控阵线圈。直肠MR扫描序列包括矢状面T2WI脂肪抑制序列,横断面T1WI、T2WI、DWI,冠状面T2WI,主要采集垂直于病灶所在肠管的高分辨T2WI序列图像。高分辨率T2WI扫描参数:TR 4000ms,TE 108ms,FOV 18cm,矩阵320×320,层厚 3mm,无间距扫描,层数28层,反转角160°,带宽108Hz/像素,无脂肪抑制,GRAPPA并行采集模式,加速因子为3,采集时间为4min10sec。
3.1图像VOI选取和特征提取:将获取到的高分辨T2WI原始DICOM图像导入后处理平台(大数据智能分析云平台,慧影医疗科技有限公司,北京),一名放射科医师采用手动方式在T2WI图像上沿病变边缘逐层勾画感兴趣区(region of interest,ROI),计算机自动生成病灶的三维容积感兴趣区(volume of interest,VOI),另一名高年资放射科医师检查勾画结果,最终生成的VOI为194个(由于部分病灶形态非常不规则,被分割为2个或多个VOI)。将上述获取到的VOI使用上述平台自动提取影像组学特征,分为以下三类:①一阶统计特征(first order)。②形状特征(Shape)。③纹理特征:描述肿瘤异质性,包括灰度共生矩阵(gray level cooccurrence matrix, GLCM)特征、灰度游程长度矩阵(gray level run length matrix, GLRLM)特征和灰度级区域矩阵(gray level size zone matrix,GLSZM)特征。其中一阶统计量、GLCM、GLRLM和GLSZM在指数、平方、平方根、对数和小波变换后的图像也进行了计算,共1029个。
3.2 特征选择及模型构建:直肠病变的形态往往受到肠壁形变的影响,本研究去除Shape类相关特征后,共提取1014个影像组学特征。之后采用方差阈值法,阈值设为0.8,选择方差大于阈值的特征,移除降低variance的特征,特征数从1014减少至629;然后采用单变量特征选择,将上一步特征值从629个减少到30个特征。最后采用LASSO算法(least absolute shrinkage and selection operator,最小绝对收缩算子)进行特征值降维,筛选各个特征在最佳alpha时的coefficient系数,选择对术后病理诊断有价值的特征。
将样本随机分为训练集与测试集,使用降维后的特征与临床感兴趣的信息建立随机森林、决策树、K近邻、逻辑式回归4种机器学习模型,80%的VOI样本(良性24个,恶性131个)做训练集训练机器学习模型,20%的样本(良性6个,恶性33个)做测试集对模型的准确性进行验证,计算准确率,并获得ROC曲线及曲线下面积。
提取得到的1014个组学特征,经降维得到与良恶性鉴别相关的特征11个:一阶统计特征5个;纹理特征6个,其中灰度游程长度矩阵特征1个,灰度级区域矩阵5个,如图1所示。
随机森林、决策树、K近邻、逻辑式回归4种机器学习模型的准确率及ROC曲线下面积见表1。其中随机森林和K近邻模型的准确率为84.61%(33/39),高于决策树69.23%(27/39)和逻辑式回归82.05%(32/39)。4种机器学习模型的ROC曲线下面积为0.70至0.73,详见图2。
表1 4种分类器测试集准确率及曲线下面积
图1 筛选出各个特征在alpha=1.9322时的coefficient系数,共筛选出11个特征。
影像组学(radiomics)方法是指对CT、MRI和PET等大量医学图像提取定量影像学特征并进行分析,找到疾病的影像学标识物,从而实现对疾病的精准预测、诊断及预后评估等[4]。肿瘤组织在空间和时间上均存在异质性,通过活检等获取的小部分肿瘤组织标本并不能代表完全的肿瘤组织特点,因而基因组学与蛋白组学的临床常规应用具有很大限制[3]。非侵入性的影像医学检查对于肿瘤的整体评估具有巨大的潜能,其可对患者进行无损伤和可重复性检查[5]。有研究表明[6],影像组学特征可以反映10mm以下纯磨玻璃结节浸润前病变和浸润性病变直径的差异,基于影像组学特征的分类器模型可以提供纯磨玻璃结节病理侵袭性的术前预测准确性,有助于10mm以下纯磨玻璃结节处理方案的制定。凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出最准确的诊断[7-8]。
图2 4种机器学习模型的ROC曲线。A.随机森林的ROC曲线,曲线下面积为0.73;B.决策树的ROC曲线,曲线下面积为0.73;C.K近邻的ROC曲线,曲线下面积为0.70;D.逻辑式回归的ROC曲线,曲线下面积为0.73。
直肠良恶性病灶的术前诊断及预后判断是治疗决策的重要依据,术后病理学检查是其诊断金标准,目前仍没有可靠的术前临床评价手段及影像学方法,现有研究证实影像组学可以改善这一现状[9]。目前,国内外学者对结直肠肿瘤的研究主要集中在纹理特征提取、肿瘤与非肿瘤性病变的鉴别、结直肠癌术前分期、淋巴转移评估等方面。Hu等[10]在40例直肠癌患者的CT图像中提取了775个纹理特征,验证后发现其中496个纹理具有高度可重复性(ICC≥0.8),225 个纹理具有中度可重复性 (0.8>ICC ≥ 0.5),54个纹理具有低度可重复性(ICC<0.5),表明影像组学特征是直肠癌最为稳定的特征。Song等[11]对148例结肠病变的CT图像联合高阶图像的纹理特征对结肠肿瘤与非肿瘤性病变进行鉴别,ROC曲线下面积为 0.74~ 0.85。Liang等[12]用 LASSO回归模型对494例结直肠癌患者术前的CT图像进行影像组学研究,获得16个影像组学特征可以区分I~II期和III~IV期结直肠癌,ROC曲线下的面积为0.792,表明影像组学特征可有助于结直肠癌术前分期。Huang等[13]基于326例结直肠癌患者的资料提取了24个纹理特征并证实其对结肠癌淋巴结转移具有很好的预测能力。
本研究对109例直肠占位性病变的T2WI高分辨图像的进行特征提取,初始共1029个特征,其中shape类特征描述三维尺寸和形状,与VOI的灰度强度分布无关,因此为了排除肠壁形态对病灶的影响,我们剔除了Shape类特征,经降维后最终得到与良恶性鉴别相关的特征11个,包含一阶统计量5个:描述了通过常用和基本的指标来定义的图像区域内的体素强度分布;GLRLM 1个,Run Entropy:测量运行长度和灰度分布的不确定性和随机性,表明纹理模式中的异质性;GLSZM 5个:描述灰度不均匀性区域的大小和灰度分布,以及区域灰度分布的不确定性和随机性。
本研究结果显示随机森林、决策树、K近邻、逻辑式回归4种机器学习模型的ROC曲线下面积为0.70~0.73,表明4种模型均可用于鉴别直肠的良恶性病变,其中随机森林、决策树模型的AUC较大,为0.73。而随机森林和K近邻模型的准确率为84.61%(33/39),高于其他两种模型的准确率,因此随机森林模型相较其他模型有更为优秀的良恶性鉴别能力。基于MRI影像组学技术,不仅规避了观察者本身对于影像特征解读的主观偏向,还能深度挖掘并整合MRI图像中大量的人眼无法识别和区分的数字化信息,从而提高术前直肠病灶良恶性的诊断效能。
本研究的局限性主要在于:第一,纹理特征是从手动勾画的VOI中提取,很难避免肠壁变形对VOI产生的影响,这可能会影响纹理特征的准确性,因此本研究剔除了Shape类相关特征;第二,直肠病灶良恶性的鉴别诊断效能并未达到最好,这可能与样本量选取有关,直肠良性病灶由于缺乏特异性症状和体征往往不被早期发现,因此建立模型的样本量仍不够大,需扩大样本量以减少数据量对模型准确性的影响。
综上所述,基于磁共振T2WI高分辨率图像的影像组学模型对直肠良恶性病变的诊断具有鉴别价值,有助于区分直肠病变的良恶性,为临床治疗提供有利信息。