孟 江 卢虹冰* 徐肖攀 徐 桓 张国鹏 梁正荣
CT结肠镜(computed tomography colonography,CTC)主要利用薄层CT扫描图像分割并重建出患者的结肠三维结构,医生可以像光学结肠镜那样浏览整个腔内结构,并寻找可疑病灶。相对于传统的乙状结肠镜、光学结肠镜等检查手段,CTC侵入性小、检查时间短以及患者耐受性好,更适用于大规模高危人群的筛查[4]。但同时由于结肠腔内存在复杂的脊、袋结构和大量的肠壁皱褶以及附着在肠壁上的残留粪便等,其在形状及结构上的表现与息肉相似,也给放射医师的阅片工作带来了相当的挑战。
结肠息肉计算机辅助检测技术(computer aided detection,CAD)能够帮助医生自动标记出疑似息肉,但现有的CAD技术[5-7]多是在结肠内壁准确分割基础上,通过内壁的曲率、形状指数等几何参数变化得到疑似息肉,这种方法与医生用眼睛识别息肉的过程类似,其天然缺陷在于严重依赖于结肠内壁分割算法;极易疏漏形状变化不显著的病灶,如扁平状的息肉和部分体积较小的广基锯齿状息肉等。近期的一项8844人参与的大规模的随机对照试验[8]表明:光学结肠镜组有4.3%的个体被诊断至少患有1个广基锯齿状息肉,而CTC组的诊断率只有0.8%;CTC组未检测到扁平状息肉,而光学结肠镜组检测到17个。因此迫切需要寻找进一步有效区分结肠息肉和正常壁组织的影像特征,以克服CTC的上述短板,提高检测率。
CT图像能够提供大量的组织相关信息,不同组织的X射线吸收衰减值在一定程度上反映了息肉和肿瘤的性质。考虑到CT影像本身包含有大量的组织纹理信息,不同组织的纹理特征存在一定的差异。因此,基于CT影像提取的纹理特征或可有效反映息肉与正常肠壁组织的差异,从而用于疑似息肉的检测。本研究通过提取结肠息肉和正常的结肠壁组织作为感兴趣区域(region of interest,ROI),致力于筛选出更好反映肠壁与息肉差异的纹理特征,并对其鉴别结肠息肉和正常的结肠壁组织的性能进行评价。
收集111例确诊的结肠息肉患者的CTC影像数据,患者均于检查前1 d进行低残留饮食和肠道准备,并口服250 ml硫酸钡悬浮液(2.1 w/v)和120 ml的MD-Gastroview进行粪便标记。在肠道充气的状态下,每例患者在仰卧位和俯卧位各扫描一次,共获得222套扫描数据。CT扫描参数设置为:管电流120~220 mA,管电压120~140 kV,准直厚度1.25~2.5 mm,重建层厚1 mm。为了消除三维CT数据轴向分辨率的差异,对体数据进行了3次样条插值处理。
在放射医师的指导下,通过手动勾勒的方式,从222套CTC影像数据中共提取387个结肠息肉(均经光学镜证实),其中直径<6 mm的息肉13个,直径位于6~9 mm之间的息肉230个,直径>9 mm的息肉144个。此外,在该息肉的对侧肠壁提取与其大小相似的三维肠壁组织作为对照,共387个(如图1所示)。
图1 息肉直径大小分布情况图
基于灰度共生矩阵的Haralick纹理[9]特征,能够反映图像中不同灰度像素的空间相关特性,因此广泛用于肺、肝脏、膀胱等病变的医学影像检测和诊断中[10-11]。但经典的Haralick纹理基于二维图像,难以反映灰度的空间分布信息,对其进行三维拓展或许能够更好地反映息肉组织与正常肠壁组织的纹理差异。此外,由于CT图像在图像采集与重建过程中会进行必要的去噪与平滑处理,从而使其损失部分纹理特征。有研究表明,对图像进行高阶偏导变换能够进一步增强图像的纹理变化,从而一定程度上还原或放大这些纹理特征[12-13]。因此,本研究首先对ROI进行一阶偏导(梯度)和二阶偏导(曲度)变换,然后对原始灰度图像、一阶和二阶偏导图像分别从13个空间方向上计算出共生矩阵,即灰度共生矩阵(gray level co-occurrence matrics,GLCM)、梯度共生矩阵(gradient co-occurrence matrix,GLGCM)和曲度共生矩阵(curvature co-occurrence matrix,GLCCM)[12]。Hu[13]从每个方向上的共生矩阵中计算30个特征,为了消除方向对特征的影响,保持特征的各向同性,对各方向上的相同特征分别取平均值和极差,作为最终的特征,即每个ROI的每类矩阵可提取60个特征(30个均值,30个极差),三类矩阵可提取180个特征,包括60个GLCM特征,60个GLGCM特征,60个GLCCM特征。本研究所用到的特征名称和编号表示如下:f1~f30表示由GLCM计算出30个均值特征,Rf1~Rf30表示由GLCM计算出30个极差特征;Gf1~Gf30表示由GLGCM计算出30个均值特征,RGf1~RGf30表示由GLGCM计算出30个极差特征;Cf1~Cf30表示由GLCCM计算出30个均值特征,RCf1~RCf30表示由GLCCM计算出30个极差特征。具体特征的计算方法参见文献[13]。
本研究中每个ROI提取180个特征,为了得到能够更好区分息肉和肠壁组织的特征,减少冗余特征对分类能力的影响,同时增强对各特征和对于区分肿瘤和正常组织能力之间的理解,采用Python开源机器学习库scikit-learn[14]模块,构建了基于随机森林(random forests,RF)的嵌入式特征选择策略。该策略在RF生成每一棵决策树的过程中,先对特征进行采样,然后计算采样特征的基尼不纯度,并按照基尼不纯度最小的原则进行全分裂。基尼不纯度指某个样本在随机采样中选中且被错分的可能性,基尼不纯度指某个样本在随机采样中选中且被错分的可能性,其定义为公式1:
某学者曾将银行和美发店作为主要研究对象,将转换成本划分为不同维度,分别是机会成本、风险成本、评估成本、认知成本、组织成本和沉没成本等。在这一研究中发现,转换成本与再购买呈现明显的正相关性。在线上购物中,需要对转换成本的内涵进行分析,通过这种方式研究对成本的影响。
这样每棵树的非叶节点的基尼不纯度减少量可反映出该特征对于分类的重要性。其定义为公式2:
式中tdes表示t的子节点,N表示RF中决策树的个数。
将基尼不纯度减少量作为指标并进行排序,即可得到其对应特征的重要性排序。按照特征的重要性排序,将特征逐个加入分类器进行分类,并计算其分类准确度和曲线下面积(area under curve,AUC)值,选取对应最高AUC值的特征组合作为最优特征子集。
为了检测不同分类模型对特征分类的影响,本研究分别采用了逻辑回归(logistic regression,LR)、支持向量机(support vector machine,SVM)、RF和K-近邻(K-nearest neighbor,KNN)等4种不同的分类器独立完成样本的训练和测试任务。为了减少训练样本规模不同而导致的估计偏差,本研究采用了10折交叉验证策略对模型进行评估,即将样本随机划分为10个大小相似的互斥子集,每次用其中9个对分类器进行训练,余下的子集用于测试,最终返回10个测试结果的均值。每种分类器分别对上述10折交叉验证重复100次,结果的平均值作为最终结果。最后,采用准确性、特异性、敏感性、受试者工作特性曲线(receiver operating characteristic,ROC)及ROC的AUC值等对分类性能进行评估。
按照特征选择公式(1)和公式(2)的方法,设置RF模型中决策树的数量为10,分类标准采用基尼系数,其余参数均保留默认参数。一般来说,决策树的数量太小容易欠拟合,决策树的数量太大又容易过拟合,本研究设置较小的值是为了防止过拟合。然后采用10折交叉验证的方式将样本输入分类器重复运行100次,获得前20特征重要性排行(如图2所示)。
图2 前20特征重要性排行示图
图2 显示,特征RGf19(第三四分位数概率)、RGf23(聚类萌)和RGf11(差熵)是最具有分类能力的3个特征,绘制出了这3个特征数据的三维分布情况,绿色圆点表示息肉,红色三角表示正常肠壁(如图3所示)。
图3 RGf11、RGf19和RGf23的三维散点图
图3 显示,息肉和正常肠壁两种组织具有较明显的可区分界限,表明这3个特征能够用于息肉和肿瘤的有效区分。排序前3的特征均来自GLGCM,这一方面表明高阶偏导图像能够更好地反映纹理的变化,另一方面也表明相较二阶偏导,基于一阶偏导图像的灰度梯度共生矩阵特征具有更好的息肉和肠壁组织区分能力。
按特征的重要性降序,将特征逐个加入RF分类器进行分类,其特征数量与准确度、AUC值的关系曲线如图4所示。
图4 特征筛选过程示图
图4 显示,随着特征数量的增加,分类性能呈上升趋势。当特征数量为36时,分类准确度达到最大值为100%;当特征数量为37时,AUC达到最大值为1。继续增加特征数量,分类性能出现微小波动,但总体呈平稳状态。选取上述37个特征作为最优特征用于分类,最优特征中各类特征分布情况可知37个最优特征中,基于GLGCM的特征占22个,其特征重要性占比达到了57.9%;基于GLCM的特征占14个,其特征重要性占比为28.6%;而GLCCM特征仅有1个,占比为0.6%(如图5所示)。
图5 最优特征中各类特征分布情况示图
汇总4种不同分类器重复100次10折交叉验证的分类结果的均值,对应的平均ROC曲线见表1,如图6所示。
图6显示,阴影部分表示其正负标准差。由图表可知,SVM和LR多次分类结果分布比较稳定集中,而RF和KNN分类结果分布相对离散,相对波动较大,但4种分类器对所选特征都有极高的分类表现。由此可见,基于GLCM、GCM及CCM的三维Haralick纹理特征能够有效的鉴别结肠息肉和正常肠壁组织。
表1 不同分类器分类结果汇总
图6 四种分类器重复100次10折交叉验证的平均ROC曲线图
本研究从图像的灰度共生矩阵特征入手,将灰度图像拓展到高阶偏导图像,将Haralick特征从二维拓展到三维,将特征数量由14个拓展到180个。经过特征筛选,用获得的37个最优特征集,利用该最优特征子集,分别采用4种常用分类器对息肉和肠壁组织进行分类,平均敏感度均在99%以上,平均特异度在98%以上,平均AUC均为0.99,实验表明,经过上述处理所提取的特征在体现结肠息肉和正常组织的差异上具有极高的表现,其中基于GCM的特征对分类性能的贡献在一半以上,表明CT图像的灰度梯度共生矩阵变换在一定程度上反映了息肉组织的异型性,其纹理特征可作为表征结肠壁异变发生的良好标志。
相对于形状指数、曲度等形态学特征,纹理特征能够定量的反映出病灶的微观变化和内在差别,Song等[12]、Hu等[13]以及Pedregosa等[15]研究发现,对影像进行高阶偏导变换,能够进一步放大组织间的纹理差异,用于不同组织的鉴别。Huang等[16]发现,运用特征组合和筛选策略,能有效降低特征冗余,提高特征的鉴别效果,因而纹理特征在结肠息肉检测上具有天然的优势。
本研究筛选出了一组具有极高分类性能的纹理特征,以此构建以纹理特征为核心的结肠息肉计算机辅助检测流程,可与传统方法相互补充,有望克服现有CTC对体积较小、形状变化不显著的息肉检测率较低的瓶颈。同时,充分利用肿瘤纹理特征的差异性构建模型,对已发现的病灶及其周围正常组织做深入的分析,并引入相关临床病理学指标进行特征筛选和组合,可望对息肉类型、良恶性、肿瘤浸润深度等进行进一步评估,为CTC的治疗、预后和随访提供指导和帮助。
[8]Ijspeert JE,Tutein Nolthenius CJ,Kuipers EJ,et al.CT-Colonography vs. Colonoscopy for Detection of High-Risk Sessile Serrated Polyps[J].Am Gast roenterol,2016,111(4):516-522.
[9]Haralick RM,Shanmugam K,Dinstein I.Textural Features for Image Classification[J].Systems Man and Cybernetics IEEE Transactions on,1973,smc-3(6):610-621.
[10]Ganeshan B,Miles KA,Young RC.Texture analysis in non-contrast enhanced CT:impact of malignancy on texture in apparently diseasefree areas of the liver[J].Eur J Radiol,2009,70(1):101-110.
[11]Sheshadri HS,Kandaswamy A.Experimental investigation on breast tissue classification based on statistical feature extraction of mammograms[J].Comput Med Imaging Graph,2007,31(1):46-48.
[12]Song B,Zhang G,Lu H,et al.Volumetric texture features from higher-order images for diagnosis of colon lesions via CT colonography[J].Int J Comput Assist Radiol Surg,2014,9(6):1021-1031.[13]Hu Y,Liang Z,Song B,et al.Texture Feature Extraction and Analysis for Polyp Differentiation via Computed Tomography Colonography[J].IEEE Trans Med Imaging,2016,35(6):1522-1531.
[14]Pedregosa F,Gramfort A,Michel V,et al.Scikitlearn:Machine Learning in Python[J].Journal of Machine Learning Research,2011,12(10):2825-2830.
[15]Xu X,Zhang X,Tian Q,et al.Three-dimensional texture features from intensity and high-order derivative maps for the discrimination between bladder tumors and wall tissues via MRI[J].Int J Comput Assist Radiol Surg,2017,12(4):645-656.
[16]Huang YQ,Liang CH,He L,et al.Development and Validation of a Radiomics Nomogram for Preoperative Prediction of Lymph Node Metastasis in Colorectal Cancer[J].J Clin Oncol,2016,34(18):2157-2164.