何月明,范良生,罗锦文,李新春,关玉宝,王薇
宫颈癌发病率逐年上升,且呈年轻化发展趋势,准确诊断和精确分期对宫颈癌的治疗和预后具有重要价值。传统FIGO临床分期主要依靠妇科检查,存在主观性较强、分期的整体准确性低等不足,不同文献报道的结论差异较大[1-3]。MRI的广泛应用提高了对宫颈癌术前分期的准确性,但MRI分期的准确性与MR设备的性能、技术及影像诊断医师的经验有很大关系,存在一定的主观性,不同文献报道的结论各异[4-6],所以探索一种可靠、稳定和客观的分期方法有重要的临床意义。医学纹理分析是数字图像后处理技术的一个分支,通过一定的图像处理技术(如软件、程式、工作站等),从已获得的图像数据中提取出纹理特征参数,从而获得对于组织和病变的纹理信息的定量或定性描述的处理过程。纹理特征的内在变化及定量测量能够区别不同病变组织的类型及正常与病变组织,为疾病的诊疗提供更多客观的量化依据[7-9]。机器学习(machine learning,ML)本质上是使用算法来解析数据、分析规律,然后对真实世界中的事件做出决策和预测,能很好地提高预测和决策能力。本研究通过对FIGO-Ⅱ期宫颈癌患者的MR图像提取纹理特征的定量参数,并进行决策树分类分析,旨在建立对FIGO-Ⅱ期宫颈癌宫旁浸润(parauterine invasion,PUI)进行诊断和鉴别诊断的决策树机器学习模型。
搜集2016年7月-2019年7月本院收治的90例经术后病理证实的FIGO-Ⅱ期宫颈癌(均为鳞癌)患者的MR图像及临床资料,年龄26~74岁,平均(51±9)岁。纳入标准:①手术前均行盆腔MRI平扫和增强扫描,且MRI检查与手术或活检的时间间隔<2周;②术前或活检前未行任何放、化疗等相关治疗;③各序列MR图像清晰,满足影像组学特征提取和影像诊断的要求;④术后或活检病理学诊断明确;⑤临床资料完整。排除标准:①全身多发肿瘤患者;②腺癌、腺鳞癌等宫颈非鳞癌患者;③未行手术或活检;④MR图像显示不清,无法进行影像学评价和组学特征的提取。
满足以下条件之一判定有PUI,①由一名妇科主治以上医师查体并由2名具有10年以上盆腔MR肿瘤诊断经验影像主治医师共同阅片后判定有PUI。②术后病理明确有PUI。根据上述判定方法,按照国际妇产科联盟(International Federation of Gynecology and Obstetrics,FIGO)2018年分期标准[7],本研究中Ⅱa期(无宫旁浸润组)宫颈癌患者45例,Ⅱb期(宫旁浸润组)45例。
本研究已经获得本院伦理委员审核通过。患者或家属行MRI检查前签署了检查知情同意书。
使用Philips Achieva 3.0T磁共振扫描仪,扫描序列及参数如下。①矢状面TSE T2WI压脂序列:TR 3500 ms,TE 94 ms,层厚3.5 mm,层间距0.3 mm,视野250 mm×320 mm;②横轴面TSE T1WI压脂和非压脂序列:TR 580 ms,TE 12 ms,层厚4.0 mm,层间距0.4 mm,视野192 mm×320 mm;③横轴面T2WI压脂序列:TR 3020 ms,TE 89 ms,层厚5.0 mm,层间距0.4 mm,视野266 mm×320 mm;④横轴面TSE T2WI非压脂序列:TR 2980 ms,TE 104 ms,层厚5.0 mm,层间距0.4 mm,视野192 mm×320 mm;⑤单次激发SE EPI序列横轴面DWI:TR 3800 ms,TE 98 ms,b值取0、600和1000 s/mm2;⑥横轴面T1WI压脂序列:TR 580 ms,TE 12 ms,层厚3.5 mm,层间距1.0 mm,视野260 mm×260 mm;⑦横轴面T1WI压脂序列增强扫描:TR 580 ms,TE 12 ms,层厚5.0 mm,层间距0.4 mm,视野260 mm×260 mm。
ROI的勾画和特征提取:首先,后处理工作站上将T2WI矢状面图像(层厚3.5 mm,层间距0.3 mm)以“.DCM”格式导出,导出前将图像标准化,使得每一帧图像的矩阵均为1118×1429。然后,将T2WI矢状面图像导入ITK-SNAP 3.08软件(www.itksnap.org),分别由2位具有10年以上盆腔肿瘤MRI诊断经验的副主任医师评价图像,确定用于分析的层面,意见有分歧时通过协商达成一致。其后,由2位医师分别独立勾画ROI(图1~3)。ROI勾画原则:①ROI的边缘位于病灶边缘内侧1~2 mm;②逐层勾画,获得病灶的容积ROI(volume of interest,VOI);③勾画的ROI及VOI尽量避开了坏死、出血、钙化等影像学改变区域。将所有原始图像文件及勾画好的ROI文件导入纹理分析软件MaZda 4.6软件(http://www.eletel.p.lodz.pl/mazda/)进行图像纹理特征的提取(具体流程见图4)[7]。为减少MR图像亮度和对比度的影响,特征提取前对所有MR图像进行灰度标准化处理,控制其灰度值在(μ-3δ,μ+3δ),其中μ和δ分别表示灰度值的平均值和标准差。通过MaZda软件RUN功能键,每个选定VOI可提取出3D直方图、3D灰度共生矩阵(gray level co-occurrence matrix,GLCM)、3D灰度游程矩阵(gray run-length matrix,GRLM)、3D绝对梯度(absolute gradient,GRA)、自回归模型(auto-regressive model,ARM)及小波分析这6大类共794个纹理特征参数[11-12]。
特征选择及降维方法:采用Mazda软件对获得的全部纹理特征参数进行降维,Mazda软件的降维方法有3种,包括Fisher系数(Fisher)、分类错误概率联合平均相关系数(classification error probability combined average correlation coefficients,POE+ACC)和交互信息(mutual information,MI),联合3种方法(Fisher+POE+ACC+MI,FPM)最终获得10个最具鉴别价值的纹理特征参数。
ⅡA期患者均行手术切除病灶,有明确的病理学诊断报告,内容有肿瘤病理类型、分化程度、宫体和宫旁浸润程度、淋巴结转移情况、神经和血管侵犯情况及肿瘤的各种免疫组化信息等;ⅡB期患者进行肿瘤的穿刺活检,有病理诊断报告。
使用SPSS 19.0及Medcalc 15.2.2软件统计分析软件,计量资料符合正态分布的,以均数±标准差的形式表示,非正态分布者采用中位数(数值范围)表示。计量资料的组间比较采用独立样本t检验或非参数U检验。比较降维后获得的各项纹理参数在宫旁浸润组和非宫旁浸润组之间有无统计学差异,选取差异具有统计学意义的参数为自变量,采用卡方自交互侦测决策树(CHAID)、穷举CHAID、快速无偏和高效统计树(QUEST)和分类回归树(CRT)四种决策树方法并采用十倍交叉法建立预测模型,分析4种决策树预测模型鉴别nPUI与PUI的符合率。采用ROC曲线分析4种决策树机器学习模型的诊断效能,计算曲线下面积(area under curve,AUC),确定各指标的截断值,获得相应的敏感度和特异度。使用delong测试对4个决策树预测模型的AUC值进行组间两两比较。以P<0.05为差异有统计学意义。
宫旁浸润组和非宫旁浸润组的10个纹理特征(经降维后最终确定的)的比较见表1。S010熵、S110对比度、S010角二阶矩、@135°游程长度非均匀性、135°长游程补偿之间比较,差异均具有统计学意义(P<0.05);但宫旁浸润组及非宫旁浸润组的1%灰度百分位3D、45°长游程补偿、Gr均值、Teta1、Teta2比较差异无统计学意义(P>0.05)。
表1 nPUI组与PUI组降维后MRI纹理参数的比较
4种生长法建立的决策树模型的分类结果及诊断效能指标见表2~3。四种模型中以CRT生长法决策树模型的诊断效能最高,对宫旁浸润的分类符合率为93.3%,对非宫旁浸润的分类符合率为91.1%,总体诊断符合率为92.2%。
表2 预测模型对nPUI和PUI的分类结果 (例)
表3 四种决策树预测模型的诊断结果
CRT法采用Gini分类树算法,软件给出了差异有统计学意义的5项纹理特征的相对重要性(表4)。5项纹理参数中以S(0,1,0)熵的标准化重要性最大(达100.0%),以135°游程长度非均匀性的标准化重要性最小(51.4%)。
表4 待选指标的相对重要程度
四种生长法生成的决策树预测模型的ROC曲线和诊断效能分析见(图5和表5)。基于组间差异有统计学意义的5项纹理特征建立的四种生长算法决策树模型中以CRT法的AUC最大,达0.922(95%CI:0.858~0.986)。
表5 四种生长法生成的决策树预测模型诊断效能
对四种预测模型的AUC进行两两比较(表6),结果显示CRT法建立的预测模型的AUC显著高于穷举CHAID法和QUEST法,差异具有统计学意义(P值分别为0.0404和0.0051);其它方法建立的预测模型的AUC之间差异均无统计学意义(P>0.05)。
表6 模型的ROC曲线AUC组间两两比较的P值
MRI在宫颈癌的诊断、分期和预后评估中都具有独特优势。常规平扫T2WI序列能很好地显示IB期以上的病灶,所以本研究中选择在矢状面T2WI上对病灶进行ROI的勾画。增强扫描能进一步提高对宫颈癌病灶的识别率,使用阴道内线圈能显示较小肿瘤。常规MRI对宫旁浸润的诊断主要依据的是宫颈纤维基质低信号带的中断和模糊,当肿瘤内存在坏死和水肿时,则会导致对宫旁浸润的误判,造成MRI对肿瘤的过度分期。随着各种MR功能成像技术的发展,如DWI、体素内不相干运动DWI、MR灌注成像、MRS、动态对比增强定量分析等,对宫颈癌的诊断和分期的准确性进一步提高,但是受限于设备、技术控制等因素的制约,上述技术在临床实践中的广泛推广有一定难度。因此,宫颈癌宫旁浸润的鉴别诊断仍是宫颈癌影像学研究的难点及重点。以往的研究中认为宫颈癌的某些形态学和强化特征对判断宫颈癌宫旁浸润有一定价值,但这些影像学特征仅仅是总体而言对评价宫颈癌有一定价值,但是缺乏特异性,而某些患者可能并无典型的征象,最终导致了影像及临床医师无法快速准确地判断是否存在宫旁浸润。
纹理分析是数字图像后处理一个分支,通过一定的图像处理技术(如软件、程式、工作站等)对已获得的医学图像数据提取出纹理特征参数,从而获得纹理的定量或定性描述的处理过程。纹理特征内在变化及定量测量能够区别不同病变组织的类型及正常及病变组织,为疾病诊疗提供更多的客观的量化的依据[7-9]。
决策树(decision tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法,相对于传统的统计学分类方法如回归分析等,决策时属于一种非参数分类分析,可以处理没有符合某种特定分布的分类变量、连续变量等。本研究采用基于宫颈癌纹理特征联合决策树机器学习模型分类分析技术鉴别宫颈癌宫旁浸润,其优势在于不依赖影像医师的主观及临床经验,不受专业领域限制,能最大限度提供当前标准图像的各种定量信息[13],有助于提高影像诊断的准确性,更好地帮助临床进行决策。
目前国内外多数研究利用图像的纹理分析技术进行宫颈癌的研究,包括诊断和治疗评估等,谢元亮等[14]基于DCE-MRI的纹理分析技术有助于在术前预测宫颈癌的组织病理学分型和FIGO分级,尤其是对腺癌与鳞癌的鉴别诊断有较大价值。Guan等[15]对54例宫颈癌进行ADC值的全瘤直方图分析,结果显示宫颈癌的直方图参数中偏度和峰度均显著低于正常宫颈组织(P<0.0001),ADC值的90%百分位数的ROC曲线下面积最大(为0.996)。Meng等[16]探讨ADC直方图形状相关参数在晚期宫颈癌放化疗过程中评估早期治疗反应的价值,结果显示除宽度和标准差外,所有直方图纹理参数均在放化疗期间有显着变化(P<0.05),提示纹理分析有望作为监测晚期宫颈癌患者治疗过程中早期疗效的有效手段。杨易等[17]总结了影像组学在宫颈癌异质性分析中的进展,利用常规MRI序列与功能成像技术相结合的影像组学在宫颈癌异质性分析中的应用越来越广泛,可应用于宫颈癌的检出、分级和分期、以及对癌灶血管分布、淋巴结转移以及治疗疗效等方面进行预测和评估,从而能有效指导临床进行决策。
决策树分析属于机器学习内的有监督学习,在医学研究的各个领域都有广泛应用,有学者使用决策树分析方法对腮腺的良、恶性肿块进行评估,提示基于腮腺肿块的形态学特征和强化特点建立的决策树模型,鉴别诊断的敏感度、特异度和符合率分别为75%、100%和75%,体现了决策树的优势[18]。徐晓娟等[19]采用分类决策树方法,探索盆腔MRI结合患者临床信息在术前诊断子宫内膜癌合并卵巢恶性肿瘤中的价值,经决策树模型筛选出3项有诊断意义的指标:宫角受累、附件区肿块及血清CAl25,诊断子宫内膜癌合并卵巢恶性肿瘤的敏感度为89.66%(52/58),因此作者认为采用分类决策树方法对盆腔MRI和相关临床信息建立决策树模型,可提高对子宫内膜癌合并卵巢恶性肿瘤的术前诊断准确性。
本研究通过Mazda软件提取794个纹理参数,经降维及t检验得到的5项纹理参数的标准化重要性由高到低依次为S(0,1,0)熵的100.0%、135°长游程补偿的91.6%、S(1,1,0)对比度的81.2%、S(0,1,0)角二阶矩的80.0%和135°游程长度非均匀性的51.4%。熵描述的是共生矩阵的复杂性,其值越大,表示共生矩阵越复杂,即病灶的结构也越复杂,异质性越大;长游程补偿描述的是病灶内相邻像素间灰度值的差异程度,其值越大,则病灶越复杂,异质性越大。本研究中这2项纹理参数的重要性最大,提示这2项纹理参数是反映熵肿瘤异质性的重要指标。
基于MR纹理特征的CRT生长法决策树预测模型,对45例宫旁浸润正确分类42例,误判为非宫旁浸润3例,准确率为93.3%;对45例非宫旁浸润分类正确41例,误判为宫旁浸润4例,准确率为91.1%,总体诊断符合率为92.2%。本研究根据MR影像特征及纹理参数特征建立决策树分类预测模型,使用客观定量的纹理数据,使结果更加可靠。其中,使用CRT生长法建立的决策树预测模型对宫旁浸润的预测符合率为0.922,敏感度为93.3%,特异度为91.1% ,体现了决策树方法的优势,提示该预测模型对宫颈癌宫旁浸润具有很好的预测效果。
不足之处:本研究纳入的样本量较少,ROI为人为勾画,可能存在一定的选择偏倚,后续将进一步扩大样本量并引入半自动ROI勾画方法来以减少误差。其次,本研究中仅采取SPSS内决策树分类模型进行数据分析,后续将与工科人员合作进行其它机器学习方法如支持向量机、贝叶斯、K近邻、随机森林和逻辑回归等方法的研究。
综上所述,利用对宫颈癌MR图像提取的纹理特征,通过特征降维、t检验并进行决策树分析建立预测模型,能对宫颈癌宫旁浸润的诊断提供帮助,可在一定程度上避影像医师因主观因素而造成的诊断差异,提高分期诊断准确性,更好地帮助临床医师进行治疗决策。