张力,肖丹丹
1.北京中医医院顺义医院医学工程处,北京 101300;2.北京中医医院顺义医院放射科,北京 101300; *通信作者 张力z_z200888@126.com
在全球范围内,肺癌的发病率和死亡率高,并呈年轻化趋势,且较多患者发现时已处于进展期,其5年生存率仅为19%,早诊早治是提高肺癌生存的关键[1-2]。早期肺癌在胸部CT主要表现为肺小结节,虽然其检出率逐年提高,但假阳性率较高,导致目前肺结节良恶性鉴别诊断存在困难,微小结节的诊断更具挑战[3-5]。
非小细胞肺癌约70%为肺腺癌,肺腺癌及浸润前病变分为不典型腺瘤样增生(atypical adenocarcinoma hyperplasia,AAH)、原位腺癌(adenocarcinomain situ,AIS)、微浸润腺癌(microinvasive adenocarcinoma,MIA)和浸润性腺癌(invasive adenocarcinoma,IAC)[6]。不同类型的治疗方式不同,患者预后生存有差别,因此在CT上准确判断肺腺癌亚型的临床意义重大[2,5-6]。
人工智能时代,各种分类器可有效鉴别结节的良恶性,辅助医师提高诊断效率的同时,也减少了读片者的主观偏差,对肺结节的定性诊断可无创地量化肿瘤表型特征,降低过度诊断,缓解患者的压力[1,7-11]。
大量影像组学和深度学习在肺结节诊断方面的研究充分证明了这种高度定量技术手段的有效性[12-16],目前在肺结节的鉴别诊断、病理分型甚至分子分型方面有大量研究[12,15,17-18],但对不同模型在不同类型结节判断能力的表现鲜有报道,现有的研究无法综合评估不同组学模型的优缺点,也限制了其在临床上的应用[9,11,16,18]。本研究创新性地引入双影像组学模型——针对不同大小类型的实性和亚实性肺结节,从良恶性分类以及侵袭程度分级方面对模型进行评估。希望推进个性化医疗进步,精准指导临床实践,并在模型表现不佳的区间给出可信度提醒。
1.1 研究对象 回顾性分析2015年1月—2019年9月于北京中医医院顺义医院行CT胸部平扫肺结节的875个病例,共包含4 892个肺结节,依据病灶体积分布分为小、中、大结节组,小结节组为体积小于下四分位数(51.63 mm³)的小病灶,大结节组是体积大于上四分位数(434.75 mm³)的大病灶,介于两者之间为中结节组。若以球形计算结节的直径,则对应分组标准分别是下四分位数4.6 mm(51.63 mm³)和上四分位数9.4 mm(434.75 mm³)。
1.2 数据采集方式 患者取仰卧位,双上肢过头伸展,屏气训练,以吸气末期行胸部CT平扫。以上影像数据采集均采用西门子Defintion AS/YSIO CT设备,扫描参数为电压120 kV,转速0.5 s/r,电流110 mAs,层厚3 mm,螺距1.2 mm。CT扫描数据采用0.6 mm图像层厚及Lung算法重建,重建范围包括双侧锁骨上线至双侧膈肌下缘。
1.3 病灶分割 图像数据采集完成后,先进行图像预处理,按照CT肺窗将图像的灰度值进行截断处理,线性变换至1~4 097。然后由2位具有10年以上工作经验的副主任医师在达尔文智能科研平台采用盲法手动逐层勾画共4 892个结节的感兴趣区(ROI),并标注良恶性及浸润性(其中2 014个结节有病理恶性确诊结果,为模型2所用),后续统计分析以医师组标注结果为正确结果(金标准)进行对比分析。
1.4 模型建立 肺结节良恶性分类模型(模型1)的建立用3 669个结节作为训练集,1 223个结节作为测试集,训练集中小、中、大结节组分别有901、1 841、927个病灶,测试集中3组分别有299、601、323个病灶。
首先进行特征提取,每一种特征均由一个滤波器函数和一类特征组合而成,其中包含8种滤波器:指数滤波器、拉普拉斯-高斯滤波器、平方滤波器、平方根滤波器、对数滤波器、梯度值滤波器、局域二值图模式图、小波变换滤波器。特征包含7大类:一阶特征、形状特征(3D)、灰度共生矩阵、灰度区域大小矩阵、灰度游程矩阵、相邻灰度差矩阵、灰度依赖矩阵。经过滤波器和特征的排列组合,每个病灶或ROI能计算得到1 223维。然后对所有特征按照公式(1)进行归一化预处理。
其中n和j分别代表第n个样本的第j个特征。xmin,j是在所有样本中,第j个特征最小的那个样本,同理xmax,j为特征值最大的样本。
预处理完成后,通过包裹式特征筛选方式中的递归特征消除方法,利用逻辑回归连续建模选择特征,逐次删除最不重要的特征,最后保留10个特征作为模型的输入,在达尔文智能科研平台利用以径向基函数为核的支持向量机模型分别建立肺结节良恶性鉴别(模型1)和浸润性分类模型(模型2)。并对错误样本进行惩罚,惩罚系数C=100。
模型2则将模型1中确诊恶性结节中属于腺癌的部分进一步细分,预测腺癌亚型(共2 014个结节病理确诊恶性,其中1 978个结节为腺癌,25例为鳞癌,11例为其他),根据浸润程度预测输出值分为3类,分别为浸润前病变(AAH+AIS)、MIA和IAC。
模型建立后选取0.5作为参考阈值,计算2个模型在各种条件下的准确率,对模型表现进行评估。其中阳性在模型中代表恶性结节(n),阴性代表良性结节,真阳性率(%)=真阳性/(真阳性+假阴性),假阳性率(%)=真阴性/(真阴性+假阳性)。
本研究采用的基本流程见图1。
图1 研究流程图。模型1和模型2的建立研究都分为基于4个基本阶段,分别是图像获取、ROI分割、提取特征和分析
1.5 模型效能评估 肺结节直径及体积以均数表示,模型1、2分别鉴别肺结节良恶性及浸润性的表现用准确率、受试者工作特征(ROC)曲线下面积(AUC)评估。AUC是评价分类器性能的最佳度量之一。整个测试集与验证集比例为3∶1,测试集各项特征数据与验证集比例一致。模型2评估中使用热图,可以直观表现不同病灶大小和浸润性水平关系的预测准确率。
2.1 肺结节良恶性分类模型(模型1)表现评估 胸部CT病灶的良恶性分类模型(模型1)的分类ROC曲线见图2。训练集和测试集的表现非常接近,训练集AUC为0.953(95%CI0.948~0.959),测试集AUC为0.950(95%CI0.938~0.961)。结果无过拟合,置信区间非常狭窄,模型可信度很高。为了进行更加全面的统计分析,在后续研究中,利用训练集和测试集的全部数据,并且设置总体预测阈值为0.5,在此阈值水平下训练集敏感度为0.82,特异度为0.914;测试集敏感度为0.852,特异度为0.912。
图2 模型1在训练集和测试集上的ROC曲线
进一步评估模型1对恶性病灶检出的敏感度和特异度(图3)显示,在小结节组中良性病灶占99.0%(296/299),且良性病灶分类准确率达100%;大结节组中则相反,恶性病灶(n=274)的准确率达0.98,在良性病灶(n=49)鉴别准确率为0.24,在中结节组中良性病灶占77.7%(467/601)且分类效果更好(准确率为0.93)。
图3 模型1在不同病灶大小和病灶类型下的准确率。A为模型1不同病灶大小时鉴别良、恶性病灶的准确率,B为热力图,进一步展示了不同病灶大小数量和分类结果,其中每一块中间数字为准确率,下方数字代表该病灶类型包含的结节数量(n),色块由浅到深代表分类准确率由低到高,小、中、大分别为体积大小划分的组别
2.2 腺癌浸润性预测模型(模型2)表现评估 模型对良性小结节和IAC的准确率分别为100%和96.13%(图4A)。大结节组中的良性病灶数量仅49个,占总体良性病灶的6%,总体恶性可能性很高。直径>9.4 mm的大结节很容易与恶性病灶混淆,模型2则对这样的大结节鉴别有很高的敏感度,其对浸润前(AAH+AIS)、MIA及IAC,模型准确率分别为92%、94%、100%(图4B)。对于4.6 mm≤直径<9.4 mm的中间体积病灶,分类准确率达93%,在浸润程度由低到高预测准确度分别为0.33、0.61及0.42。
图4 模型2在测试集上的表现。A中分别将良性结节和恶性结节按体积大小和病理亚型分为小、中、大3类,及AAH+AIS、MIA和IAC组。模型对良性小结节和恶性浸润型病变(IAC)的检出最敏感;B中热力图将所有病灶按照病理分型和大小进行二维分组,给出了对每一分组的预测准确率。其中每一块中间数字为准确率,下方数字代表该病灶类型包含的结节数量(n),色块由浅到深代表预测准确率由低到高。浸润前病灶包括AAH与AIS,微浸润病灶为MIA,浸润性病灶为IAC
模型2预测腺癌分型结果见图5。浸润型病变中大病灶占比>95%,准确率达93%。预后较好的浸润前和微浸润病变(AAH、AIS、MIA)的中体积病灶占67%,准确率接近100%,总体准确率达93%。模型1、2输出结果及精确度见图6。
图5 模型2在测试集上的总体表现。热力图中将所有病灶按照病理分型和大小进行二维分组,给出了对每一分组的预测准确率
图6 模型1和2输出结果及精确度。图为在各种情况下模型1和模型2输出结果的精确度示例。其中,“输入”为病灶勾画后提取的病灶大小,“输出”为模型1和2的分类结果及针对不同输出结果的精确度,其中红色字体表示恶性可信度,绿色字体表示良性可信度,其他情况为空,需要医师进一步结合其他信息判断其性质
影像学征象在肺结节的诊断及评估中具有极其重要的意义。本研究建立的模型1对体积>434.75 mm3(直径9.4 mm)的结节判断为恶性的准确率为92%,对所有大小结节在内的IAC判断为恶性的准确率为96.13%,对病灶体积>51.63 mm3(直径4.6 mm)的IAC的判断准确率为100%。
不同级别浸润性病变的生存和预后完全不同,从模型2的表现来看,浸润性肺癌的检出率同样高达97%,结合2个模型的表现,本研究提出医师联合影像组学的诊断流程,该流程给出了在不同病灶大小下,模型输出结果的精确度(可信度),当2个模型同时输出阳性结果时,该病灶是IAC的可能性非常大。若模型对中体积病灶给出AAH、AIS的预测,建议随访观察,给出MIA的预测,结合组织病理检查制订切除方案;若本身为大病灶,模型给出IAC的预测,则浸润性的可能性非常大,建议进一步行组织病理检查。
对于手术指征不明确的较大磨玻璃病灶,需要进行大量的辅助类检查。而PET/CT扫描对实性成分不高的磨玻璃病变并不敏感,当病灶部位恰好难以行支气管镜检查或穿刺活检等病理检查时,临床可考虑行影像组学模型的良恶性分类进行参考,以进一步明确手术指征。
本研究通过对肺结节良恶性模型和浸润型病理分型模型评估,可以看出在不同病灶大小下模型的表现不同。模型对小病灶和大病灶有更高的敏感度,基本上可以做到不漏诊。对所有病灶的浸润类型判断均能达到较高的准确度,对微浸润型和浸润性病灶判断无显著差异。但是对于4.6 mm≤直径<9.4 mm的中间体积病灶的准确率不太高,建议位于该范围的病灶可以通过随访并结合组织病理等指标进一步确诊。
从模型的表现可认为达尔文智能科研平台的组学模型有敏锐的特征提取与识别能力,结果可信度很高。本研究基于双模型组学模型提出了一个AI联合放射科医师的诊断肺结节的最佳流程,为直径<1 cm的肺结节性质判断提供了可靠的参考,并对每一种可能情况给出了可信度提醒,方便临床医师结合实际出具诊断意见,有助于实现肺癌的早期诊断。
本研究的局限性:①本研究是一项回顾性研究,可能存在选择偏倚;②尽管本研究中的模型在一致性和可重复性方面表现优秀,但仅在内部进行了验证,设计时未纳入外部验证,需要在外部数据集上验证模型表现并及时调整;③未来也需要多中心前瞻性试验进一步验证,有望给出Lung-RADS分级,精准助力临床实践。