胡栩晟 郭艺帆 李鲁 陈晓珺*
2021 年WHO 对肺腺癌进行重新分类,取消了2015 年浸润前病变和浸润性病变的概念,将不典型腺瘤增生(atypical adenoma hyperplasia,AAH)、原位腺癌(adenocarcinoma in situ,AIS)归类为腺体前驱病变,腺癌则包括微浸润腺癌(minimally invasive adenocarcinoma,MIA)和侵袭性腺癌(invasive adenocarcinoma,IAC)[1]。MIA 病理表现为肿瘤组织穿透基底膜,浸润纤维间质,肿瘤细胞分层表现[2-4],应归为肺腺癌。临床实践中,通过肺结节超高分辨率CT(ultra high resolution computed tomography,UHRCT)靶扫描能够细致观察磨玻璃结节(ground-glass nodule,GGN)结节外观形态特征,进而诊断肺结节良恶性。该检查技术具有小视野、多矩阵、小间距等特点[5],但目前在独立鉴别AIS 和MIA 中的价值有限[6]。影像组学可定量分析并提取医学图像中肉眼无法识别的潜在定量特征,通过机器学习方法构建相关预测模型以达到疾病诊断、疗效或预后预测等目的[7]。在本研究基于肺结节UHRCT 靶扫描,从GGN中提取影像组学特征,构建Logistic 回归(LR)和支持向量机(SVM)模型用于鉴别AIS 和MIA。
1.1 临床资料 回顾性分析2018 年1~12 月198 例经手术治疗并病理证实为AIS 或MIA 的GGN 患者。纳入标准:①胸部CT 发现孤立性GGN(包括纯GGN 和部分实性结节),并接受肺结节UHRCT 靶扫描;②术前无化疗、放疗或远处转移;③无其他恶性肿瘤病史;④肺结节UHRCT 靶扫描DICOM 格式数据完整。排除标准:①同一肺叶存在多个GGN;②GGN 伴有空洞或实性结节;③CT 检查前行肺恶性肿瘤活检;④肺结节UHRCT 靶扫描图像中存在呼吸运动伪影。根据分层抽样,以7 ∶3 将所有患者划分为训练组和验证组。
1.2 图像采集 应用飞利浦Brilliance 64 CT 机进行肺结节UHRCT 靶扫描成像。患者取仰卧位,扫描时保持深吸气。扫描参数如下:探测器准直0.625 mm×6 mm;螺距0.64;管电压120 kV;管电流300 mA;重建层厚、层间距均为0.67 mm;FOV 250 mm;矩阵=1,024×1,024;重构卷积函数为A。
1.3 GGN 标注 GGN 感兴趣区域(ROI)分割在ITKSNAP 3.6.0(www.itksnap.org)上完成。在轴位图像上,沿着GGN 的轮廓进行手动描绘(见图1),最终获得整个GGN 的3D-ROI。由1 名具有5 年胸部CT 诊断经验的放射科医师经培训后完成所有GGN 的ROI 标注。在1 个月后,由上述医师和另一名具有10 年胸部CT 诊断经验的放射科医师再次对所有患者进行标注,用于评估观察者内和观察者间的一致性。若影像组学特征的组内和组间相关系数(ICC)均>0.75 则认为具有较好的可信度。
图1 肺结节勾画示意图
1.4 影像组学特征提取 将GGN 的CT 图像和相应标注导入AK 软件(Analysis Kit,GE Healthcare,US)进行特征提取,可分为以下几大类:一阶特征,形状特征,灰度共生矩降,灰度尺寸区域矩阵,灰度游程度矩阵,邻域灰度差矩阵,灰度相关矩阵。见PyRadiomics文档(http://pyradiomics.readthedocs.io)。
1.5 特征选择和模型构建 筛选出组内和组间ICC 均> 0.75 的影像组学特征。采用最小冗余度和最大相关性(mRMR)算法对这些特征进行排序,获取相关度最高的前20 个特征。采用套索(LASSO)算法进一步筛选剩余影像组学特征。采用LR 和SVM 从中选择与分类结果最相关的特征并计算相应的系数,构建用以鉴别AIS和MIA 的机器学习模型。
1.6 统计学分析 采用R 软件(版本3.5.0)。计量资料以(±s)表示,用Mann-Whitney U 检验,计数资料以n(%)表示,用χ2检验。对机器学习模型进行受试者操作特征(ROC)分析,并计算曲线下面积(AUC)。基于Youden 指数计算模型的准确性、敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)。P<0.05 为差异有统计学意义。
2.1 一般资料 见表1。
表1 患者一般资料
2.2 影像学特征选择和机器学习模型构建 采用AK软件从GGN 的ROI 中提取396 个影像组学特征。组内ICC>0.75 的影像组学特征有295,在此基础上组间ICC>0.75 的特征有204 个。经mRMR 和LASSO 进行特征降维后,分别用采LR 和SVM 从中选出与分类对象最相关的特征集以构建模型。筛选用于构建模型的影像组学特征列见图2。
图2 Logistic回归(A)和支持向量机(B)构建影像组学模型的特征及相应系数
2.3 机器学习模型的鉴别能力分析 在训练组中,LR模型的AUC 为0.787(95%CI:0.712~0.863),SVM 模型的AUC 为0.896(95%CI:0.842~0.951);在验证组中,LR 模型的AUC 为0.824(95%CI:0.713~0.936),SVM 模型的AUC 为0.839(95%CI:0.734~0.945)。见表2、图3。
表2 训练组和验证组机器学习模型的鉴别能力
图3 训练组(A)和验证组(B)中LR和SVM模型的ROC曲线
在早期肺腺癌研究领域中,较多研究者聚焦于区分IAC、AIS 和MIA,部分研究将AIS 和MIA 归为一类[8]。事实上,区分AIS 与MIA 在临床上具有重要意义。AIS 尚不具有侵袭性,规律的定期随访不会降低患者的生存率。一项前瞻性观察研究发现,纯玻璃结节或混合磨玻璃结节的ⅠA 期肺癌的生存率明显高于实性结节,且不管磨玻璃结节中实性成分的比例,其5 年生存率较高[9]。故此类患者可避免手术带来的潜在伤害。MIA 则已穿透基底膜,浸润纤维间质,需要手术治疗避免进一步发展为IAC。本研究基于肺结节UHRCT 靶扫描,影像组学结合两种常用的机器学习方法(LR 和SVM)鉴别AIS 和MIA。将精密扫描技术与高通量定量特征相结合,有助于早期肿瘤侵袭性的识别、AIS 与MIA 的鉴别,辅助临床医师制定个体化临床决策。
既往研究大多集中在GGN 的形态学上进行定性分析,如肿瘤直径、分叶征、毛刺征、空泡征、血管集束征、胸膜凹陷征、空洞征等[10-12]。然而,不同分化程度的肿瘤在形态学上常表现为征象重叠,不具备较高的特异性。影像组学是一种可以客观挖掘复杂生物信息学的潜在工具,可改善诊断、疗效和预后的准确性,从而促进更好临床决策。目前,影像组学常用于鉴别肺结节的浸润程度,而不根据肺腺癌的病理学分类进行分组[13-14]。另外,基于病理学分类的影像组学研究又大多是基于常规胸部CT 检查。WU 等[15]收集121 例病理证实的肺腺癌GGN,分析在HRCT 图像上从结节内和结节周围提取的影像组学特征是否能够有效鉴别IA、MIA 和AIS。
在基于胸部CT 影像组学特征的LR 和SVM 模型中,本研究发现某些特征在鉴别AIS 和MIA 的能力方面表现出色。可以明显观察到纹理特征如ClusterProminence、GLCMEntropy 和GLCMEnergy 在两种模型中均被赋予重要性,提示这些特征可能对揭示AIS与MIA 之间微小差异具有关键意义。此外,像素强度特征(如Range 和MaxIntensity)以及图像结构性特征(如SurfaceVolumeRatio、VolumeMM 和SurfaceArea)也被证明对区分AIS 与MIA 过程至关重要。这些发现突显了纹理、像素强度和图像结构特征在区分AIS 与MIA时的重要性,且这些影像组学特征可能为提供关于AIS和MIA 之间微观差异以及宏观差异的信息,深入探究这些特征所代表的病理生理学意义有助于准确诊断。
由于UHRCT 采用的矩阵为1024×1024,故其图像分辨率较高,单位面积有效像素是普通CT 的4 倍左右[16]。此外,目标扫描采用小视场、高矩阵、小间距技术,显著提高图像的空间分辨率,有助于显示肺小结节更多的影像特征。因此,相比常规CT,UHRCT 单个体素内包含的组织病理学信息更细致化,或有助于提高影像组学模型的预测性能。本研究结果提示基于肺结节UHRCT 靶扫描的两种机器学习模型均能较好鉴别AIS和MIA 这两种相近病理亚型。
综上,基于肺结节UHRCT 靶扫描,从GGN 中提取影像组学特征构建LR和SVM模型能较好鉴别AIS和MIA,为GGN 的临床决策提供一种潜在的无创性方法。