刘鹏,于晓晶,李春志,任华,孟玉莲
中国中医科学院西苑医院放射科,北京 100091;
肉芽肿性乳腺炎(granulomatous mastitis,GM)是发生于乳腺小叶和导管周围的非干酪样肉芽肿性炎症病变,发病原因不明,推测可能与自身免疫性疾病、激素水平升高以及遗传因素等有关[1-2]。GM临床及影像学表现与乳腺癌极为相似,但两者治疗方式及预后截然不同,GM后期常出现明显的临床症状,病情具有复杂性和反复性的特点,严重影响患者的生活质量。因此,两类疾病的鉴别有重要临床意义。
MRI是目前乳腺疾病的主要影像学检查方法。GM病变MRI主要表现为非肿块样强化,根据乳腺影像和数据报告系统(BI-RADS)第5版标准,多归为BIRADS 4类病变[3]。但MRI具有高敏感度、低特异度的特点,而且传统的影像学分析受医师主观经验影响较大,诊断效率有限[4],可能会导致不必要的活检和临床治疗不足甚至过度[5-6]。
影像组学是从MRI等医学数字影像中高通量提取的大量定量影像学特征,可充分利用肉眼无法识别的深层影像信息,帮助临床医师提高疾病的诊断能力和改进医疗决策。但目前乳腺相关影像组学研究主要集中于对乳腺恶性病变的明确诊断[7-8],并未对GM、浆细胞性乳腺炎等良性病变给予更多关注。本研究拟分析GM单一病种与乳腺癌的影像组学鉴别诊断价值。
1.1 研究对象 回顾性收集2019年2月—2022年1月于中国中医科学院西苑医院经病理证实的GM及乳腺癌患者,纳入标准:①经穿刺活检或手术切除后病理证实;②单一MRI检查设备采集完整的动态增强磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)资料;③DCE-MRI检查前未行手术、放化疗等相关治疗及穿刺活检等有创检查。排除标准:①影像资料不全或图像质量差;②MRI未能发现明确病灶或病灶边界难以确定。最终纳入82例,其中GM 25例,年龄27~41岁,平均(34.2±4.1)岁;乳腺癌57例,年龄32~84岁,平均(54.1±11.9)岁,包括非特殊性浸润性癌50例、导管原位癌5例、特殊性浸润性癌2例(乳头状癌1例、黏液腺癌1例)。所有患者中仅1名乳腺癌患者为男性,其余均为女性。本研究经中国中医科学院西苑医院伦理委员会批准(2022XLA010-1),豁免受试者知情同意。
1.2 MRI检查 使用GE Discovery 750 3.0T超导型MRI仪,专用双穴乳腺表面线圈。患者取俯卧位,乳房自然悬垂于线圈内。扫描范围包括双侧全部乳腺组织、相应水平胸前部及腋窝。扫描横轴位T2WI加脂肪抑制,重复时间6 423 ms,回波时间68 ms,回波链长度16,翻转角111°,视野32 cm,矩阵320×256,激励次数1,带宽125 kHz,加速因子2.5,层厚/层间隔4/1 mm,非对称三点法水脂分离技术,扫描时间2 min 54 s;扩散加权成像采用单次激发SE-EPI序列,b值取1 000 s/mm2,参数为:重复时间7 500 ms,回波时间80.5 ms,翻转角90°,视野32 cm,矩阵128×128,激励次数4,带宽500 kHz,加速因子2,层厚/层间隔4/1 mm,STIR压脂方法,扫描时间3 min 30 s。横轴位T1WI动态增强序列:重复时间4.5 ms,回波时间1.2 ms,翻转角12°,视野32 cm,矩阵320×320,激励次数1,带宽400 kHz,加速因子2,层厚/层间隔1/0 mm,两点法水脂分离技术,单期扫描时间1 min 40 s。注射对比剂前先启动扫描,倒计时在8 min 30 s时注射造影剂,增强扫描连续无间断扫描6次。全乳单次扫描时间100 s。造影剂为钆双胺20 ml,生理盐水20 ml,速度2 ml/s,经肘前静脉高压注射器团注。
1.3 影像组学分析
1.3.1 病变分割 将DCE-MRI增强扫描第一期原始图像导入GE Analysis-Kinetics分析软件,对图像进行预处理,体素大小重采样为1 mm×1 mm×1 mm,以减少采用不同扫描协议或扫描设备造成的图像特征差异[9]。采用手工逐层勾画合成感兴趣区(ROI)的三维图像,包括正常腺体组织、脂肪、血管和坏死等。另一方面,将重采样后的资料导入ITK SNAP 3.8.0软件,采用半自动分割法采集ROI的三维图像。所有ROI的分割由2名具有5年以上MRI诊断经验的主治医师合作完成,意见不一时协商讨论,仍无法达成一致时,另请1名具有20年以上工作经验的主任医师共同商讨达成最终意见。对两种ROI分割方法所提取的数据采用组内相关系数(ICC)进行一致性评价,另外分别随机抽取两种方法提取的乳腺癌和GM数据各30例进行一致性分析,将ICC>0.75定义为一致性较好。
1.3.2 特征提取 共提取1 316个影像组学特征,包括图像生物标志物标准化倡议(IBSI)[10]推荐的18个一阶直方图特征,14个形状特征,75个高阶纹理特征[灰度行程矩阵(GLRLM)16个,邻域灰度依赖矩阵(NGLDM)5个,灰度区域大小矩阵(GLSZM)16个,灰度依赖矩阵(GLDM)14个,灰度共生矩阵(GLCM)24个]以及1 209个经过拉普拉斯-高斯算子(LoG)、小波变换(Wavelet)、局部二值模式(LBP)滤波变换的一阶和纹理特征。
1.3.3 特征筛选和降维 应用随机分层抽样法,将提取的病灶按7∶3分为训练组和测试组,训练组用于训练预测模型,测试组用于独立评估模型的性能。在分析前,将方差为0的变量先行排除,使用中位数填充缺失值和替换离群值,然后对数据进行标准化处理。采用相关性分析进行特征去冗余,排除相关性>0.7的特征,然后采用多因素Logistic逐步回归分析进一步筛选特征,保留0.01<P<0.05的最优特征子集,建立基于Logistic回归的影像组学得分(Rad-score)模型。
1.3.4 模型建立 将训练组数据集最优特征子集分别采用逻辑回归(LR)、支持向量机(SVM)、朴素贝叶斯(Bayes)、决策树(DT)、随机森林(RF)、K最邻近(KNN)6种分类器分别建立模型,进行5折交叉验证。其中逻辑回归模型绘制列线图以提高模型临床实用性。
1.4 统计学分析 采用R 3.5.1和Python 3.5.6软件,并结合MedCalc绘制受试者工作特征(ROC)曲线。符合正态分布的计量资料以±s表示。采用ROC曲线评估机器学习模型的性能,计算准确度、敏感度、特异度和曲线下面积(AUC),采用Delong检验比较模型的诊断效能。P<0.05为差异有统计学意义。
2.1 ROI绘制方法一致性评价 82例患者共分割出99个ROI病灶(GM 37个,乳腺癌62个)。将两种ROI分割方法所提取的影像组学数据进行一致性分析,所得ICC为0.68(0.51,0.78),提示两种ROI分割方式所得数据一致性欠佳,另外随机选择的30例GM和30例乳腺癌影像组学数据的一致性分析显示两种方法下乳腺癌组的影像组学数据一致性略高于GM组[ICC0.72(0.56,0.84)比0.70(0.53,0.80)]。2.2 影像组学模型建立及效能评价 99个ROI通过随机分配,训练组69个(乳腺癌43个、GM 26个),测试组30个(乳腺癌19个、GM 11个)。将半自动分割法提取的数据先经过相关性分析进行初次特征筛选,保留有意义的组学特征103个,再经过多因素Logistic逐步回归分析进一步降维,最终得到4个最优影像组学特征:original_shape_Flatness,OR=3.357(1.387~8.125),P=0.007;original_shape_Sphericity,OR=7.262(2.210~23.866),P=0.001;wavelet-LHH_glcm_MCC,OR=0.230(0.080~0.662),P=0.006;wavelet-HLL_firstorder_Skewness,OR=0.338(0.128~0.895),P=0.029。
Rad-score公式如下:Rad-score=1.2109×original_shape_Flatness+1.9827×original_shape_Sphericity-1.4707×wavelet-LHH_glcm_MCC-1.0844×wavelet-HLL_firstorder_Skewness+1.2632。
基于这4个影像组学特征,采用6种分类器建立预测模型,Delong检验结果显示LR模型和SVM模型AUC值显著高于其他模型(P<0.05),见图1。Bayes、RF、KNN、LR、SVM、DT模型的AUC分别为0.590、0.570、0.576、0.929、0.925、0.500。LR模型和SVM模型诊断效能差异无统计学意义(AUC:0.929比0.925,P=0.56)。其中LR模型绘制的Rad-score图在训练组和测试组中均能很好地区分两类病变(表1,图2)。
图1 6种分类器构建的预测模型绘制ROC曲线(A)和6种预测模型AUC值Delong检验P值图(B)
图2 LR模型训练组(A)和测试组(B)Rad-score图,红色表示实际为GM病变,蓝色表示实际为乳腺癌病变,分值超过0表示预测为乳腺癌,分值<0表示预测为GM
将两种ROI分割法提取的原始数据,应用之前的特征筛选方案,采用逻辑回归分类器构建模型,结果显示半自动分割法提取的数据所建模型诊断效能略优于手工法所建模型(AUC:0.929比0.916),但差异无统计学意义(P=0.69)。
将患者4个最优影像组学特征数值对照评分标尺,转换成相应分值后计算总分数,结合风险概率栏,可以预测患者为乳腺癌的概率(图3)。
图3 基于LR模型的最优特征子集列线图
GM是影像学表现最接近乳腺癌的乳腺良性病变[11],但其病情复杂且极易反复,破溃后易迁延不愈,早期明确诊断对于改善患者症状及预后有重要意义。本研究采用基于DCE-MRI的影像组学,针对GM单一病种与乳腺癌进行鉴别,以期为GM病变早期临床诊治提供重要依据。
3.1 DCE-MRI增强期相的选择 不同的影像组学研究采用不同期相进行病灶分割和特征提取,目前尚无统一标准。本研究采用增强扫描第一期图像作为原始数据进行特征提取,GM和癌症均为富血供病变,动态增强曲线均以II型(平台型)、III型(流出型)为主[3,12],增强扫描第一期时,病变主体即已明显强化或达强化峰值,此时病灶与周围正常乳腺实质的对比度最佳,有利于ROI的精确分割,同时也最大限度地避免周围正常乳腺实质背景强化对数据准确性造成的干扰[8]。
3.2 ROI提取模式对影像组学的影响 ROI分割是影像组学中最关键的步骤,它是影像组学数据的直接来源,但同样也是最具挑战性和争议性的部分[10,13]。在ROI的提取范围上,本研究采集包括病变整体区域的三维图像,相比二维图像,三维分析对病变整体情况的代表性更强。但在分割方式上,本研究分别尝试了手工逐层勾画和计算机半自动生成两种方法,研究ROI的分割方式对数据结果的影响。通过一致性检验发现两种方法所提取影像组学数据一致性欠佳(ICC=0.68),这可能会影响所建模型结果的准确性和稳定性。本研究又随机抽取两种方法分割的GM和乳腺癌病灶,将所提取的数据进行一致性检验,结果显示乳腺癌病变数据一致性优于GM病变(ICC:0.72比0.70),推测原因可能是GM病变主要表现为非肿块样强化,且病灶易多发、坏死[3],导致病变边界难以确定。尽管部分研究认为人工手动分割所提取的病灶是目前最为精确的分割方法[14-15],但它对于病变边界勾画一致性差异也最大。Gillies等[13]提出通过人工监督下的计算机辅助边缘检测可实现最佳的可重复性分割。Mao等[16]和石镇维等[17]也认为影像组学ROI分割采用自动或半自动分割法是首选方案,可显著提高工作效率,并最大限度地降低肿瘤边界勾画的观察者间差异。在本研究实际应用中,对于非肿块样强化病变,半自动分割法是效率最高、分歧最小的ROI分割方式,其通过计算机基于像素点差异自动识别病变边界,人为干预少且准确率高,尽可能地避免了人眼识别所带来的误差和分歧,也是本研究认为影像组学研究中ROI分割的最优方案。
此外,本研究还分别用两种方法提取原始数据,经过相同的特征筛选方案,采用LR分类器构建模型,结果显示半自动分割法提取的数据所建模型诊断效能略优于手工法所建模型(AUC:0.929比0.916),表明尽管两种ROI分割过程和所提取数据有所不同,但基于两类疾病存在本质性差异,影像组学利用高通量数据可以构建具有较好诊断效能的模型。
3.3 不同影像组学模型的诊断效能比较 本研究筛选出的最优特征子集中,经多因素逻辑回归分析显示2个形状特征的OR值最高(7.262、3.357),说明形态学特征对GM与乳腺癌有重要的鉴别诊断价值,并且相较于GM,病灶球度越大、平面度越高,越是乳腺癌的危险因素,不同于既往良、恶性疾病的相关研究[18-19],推测可能是因为GM炎症极易在导管及乳腺小叶内延续,炎症与正常乳腺实质交替存在,导致病变形态极不规则呈非肿块样强化。另外,最优特征子集还包括1个一阶直方图特征,1个二阶灰度直方图特征,它们通过计算病变内像素或体素灰度强度的空间差异,反映病变内部细节的不同及异质性,进而对疾病进行鉴别[20]。贾好东等[21]在直肠腺癌淋巴结转移预测的相关研究中也提取到相同的影像组学标签。
本研究采用6种分类器对筛选出有意义的影像组学特征进行建模,其中LR模型和SVM模型除测试组特异度以外,其余指标均>0.8,具有良好的诊断效能和稳定性,前者诊断效能更优于后者(AUC:0.929比0.925)。而其他模型在训练组和测试组中不同程度表现出AUC或特异度差值过大,提示这些影像组学模型的稳定性欠佳、泛化能力较差。LR算法是最经典、成熟且常用的二分类算法,具有抗干扰能力强、操作简单易理解、可解释性好的特点,可直观展现各特征对最终结果的影响权重。而SVM算法作为一个有监督的学习模型,更适合小样本、非线性的问题,也可以较好地处理高维数据集,具有较强的鲁棒性和较好的泛化能力。Mao等[16]在影像组学应用于乳腺癌钼靶摄影的研究中,评估了4种建模算法,SVM模型和LR模型具有良好的诊断能力,其中LR模型的准确度、敏感度和特异度更高。吴佩琪等[14]、苏丽平等[22]研究也发现LR模型和SVM模型具有更好的诊断效能和稳定性,与本研究结果一致。
3.4 本研究的局限性 ①样本量偏小,而且由于单中心、回顾性研究、未设置外部验证集,存在选择偏倚,所得结论有待进一步行多中心、大样本、前瞻性研究来验证。②仅选取MRI增强扫描图像进行影像组学研究,未纳入更多MRI序列、多模态影像资料及临床资料,有待后续研究构建更为系统科学的联合诊断预测模型。
总之,作为传统影像学诊断的补充,基于DCEMRI的影像组学模型可以为GM与乳腺癌的鉴别诊断提供重要价值。在病变ROI的分割方式上本研究更推荐半自动分割法,可以高效地获取更准确、全面、可重复性更好的数据,进而可能构建出诊断效能更高、分类能力更强的影像组学模型。在构建模型所采用的分类器选择上,LR和SVM构建的预测模型具有更好的诊断效能和稳定性。
利益声明 全体作者均声明无利益冲突