刘思腾,于 湛*,李哲人,刘译阳,翁思远,王洁洁
(1.郑州大学第一附属医院放射科,3.放射介入科,河南 郑州 450052;2.上海联影智能医疗科技有限公司,上海 200030)
乳腺癌是女性常见的具有多种分型及治疗反应的异质性恶性肿瘤[1]。人表皮生长因子受体2(human epidermal growth factor receptor-2, HER-2)阳性乳腺癌侵袭性和转移概率更高,预后不佳[2];未接受抗HER-2治疗的HER-2阳性乳腺癌复发风险较高[3]。目前以免疫组织化学(immunohistochemistry, IHC)方法检测乳腺癌HER-2表达状态,将HER-2(+++)判定为HER-2阳性、(-)或(+)判定为HER-2阴性[4];遇HER-2(++)时需进一步行荧光原位杂交(fluorescence in situ hybridization, FISH)检测,将基因扩增者判定为HER-2阳性,否则为HER-2阴性,但需要专门的设备和技术[5]。计算机辅助诊断(computer aided diagnosis, CAD)可利用深度学习(deep learning, DL)对乳房X线片(mammogram, MG)进行自主学习并提取相关特征,结果客观、准确[6-7];卷积神经网络(convolutional neural network, CNN)为经典DL网络,对于医学图像的分类性能良好。本研究观察基于术前MG DL联合临床特征列线图预测乳腺癌表达HER-2状态的价值。
1.1 研究对象 回顾性纳入2020年2月—2023年1月于郑州大学第一附属医院就诊的265例女性单发乳腺癌患者,其中93例HER-2阳性(阳性组)、172例HER-2阴性(阴性组);均于术前1个月内摄MG,术后病理确诊为浸润性乳腺癌,IHC结果均为HER-2(++),且FISH检测资料完整;按8∶2比例将其分为训练集(n=211,含74例HER-2阳性和137例HER-2阴性)和验证集(n=54,含19例HER-2阳性和35例HER-2阴性)。排除检查前接受放射、化学治疗或手术等治疗及图像质量不佳者。检查前患者均签署知情同意书。
1.2 仪器与方法 采用Hologic Selenia或GE Senographe Essentia数字化乳腺摄影机、自动曝光模式摄双侧乳房头足位(cranio-caudul position, CC)和内外斜位(mediolateral oblique position, MLO)片。
1.3 分析图像 由2名具有5年以上乳腺影像学诊断经验的主治医师以盲法共同阅片,根据乳腺影像报告和数据系统(breast imaging reporting and data system, BI-RADS)对MG所示乳腺腺体进行分类,将BI-RADS 1或2类归为非致密型、BI-RADS 3或4类归为致密型乳腺。
1.4 构建DL模型 将CC和MLO MG输入孪生DL网络,先对MG数据与ROI掩模数据行矩阵乘法,删除全0层面后获得肿瘤图像。选取肿瘤ROI并调整为224×224×3像素,输入ResNet50网络。利用迁移学习将ImagNet数据集参数作为网络权重,并冻结梯度更新。通过末层卷积层提取7×7×512维张量,利用自适应平均池化分别基于CC和MLO图像得到2 048个DL特征;经过全连接层进行特征融合,共获得2 048个特征,再经Softmax分类器输出二分类结果,得到DL评分(Deep-score),并基于此构建DL模型。见图1。
图1 DL工作流程图
1.5 统计学分析 采用SPSS 26.0统计分析软件及R 4.1.0软件。以±s描述符合正态分布的计量资料,以中位数(上下四分位数)描述不符合者,分别行独立样本t检验或Mann-WhitneyU检验。以χ2检验或Fisher精确概率法比较计数资料。以多因素logistic回归分析基于训练集内亚组间差异有统计学意义的临床指标构建临床模型,之后以DL模型联合临床指标构建联合模型并绘制其列线图。绘制受试者工作特征(receiver operating characteristic, ROC)曲线,计算曲线下面积(area under the curve, AUC),评估各模型预测乳腺癌表达 HER-2状态的效能,并以DeLong检验进行比较。采用校准曲线和Hosmer-Lemeshow 检验评估联合模型的校准度;以决策曲线分析(decision curve analysis, DCA)评估各模型的临床获益。P<0.05为差异有统计学意义。
2.1 构建临床模型 训练集HER-2阳性与阴性患者雌激素受体(estrogen receptor, ER)状态、孕激素受体(progesterone receptor, PR)状态及Ki-67表达水平差异均有统计学意义(P均<0.05),验证集HER-2阳性与阴性癌患者年龄、是否绝经及Ki-67表达水平差异均有统计学意义(P均<0.05);组间其余参数差异均无统计学意义(P均<0.05)。见图2、3及表1。多因素logistic回归分析显示,训练集患者ER 状态[OR=3.63,95%CI(1.66,7.93)]及Ki-67表达水平[OR=2.84,95%CI(1.75,4.63)]均为HER-2阳性的独立预测因子(P均<0.05),故以之构建临床模型。
表1 训练集和验证集乳腺癌患者一般资料及病灶病理特征比较
图2 患者女,43岁,左乳浸润性癌,HER-2阴性 A、B.左乳CC(A)及MLO(B)图示左乳外上象限19 mm×16 mm高密度影(绿色框内); C.病理图(HE,×10); D.FISH检测图示HER-2基因无扩增 图3 患者女,71岁,左乳浸润性癌,HER-2阳性 A、B.左乳CC(A)及MLO(B)图示左乳内下象限18 mm×15 mm高密度影(绿色框内); C.病理图(HE,×10); D.FISH检测图示HER-2基因扩增
2.2 构建DL模型 训练集阳性亚组与阴性亚组的Deep-score分别为0.65(0.52,0.79)、0.19(0.12,0.26),差异有统计学意义(Z=-11.01,P<0.01);验证集阳性亚组和阴性亚组的Deep-score分别为0.43(0.33,0.53)和0.26(0.23,0.31),差异亦有统计学意义(Z=-4.28,P<0.01)。见图4。
图4 训练集和验证集Deep-score分布 A.训练集; B.验证集
2.3 构建联合模型 基于临床独立预测因素及Deep-score构建的联合模型的列线图见图5。Hosmer-Lemeshow检验显示模型拟合较好(χ2=13.10,P=0.11)。校准曲线(图6)显示联合模型列线图在训练集和验证集的预测结果与实际结果的一致性均良好。
图5 联合模型列线图 图6 联合模型列线图预测乳腺癌表达HER-2状态的校准曲线 A.训练集; B.验证集 图7 各模型预测乳腺癌表达HER-2 状态的ROC曲线 A.训练集; B.验证集
2.4 评估模型效能 临床模型、DL模型及联合模型在训练集的AUC分别为0.75、0.96及0.97,在验证集分别为0.70、0.86及0.88(图7及表2)。联合模型在训练集的AUC高于临床模型及DL模型(Z=7.15、2.03,P<0.01、P=0.03),在验证集的AUC高于临床模型(Z=5.76,P<0.01)而与DL模型差异无统计学意义(Z=1.50,P=0.33)。DCA(图8)显示,联合模型在训练集的临床净收益高于临床模型及DL模型,在验证集的临床净收益高于临床模型而与DL模型相当。
表2 各模型预测乳腺癌表达HER-2状态的效能
图8 各模型预测乳腺癌表达HER-2状态的DCA图 A.训练集; B.验证集
对于HER-2(++)乳腺癌,准确评估其为HER-2阳性或阴性有助于为临床制定治疗决策。传统影像组学需分割肿瘤边界和人为定义特征。既往研究[8]表明,DL可准确、自动检测肿瘤并分割其边界和获取肿瘤特征。CNN用于识别图像适应性强,性能优异,擅长挖掘数据局部特征、提取全局特征并进行分类[9]。SUN等[10]报道,DL模型预测早期乳腺癌淋巴结转移的效能良好。本研究基于MG DL提取特征,构建CNN模型,以预测乳腺癌HER-2表达状态,其在验证集中的AUC达0.86,预测效能较佳。
乳腺癌HER-2状态与ER呈负相关[11]。Ki-67为定量评估肿瘤增殖的标志物,其表达增加与细胞生长相关[12]。Ki-67指数与HER-2状态呈正相关, HER-2过表达可能使Ki-67表达上调[13]。本研究将乳腺癌分为Ki-67低表达(≤15%)、中表达(16%~30%)和高表达(>30%)[14],发现ER状态及Ki-67表达水平均为乳腺癌表达HER-2状态的独立预测因素;进一步将DL特征与临床独立预测因素特征相结合建立联合模型,绘制其列线图以可视化HER-2(++)扩增结果,结果显示联合模型的预测结果与实际结果具有良好一致性,其在训练集的AUC(0.97)及临床净获益均高于DL模型,表明以Deep-score联合临床因素可提高DL模型的预测效能,与既往文献[15]报道相符。本研究所获联合模型在验证集的AUC与DL模型差异无统计学意义,二者临床净获益相当,可能与本研究纳入临床特征较少有关,有待进一步观察。
综上,MG DL联合临床特征列线图可有效预测乳腺癌表达HER-2状态。但本研究为单中心回顾性观察,样本量有限,且缺乏外部验证,有待进一步完善。