李绘, 李姣, 黎浩江, 陈树超, 刘立志, 陈洪波*
(1.桂林电子科技大学生命与环境科学学院, 桂林 541001; 2.中山大学肿瘤防治中心, 广州 510060)
乳腺癌是女性最常见的癌症,也是全球女性癌症死亡的主要原因[1]。内分泌治疗是乳腺癌综合治疗的重要组成部分[2],对乳腺癌术后预防复发、转移具有重要地位。他莫昔芬是雌激素受体拮抗剂,能够与细胞膜上雌激素受体结合,形成复合物,进而阻止雌激素发挥作用,是乳腺癌术后的重要治疗手段。研究乳腺癌术后他莫昔芬治疗预后关键因子,对于提高乳腺癌的治疗效果具有重要的临床意义。
近年来,有研究者致力于从生物信息学角度研究乳腺癌术后他莫昔芬治疗预后因子。皮瓣内切酶(flap endonuclease-1)[3],PDHA2-APRT基因对[4]、MAFG-AS1[5]等被认为是乳腺癌他莫昔芬治疗后重要的预后生物标志物,具有重要的临床意义。CXCL10可作为预测乳腺癌预后的生物标志物,也可作为治疗他莫昔芬耐药的治疗靶点,对他莫昔芬治疗效果的预后良好。TRAF4的高表达预示他莫昔芬治疗乳腺癌的预后不良,且将促进他莫昔芬耐药[6]。另外,也有一些研究从医学影像中寻找预后标志物,如磁共振成像中的表面弥散系数就被证明为可用于评估他莫昔芬治疗乳腺癌有效性的标志物,医学图像中的预后标志物相较于生物信息中的标志物,更加直观,也更容易获得,因此基于乳腺密度提出能够反映乳腺密度变化趋势的乳腺密度变化率(mammographic density change ratio,MDCR)这一指标作为乳腺癌术后他莫昔芬治疗疗效预后的预后影像标志物。
对于乳腺癌患者来说,乳腺钼靶X线影像是最常见的检查手段,从乳腺钼靶X线影像中获取精准的预后标志物更具有临床意义。乳腺密度(mammographic density, MD),是指乳腺钼靶X线影像中乳房腺体组织在乳房整体投影中所占的比例。它是乳房内腺体组织相对数量的一种测量方法[7],已被证明与乳腺癌筛查的敏感性和特异性有关。MD已被提出可以作为预测患乳腺癌的风险、癌症复发的可能性,以及对新辅助化疗的反应和生存率的生物标志物。MD的变化反映了乳腺中胶原蛋白的数量以及上皮细胞和非上皮细胞的数量的变化。MD不是静态特性,与大多数乳腺癌风险因素不同,MD可以发生改变,MD的变化与乳腺癌患病的风险增加、诊断时的晚期肿瘤分期以及局部复发和第二原发癌症的风险增加相关。MD增加与乳腺癌风险增加有关,并且MD降低会伴随着风险的降低[8]。
在临床实践中,主要根据放射科医师的视觉主观评估获得MD,且已被证实具有显著的医师内和医师间的差异性。定量成像分析软件Cumulus software 已开发用于乳腺钼靶定量测量乳房中的致密组织,是测量MD的金标准。这是一种基于交互式阈值的半自动观察者辅助工具,观察者主观选择有助于识别的阈值灰度级,将腺体组织与脂肪分离。但是该方法需要人工识别阈值,不仅耗费时间和精力,还会由于医师的主观因素导致误差。基于K-means聚类算法的交互式计算机辅助分割程序测量MD,需要人工判断是否为胸肌,然后基于K-means聚类算法分割出腺体组织,然后计算MD。然而,该方法需要对观察者进行培训且测量结果受观察者主观因素影响。基于深度卷积神经网络(deep convolutional neural network,DCNN)来估计MD的方法中生成一个腺体概率图,MD根据腺体概率图与乳腺面积的比值来估计。但是由于每位患者的腺体分布具有差异性,且部分钼靶图像中腺体呈分布较散、灰度较暗、结构细微的特征,该方法只能提取致密区的腺体,对非致密区效果不佳。基于全卷积网络分割乳房和致密的纤维腺体区域,该方法使用VGG16网络作为基本网络结构并微调网络,分别实现分割乳房和腺体密集区域。但是分割方法需要标注标签比较困难,且无法分割出非致密区的腺体。
针对当前乳腺密度测量中所存在的问题,提出了一种基于深度学习的乳腺密度自动测量方法。首先利用深度学习的方法实现乳房区域精准分割,然后采用通道注意力机制下的压缩激励卷积神经网络(squeeze-and-excitation convolutional neural network,SE-CNN)网络实现MD的自动测量,以获得准确的乳腺癌术后他莫昔芬治疗患者的MD值。为了研究乳腺癌术后他莫昔芬治疗效果评价关键因子,本研究对治疗前后的乳腺密度变化率的预后能力进行分析,探索乳腺癌术后他莫昔芬治疗预后分析方法,试图从影像学的视角寻找术后他莫昔芬治疗效果好的乳腺癌患者,提高乳腺癌的治疗效果。
本研究由中山大学肿瘤防治中心伦理委员会审核通过,审批号为SZR2020-170。数据均来自中山大学肿瘤防治中心,共有模型数据和预后数据两个独立的数据集,其中模型数据用来训练MD自动测量模型,预后数据用来获得MDCR,并进行乳腺癌术后他莫昔芬治疗预后分析。
1.1.1 模型数据
在MD自动测量模型训练时,由于在SE-CNN阈值回归网络模型设置阈值标签时,人工标注阈值存在主观性和不准确性的问题,而中山大学肿瘤防治中心的新引进的Selenia Dimensions仪器可以间接得到腺体区域的灰度阈值,以此为标签来可以规避人工标注带来的误差。因此训练MD自动测量模型采用来自该机器的数据,共包括246张钼靶图像,来自246位患者,采集时间为2021年3月—2021年6月,图像分辨率大小为1 136×944。
1.1.2 预后数据
数据集共858张乳腺钼靶图像,图像分辨率大小为1 915×2 295。该数据集来自429位患者。患者初次治疗时间为2008年4月—2015年12月。在随访期间,所有患者根据《NCCN乳腺癌临床实践指南(第8版)》[9]进行他莫昔芬治疗。每位患者采集钼靶图像的时间点分别为手术前和手术后进行内分泌治疗后15个月,年龄中位数为44岁(25~61岁),身高中位数为158 cm(142~170 cm),体重中位数为56 kg(35~165 kg)。随访时间中位数为59.8个月(6~82个月),其结果为总生存率、无进展生存率、无远处转移生存率和无区域复发生存率。
如图1所示,本实验分为两部分,首先是基于模型数据的MD自动测量模型的训练与验证,并通过五折交叉验证找寻效果最好的模型;接着基于预后数据进行MDCR的乳腺癌预后分析,即通过MD自动测量模型得出预后数据的MDCR值,并由预后分析方法得出MDCR值作为预后因子的预后能力。
图2 MD自动测量模型流程图Fig.2 Flow chart of MD automatic measurement model
图1 实验设计框图Fig.1 Experimental design block diagram
MD是指腺体面积占乳房面积的比例,即MD=GA/BA,其中GA和BA分别为腺体面积和乳房面积。如图2所示,首先利用U-Net Plus方法实现乳房区域的分割,获得乳房面积BA,接下来SE-CNN实现乳房区域的灰度阈值回归,获得乳房区域内腺体分割的阈值,从而实现腺体区域的提取,获得腺体面积GA,最后计算MD值。
1.3.1 基于U-Net Plus 网络的乳房区域分割
U-Net Plus网络在二维CT切片中分割食道癌和食道癌表现优异,其优势在于采用两个U型结构来增强复杂抽象的特征的提取能力,可以有效解决不规则和模糊的边界分割问题。所使用的钼靶图像中,乳房区域边界较暗、轮廓模糊,使用U-Net Plus网络能够有效地完成乳房区域分割任务,去除周围的肌肉和乳头等组织。
对模型的超参数进行设置,batch-size设置为6,在保证训练收敛情况下epoch设置为500,学习率设置为0.000 05,使用Adam优化器和交叉熵损失函数。经过测试,基于U-Net Plus方法的乳房区域分割的DICE(dice similarity coefficient)值达到0.997,精准分割出乳房区域,该网络可以用于钼靶图像中的乳房区域的精准分割。
1.3.2 基于SE-CNN的乳腺阈值提取
在钼靶图像中,脂肪组织表现为灰度较小,而腺体组织表现为不透明或灰度较大。因而可依据灰度阈值区分腺体组织和脂肪组织。由于腺体组织在乳房图像中具有大部分腺体集中、少部分腺体分散的分布特征,且腺体组织亮度不一的特点,实现阈值回归则要求网络具有更强的特征提取能力。基于通道注意力机制提出SE-CNN模型来满足这一要求。如图3所示,该模型以卷积层、非线性层和最大池化层组成大模块,为加深卷积层数,模型使用5个大模块,使得网络对特征提取能力加强。同时模型学习通道之间的相关性,针对通道施加注意力,在每个模块加入SE(squeeze-and-excitation)模块[10],通过学习的方式来自动获取每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务无用的特征,提高阈值回归的准确度。
图3 SE-CNN结构示意图Fig.3 Diagram of SE-CNN structure
对模型的超参数进行设置,batch-size设置为16,在保证训练收敛情况下epoch设置为500,学习率设置为0.000 1,使用Adam优化器和均方误差损失函数。
主要探索乳腺钼靶X线影像中的MDCR值对乳腺癌术后他莫昔芬治疗预后方法。由本文提出的自动测量方法分别计算手术前和手术后的MD值,从而可以得到MD的变化率MDCR,即
MDCR=(MD1-MD2)/MD1
(1)
式(1)中:MD1为患者手术前的乳腺密度;MD2为患者内分泌治疗至随访时间时的乳腺密度。
1.5.1 MD自动测量模型评价方法
利用深度学习方法研究了MD自动测量模型,从而实现自动计算MDCR值。其中乳房面积由 U-Net Plus 方法提取。提出了一种通过确定钼靶图像中腺体灰度阈值的方法来提取腺体,进而确定腺体面积,最终获得精确的MD值。采用平均绝对误差(mean absolute error,MAE)、决定系数R2和Bland-Altman一致性分析方法来评估腺体提取阈值新方法的性能,MAE、R2分别定义为
(2)
(3)
式中:vpredict为预测值;vlabel为标签值;vlmean为标签值的平均值。
在Bland-Altman一致性分析中,当预测值和真实值之间的绝大多数位于95% 一致性界限内,可以认为这两组数据具有较好的一致性,在临床上是可以接受的。
1.5.2 预后评价方法
采用R语言中的密度图方法求解MDCR切割值,将患者进行分组。利用Kaplan-Meier生存分析方法分析单因素对乳腺癌术后他莫昔芬治疗预后的影响。当P<0.05,认为两组之间无进展生存的差别有统计学意义。Cox 回归分析,利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度,进一步验证预后方法的临床意义。
在阈值回归模块中,采用AlexNet、VGG11、ResNet50 模型的结果与SE-CNN模型做对照,如表1所示,SE-CNN的阈值回归结果平均绝对误差值小于其他3种模型,决定系数值高于其他3种模型,说明SE-CNN的阈值回归结果准确性更高。
表1 阈值回归模型实验结果对照
图4 Bland-Altman一致性分析Fig.4 Bland-Altman consistency analysis
对AlexNet、VGG11、ResNet50以及SE-CNN 模型测试集阈值输出与机器阈值标签做Bland-Altman 一致性分析。如图4(a)为SE-CNN模型的 Bland-Altman
图,可以看出,98%(1/49)的样本在95%一致性界限之内,在一致性界限范围以内,两组数据差值的绝对值最大为24.43,差值平均值为0.33。图4(b)为AlexNet模型的Bland-Altman图,92%(4/49)的样本在95%一致性界限之内,在一致性界限范围以内,两组数据差值的绝对值最大为28.14,差值平均值为2.59。由此表明,AlexNet模型阈值结果与机器阈值标签的一致性差于SE-CNN模型。图4(c)、图4(d)分别为VGG11模型和ResNet模型的Bland-Altman图,根据分析可以得出SE-CNN模型阈值结果与机器阈值标签的一致性优于VGG11模型和ResNet模型。因此,SE-CNN模型阈值结果相比其他3种模型,具有最好的一致性,是最准确可靠的。
为了对乳腺癌术后他莫昔芬治疗效果进行预后分析,需要对乳腺癌患者进行分组。采用与患者预后信息无关的密度图方法计算和绘制核密度估计值。密度图由R的软件包ggplot2和函数geom_density(直方图的平滑版本)执行。
图5 MDCR切割值分析Fig.5 MDCR cutting value analysis
如图5(a)所示,当MDCR值为5.3时,曲线达到峰值,可用作最佳切割值。为了评估切割值的有效性,使用R的rms软件包执行受限3次样条(restricted cubic spline,RCS)函数,并使用RCS公式参数建立总生存率的Cox回归模型。如图5(b)所示,随着MDCR的增加,乳腺癌有进展的风险变小,当MDCR=5.3时达到风险减小的临界值,进一步验证了切割值选择的可靠性。利用MDCR=5.3作为切割值,将乳腺癌患者分成两组,并进行术后他莫昔芬治疗预后分析。
获得MDCR切割值后,乳腺癌患者被分成两组:Group A(MDCR≥5.3),Group B(MDCR<5.3)。图6显示了两组之间的生存曲线。通过Logrank检验,得到两组之间的无进展生存期P值为0.032。说明两组之间具有显著差异。同时可以发现,当MDCR≥5.3时,患者的生存曲线在上面,即这批乳腺癌患者的术后他莫昔芬治疗效果要好于另一组。多变量Cox回归分析如表2所示,同样可以发现MDCR的风险率为2.654[95%CI(置信区间),1.102~6.395],P=0.030。由此可以说明,MDCR可以作为乳腺癌术后他莫昔芬治疗预后关键因子。
通过Cox回归分析来确定乳腺癌进展的独立影响因素。首先进行K-M分析,筛掉一些无意义的变量,将P小于0.1的因素纳入Cox回归模型。K-M方法对以下因素进行分析:年龄、身高、体重、身体质量指数(body mass index,BMI)、MDCR,分析结果显示年龄、BMI、MDCR与乳腺癌进展相关。进一步做Cox多因素分析结果如表2所示,MDCR[风险比率(hazard ratio,HR)=2.654,95%CI,1.102~6.395,P=0.030]、BMI(HR=0.272,95%CI,0.088~0.846,P=0.024)是乳腺癌他莫昔芬治疗患者发生转移或复发的独立危险因素,有较低的MDCR、较高的BMI的随访乳腺癌患者发生转移或复发的风险增加。
图6 生存曲线Fig.6 Survival curve
表2 多变量Cox多因素分析
通过对乳腺密度自动提取模型研究及对乳腺癌术后他莫昔芬治疗效果分析,得出以下结论。
(1)为了对乳腺癌进行自动预后分析,提出了一种基于通道注意力的SE-CNN,精准地从钼靶X射线影像中计算乳腺密度。通过性能对比分析可以看出,决定系数R2=0.74,通过一致性分析可以看出,98%的样本分布在可接受的范围内。因此 SE-CNN 可以实现准确、自动提取MD。
(2)预后分析时,通过密度方法求得MDCR的切割值,对被试进行分组,两组之间的无进展生存期为:HR=2.654(95%CI,1.102~6.395),P=0.030,具有显著效应。MDCR值高的患者预后较好,反之则较差。说明MDCR值可以作为乳腺癌术后他莫昔芬治疗预后的潜在因子。