许 荣,欧阳秋芳,林 晴,郭鹊晖,刘磊磊,肖 凡,游 涛
(福建中医药大学附属第二人民医院超声科,福建 福州 350003)
乳腺癌已成为全球第一大癌[1]。雌激素受体(estrogen receptor, ER)和孕激素受体(progesterone receptor, PR)均属乳腺癌细胞分子生物学行为的主要决定因素,与应否进行内分泌治疗相关,且影响患者预后[2]:ER、PR双阴性乳腺癌患者不适于接受内分泌治疗,且预后较差。目前仅能依靠穿刺活检或手术病理等有创手段获得乳腺癌分子指标,检测时间较长;且乳腺癌具有异质性,局部组织检测结果无法全面反映肿瘤侵袭性。利用影像组学可提取医学图像中肉眼无法识别的信息,提高诊断准确率[3]。本研究观察以超声影像组学预测ER、PR双阴性乳腺癌的价值。
1.1 一般资料 回顾性分析2013年1月—2021年12月342例(共359个病灶)于福建中医药大学附属第二人民医院经病理确诊乳腺癌患者,男1例、女341例,年龄25~90岁、平均(54.5±12.3)岁;326例为单发病灶、16例为多发病灶(1例3个、15例2个病灶);其中119例见127个ER(-)PR(-)病灶、223例见232个其他病灶[36例共36个ER(+)PR(-)、2例共2个ER(-)PR(+)、185例共194个ER(+)PR(+)病灶];按7∶3比例将全部病灶分为训练集(n=251)和测试集(n=108):训练集含95个ER、PR双阴性病灶及156个其他病灶,测试集含32个ER及PR双阴性病灶及76个其他病灶。纳入标准:①于活检或术前接受乳腺超声检查,且检查前未曾接受肿瘤相关活组织检查、新辅助化学或放射治疗及消融、局部切除或全身治疗等;②经活检或手术病理确诊为原发性乳腺癌,且ER、PR免疫组织化学染色结果明确。排除超声图像质量不符合诊断要求者。本研究经院医学伦理委员会批准(SPHFJP-T2022007-01)。检查前患者均知情同意。
1.2 仪器与方法 嘱患者仰卧,双手上举并置于头部两侧,充分暴露双侧乳房及腋窝。应用Philips Epiq5、 Philips Epiq7、Philips IU22、GE Voluson E9、GE Voluson E10或Siemens Sequoia S2000彩色多普勒超声诊断仪及频率9~12 MHz高频线阵探头扫查双侧乳房及腋窝,检出病灶后留取二维图像并保存于超声工作站。
1.3 影像组学分析
1.3.1 分割病灶 由具有5年和12年以上超声工作经验的主治医师和副主任医师各1名分别选取各病灶最大切面图像进行分析,采用ITK-SNAP软件沿病灶边界手动分割,获得病灶ROI(图1),之后由1名具有15年以上工作经验的超声科主任医师进行复核,选取最佳ROI提取其超声影像组学特征。
图1 基于常规灰阶超声图像(A)分割乳腺病灶ROI(B,红色区域)示意图
1.3.2 提取特征 采用Pyradiomics 3.0版软件基于病灶ROI共提取1 314个影像组学特征,包括252个一阶统计量(first order)、12个形状特征(shape)、336个灰度共生矩阵(gray level co-occurrence matrix, GLCM)、224个灰度区域大小矩阵(gray level size zone matrix, GLSZM)、224个灰度游程长度矩阵(gray level run length matrix, GLRLM)、196个灰度依赖矩阵(gray level dependence matrix, GLDM)及70个邻域灰度差矩阵(neighbourhood gray tone difference matrix, NGTDM)。
1.3.3 筛选特征 对1 314个影像组学特征进行预处理,包括手动删除内容相同的字符串信息、按列将多维数据拆分为一维数据、采用方差分析法剔除方差为零数据,获得1 205个有效特征并进行标准化处理,并采用最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)算法筛选最佳影像组学特征,保存为影像组学标签。
1.3.4 建立模型 根据影像组学标签,采用支持向量机(support vector machine, SVM)对训练集数据进行训练,设置参数“核函数(kernel)”为“径向基核函数(radial basis function kernel,rbf)”采用基于TPE(tree-structured Parzen estimator)算法的贝叶斯优化对超参数“C(惩罚参
数)”和“gamma(核函数的参数)”进行参数空间搜索,筛选出诊断性能较优的参数带入模型,建立预测ER和PR双(-)乳腺癌的影像组学模型,并以测试集验证模型效能。
1.4 统计学分析 采用Python3.7.1软件行统计分析。以±s表示患者年龄,行独立样本t检验比较。绘制受试者工作特征(receiver operating characteristic, ROC)曲线,计算曲线下面积(area under the curve, AUC),评估影像组学模型的诊断效能。P<0.05为差异有统计学意义。
ER和PR双(-)乳腺癌与其他乳腺癌患者年龄差异无统计学意义[(54.2±12.7)岁vs.(54.9±11.4)岁,t=0.543,P=0.588]。
经LASSO算法共筛选出37个最佳影像组学特征(图2)以构建影像组学模型,其中权重系数绝对值最大的前10个特征详见表1;所获模型在训练集预测ER及PR双阴性乳腺癌的AUC为0.872[95%CI(0.820,0.924)],敏感度、特异度、准确率、阴性预测值和阳性预测值分别为80.00%(76/95)、77.56%(121/156)、78.49%(197/251)、86.43%(121/140)和68.47%(76/111),在测试集的AUC为0.867[(95%CI(0.798,0.936)],敏感度、特异度、准确率、阴性预测值和阳性预测值分别为75.00%(24/32)、84.21%(64/76)、81.48%(88/108)、88.89%(64/72)、66.67%(24/36)。见图3。
表1 经LASSO算法筛选出的权重系数绝对值最大的前10个影像组学特征及其权重系数
图2 基于LASSO回归筛选ER及PR双(-)乳腺癌超声影像组学特征 A.以LASSO算法筛选影像组学特征的均方误差图,红线代表均方误差的平均值,蓝色区域代表均方误差的标准差范围,λ为LASSO系数,根据平均标准误差最小值获得最佳λ值(虚线处),用以筛选特征; B.筛选出的37个影像组学特征的系数分布图
图3 超声影像组学模型预测训练集和测试集ER和PR双(-)乳腺癌的ROC曲线
ER及PR表达水平与乳腺癌发生、发展及预后密切相关。乳腺上皮经过一般增生、不典型增生发展至乳腺癌,在此过程中,ER、PR表达水平表达呈现出先升再降的渐变过程[4]。ER、PR双阳性乳腺癌分子分型属于Luminal A或Luminal B型,分化程度较高,对内分泌治疗敏感,预后相对较好;而ER、PR双阴性乳腺癌分子分型属于人表皮生长因子受体2(human epidermal growth factor receptor-2, HER-2)过表达型或三阴型,不受内分泌调控,内分泌治疗无效,预后较差。分子生物学因素影响肿瘤的生物学表达和组织病理学改变,进而影响其超声表现[2];乳腺癌ER和PR表达与其超声特征存在相关性[5]。WANG等[6-7]发现乳腺癌ER、PR表达水平与超声所示肿瘤形态、边缘及后方回声等均相关,但其与肿瘤内部回声的相关性尚不确定;也有学者[8]认为乳腺癌内部回声与其受体表达水平无明显相关性。
影像组学为客观、定量评估肿瘤内部特征提供了新的思路和方法。目前主要基于乳腺MRI、乳腺钼靶摄影及乳腺超声等[9-12]开展基于机器学习的传统影像组学和基于深度学习的影像组学研究分析乳腺癌分子分型。WU等[13]分析264例乳腺癌(201例为Luminal型、63例为非Luminal型)的超声表现,以其中184例为训练集、80例为测试集,所获影像组学模型鉴别测试集Luminal型与非Luminal型乳腺癌的AUC为0.786。ZHANG等[14]基于3 360个乳腺癌病灶的钼靶片和声像图构建多模态深度学习模型,其鉴别Luminal与非Luminal乳腺癌的AUC高达0.929。传统机器学习模型可分析建模过程中所用具体特征及其权重,且具备可解释性;深度学习模型的诊断效能更高,但所需样本量较多,且模型训练过程的可解释性较低。
LASSO算法通过构建惩罚函数以压缩特征系数、进而选择特征,应用范围广、筛选效率高,可有效控制过拟合、降低模型复杂程度。本研究基于LASSO回归筛选出37个乳腺癌最佳超声影像组学特征,能在不同程度上反映ER及PR双阴性与其他乳腺癌内部纹理复杂度、回声强度及均匀度的差异,有利于鉴别诊断;其中权重系数绝对值最大的前10个特征分别为SRE、Imc1、Mean、Complexity、SZNN、Center Of Mass Index2、CS、SRHGLE、GLNN及IDMN。SRE衡量短运行长度体素区域分布的程度,其数值越大,纹理越细腻。信息相关性Imc1利用体素对熵计算纹理的复杂性,能量化图像纹理的复杂度。Mean反映图像的平均灰阶强度,代表整体回声水平。Complexity衡量图像的不均匀程度。SZNN可量化图像不同区域的变化程度,是衡量肿瘤异质性的重要影像组学特征之一。CS反映GLCM的偏度和均匀性,回声越不均匀,则该值越大。SRHGLE与SRE类似,体现高回声纹理的细腻程度。GLNN反映图像灰阶强度均匀程度。IDMN用于度量图像纹理局部变化,反映图像纹理的同质性,亦是图像局部均一性的量化指标。本研究基于最佳影像组学特征构建的超声影像组学机器学习模型预测训练集及测试集ER和PR双阴性乳腺癌的AUC分别为0.872及0.867,提示其预测ER和PR双阴性乳腺癌的效能较佳。
综上所述,利用超声影像组学可有效预测ER、PR双阴性乳腺癌。但本研究为回顾性观察,样本量有限,且以多种超声设备采集图像,有待后续加以完善。