潘加珍,查海玲,杜丽雯,聂晨蕾,丁志颖,巩海燕,王 慧,栗翠英
南京医科大学第一附属医院超声诊断科,江苏 南京 210029
乳腺癌是最常见的女性恶性肿瘤[1],早发现、早诊断、早治疗对于乳腺癌患者的预后起着至关重要的作用[2]。超声检查以其快捷、无放射性等优点成为乳腺癌诊断的重要手段[3]。近年来,计算机辅助诊断(computer⁃aided diagnosis,CAD)技术越来越多地应用于超声检查[4]。S⁃Detect是韩国Samsung Me⁃dison公司开发的一款高度成熟的CAD软件[5],采用卷积神经网络深度学习算法,对超声图像的形态学描述进行自动分割和解释,并给出“可能良性”或“可能恶性”的诊断结果,可为临床超声检诊医生的最终诊断提供参考。目前临床上对于常规超声检查与S⁃Detect 技术联合应用的研究并不多,本研究通过将低、中、高3 名不同年资超声医师常规超声乳腺影像报告和数据系统(breast imaging report and data system,BI⁃RADS),分类以4 种不同方案与S⁃Detect 联合的结果与病理结果进行比较,旨在研究不同年资超声医师以不同方案联合S⁃Detect 诊断乳腺结节良恶性的效能。
选取2019年5月—2020年4月于南京医科大学第一附属医院乳腺外科就诊的169 例女性患者,均于术前接受了常规乳腺超声检查和S⁃Detect检查并于术后获得手术病理结果。年龄17~82 岁,平均(46.64±13.88)岁。病灶175个,最大径5~54 mm,平均(18.74±9.32)mm。本研究经院伦理委员会批准,并知情同意。
排除标准:①非肿块性病变;②妊娠期或哺乳期患者;③非乳腺原发病灶的患者;④此次超声检查前接受过穿刺活检或放化疗的患者;⑤常规超声检查BI⁃RADS分类为0类、1类、2类或6类的病变。
仪器为配备S⁃Detect 软件的韩国Samsung RS80A 彩色多普勒超声诊断仪,L3⁃12A 线阵探头,探头频率为5~13 MHz。嘱患者取仰卧位,充分暴露双侧乳房及腋窝。1名从业15年的超声医师先常规多切面以乳头为中心放射状扫查各象限腺体及腋下淋巴结,保存灰阶及彩色血流图像,随后进入S⁃Detect 模式,在乳腺肿块最大长轴切面及其垂直切面分别对病灶自动绘制感兴趣区(region of interest,ROI),必要时手动纠正,自动输出“可能良性”或“可能恶性”的二分类诊断结果(图1)。
图1 S⁃Detect对乳腺结节进行自动诊断Figure 1 S⁃detect automatic diagnosis of breast nodule
选取清晰典型切面的二维及血流图像连同该患者的年龄、血流流速、腋窝淋巴结等信息,由3名从业分别2、5、10年的超声医师进行读片,并要求根据2013 版BI⁃RADS 分类标准对乳腺肿块的良恶性进行分类评估。
1.2.1 BI⁃RADS分类
将BI⁃RADS 分类转换为二分法,以便与病理及S⁃Detect结果进行比较。分别以BI⁃RADS 3类(3类为良性,4A类及以上为恶性)、4A类(3、4A类为良性,4B类及以上为恶性)和4B类(4C、5类为恶性,4B类及以下为良性)为乳腺肿块良恶性的分界,寻找最佳截点。
1.2.2 S⁃Detect诊断
在乳腺肿块最大长轴切面及其垂直切面分别得到一个S⁃Detect诊断结果,与病理结果进行比较,得出较优切面。
1.2.3 联合诊断
联合方案一:S⁃Detect 最大长轴切面和其垂直切面扫查结果均为“可能恶性”时,原BI⁃RADS分类上调一级,如:BI⁃RADS 4A 类升为BI⁃RADS 4B 类;结果均为“可能良性”时,BI⁃RADS分类下调一级;两个切面结果不同时,诊断不变。联合方案二:任一切面扫查结果为“可能恶性”时,原BI⁃RADS分类上调一级;结果均为“可能良性”时,下调一级。联合方案三:任一切面扫查结果为“可能良性”时,原BI⁃RADS分类下调一级;结果均为“可能恶性”时,上调一级。联合方案四:1.2.2中得出的较优切面结果为“可能恶性”时,原BI⁃RADS 分类上调一级;结果为“可能良性”时,下调一级。
采用SPSS 25.0 和MedCalc 19.0 统计软件进行分析,以病理结果为金标准,计算Kappa值评估各诊断组与病理的一致性,Kappa 值的一致性参考评价原则如下:Kappa≤0.20,诊断一致性较差;0.20<Kap⁃pa≤0.40,诊断一致性一般;0.40<Kappa≤0.60,诊断一致性中等;0.60<Kappa≤0.80,诊断一致性较好;0.80<Kappa≤1.00,诊断一致性强。采用2×2列联表和卡方检验计算比较不同年资超声医师联合S⁃De⁃tect前后对乳腺肿块良恶性诊断的敏感度(sensitivi⁃ty,SE)、特异度(specificity,SP)、准确性、阳性似然比(positive likelihood ratio,PLR)、阴性似然比(nega⁃tive likelihood ratio,NLR)、阳性预测值(positive pre⁃dictive value,PPV)、阴性预测值(negative predictive value,NPV);用MedCalc 软件绘制各诊断组的受试者操作特征(receiver operating characteristic,ROC)曲线,计算曲线下面积(area under the curve,AUC)并用Z检验比较不同诊断组的AUC。P<0.05 为差异有统计学意义。
169 例患者共175 个乳腺结节,其中良性结节87 个,恶性结节88 个(表1)。患者的平均年龄46.64 岁,肿块最大径平均值18.74 mm。肿块良性的患者平均年龄40.15 岁,肿块最大径平均值16.72 mm;肿块恶性的患者平均年龄53.06 岁,肿块最大径平均值20.74 mm。
表1 175个乳腺结节术后病理结果Table 1 Postoperative pathological results of 175 breast nodules
以病理结果为金标准,BI⁃RADS 3类、4A类、4B类作为截点的Kappa 值分别为0.404、0.726、0.612,三者的诊断效能见表2,ROC 曲线如图2。其中以BI⁃RADS 4A类作为诊断截点与病理的一致性最佳,AUC 也高于3 类和4B 类(0.863vs.0.701、0.806),且差异有统计学意义(Z=5.174,P<0.001;Z=1.985,P=0.047)。综上,选取BI⁃RADS 4A类作为乳腺肿块良恶性的截点。
表2 BI⁃RADS 3类、4A类、4B类作为截点的诊断效能比较Table 2 Comparison of diagnostic performances when BI⁃RADS 3,4A and 4B as the cut⁃off points
S⁃Detect 最大长轴切面及其垂直切面与病理结果比较的Kappa值分别为0.646和0.520,一致性均较好。两个切面诊断的SE、SP、PLR、NLR、PPV、NPV、准确性和AUC见表3,ROC曲线如图3。S⁃Detect最大长轴切面的AUC值大于其垂直切面(0.823vs.0.760),差异有统计学意义(Z=3.006,P=0.003)。所以,S⁃Detect最大长轴切面是S⁃Detect诊断的优势切面。
S⁃Detect 优势切面和低、中、高年资医师诊断的AUC分别为0.823、0.697、0.703、0.863(表4)。其中,S⁃Detect 与低、中年资医师AUC 有统计学差异(Z=3.465,P<0.001;Z=3.208,P=0.001)。S⁃Detect 和低、中、高年资医师诊断的特异性分别为85.06%、64.37%、75.86%、82.76%,差异均有统计学意义(χ2=7.522、11.675、14.352,P均<0.01)。
2.4.1 不同年资医师的BI⁃RADS分类与S⁃Detect诊断效能
低、中、高年资医师的BI⁃RADS 分类与S⁃Detect的诊断效能见表4,ROC曲线如图4。低年资医师诊断的AUC 显著低于高年资医师和S⁃Detect 技术,中年资医师诊断的AUC 值也显著低于高年资医师和S⁃Detect 技术。低年资医师和中年资医师、高年资医师和S⁃Detect技术的诊断效能无显著差异。
图2 BI⁃RADS 3类、4A类、4B类作为截点的ROC曲线图Figure 2 ROC curves of BI⁃RADS 3,4A and 4B as cut⁃off points
2.4.2 低、中、高年资医师不同联合方案诊断效能
低年资医师经4 种方案联合诊断后,SE、SP、准确性、AUC 值、Kappa 值均明显提高(表4),且AUC组间(0.697vs.0.777、0.771、0.811、0.817)差异有统计学意义(Z=2.686,P=0.007;Z=2.358,P=0.018;Z=3.451,P<0.001;Z=3.685,P<0.001)。其中,联合方案一与联合方案三、四AUC 差异有统计学意义(Z=2.197,P=0.028;Z=2.743,P=0.006),联合方案二与联合方案三、四AUC 差异有统计学意义(Z=2.210,P=0.027;Z=2.650,P=0.008)。
中年资医师经4 种方案联合诊断后,AUC 值均有所提高(0.703vs.0.806、0.788、0.829、0.829),差异有统计学意义(Z=3.680,P<0.001;Z=2.783,P=0.005;Z=4.051,P<0.001,Z=4.051,P<0.001),其中,联合方案三和方案四诊断结果相同,联合方案二与联合方案三AUC 值差异有统计学意义(0.788vs.0.829,Z=2.210,P=0.027)。
表3 两个切面诊断的SE、SP、PLR、NLR、PPV、NPV、准确性和AUCTable 3 SE,SP,PLR,NLR,PPV,NPV,accuracy and AUC of the diagnostic results of two sections
图3 两个切面的ROC曲线Figure 3 ROC curves of two sections
高年资医师经4 种方案联合诊断后,AUC 值均有所下降(0.863vs.0.817、0.805、0.834、0.846),其中联合方案二下降最明显(0.863vs.0.805),且有统计学意义(Z=2.163,P=0.031)。
超声检查是诊断乳腺肿块良恶性最常用的方法之一,BI⁃RADS 分类是由美国放射学会制定的通用乳腺影像诊断规范,超声BI⁃RADS分类是根据BI⁃RADS分类的原则,采用规范化的术语,从乳腺肿块的形态、边缘、边界、内部回声、生长方向、后方回声、钙化等灰阶特点及彩色血流来评估良恶性,具有良好的诊断效能[6]。随着超声BI⁃RADS 分类越来越广泛的应用,人们发现该诊断方法受操作者的主观影响较大,低年资医师往往因缺乏经验较常出现误诊和漏诊[7-8]。近年来,超声造影、弹性成像、CAD等技术被越来越多地用于辅助超声检查[9-12],S⁃De⁃tect 就是一款高度成熟的CAD 软件,它可以快速给出“可能良性”或“可能恶性”的评估结果。
考虑到BI⁃RADS 4A类有3%~10%的恶性率,临床上常建议穿刺活检,一些研究选取BI⁃RADS 3 类作为截点[13-15]。事实上,很多BI⁃RADS 4A类肿块最终被病理证实为良性,所以本研究经过比较综合考虑选取了BI⁃RADS 4A 类作为截点(3 类、4A 类为良性,4B类及以上为恶性)。
本研究以病理结果为金标准,比较了S⁃Detect在最大长轴切面及其垂直切面诊断的AUC值,结果显示最大长轴切面AUC较高(0.823),且差异有统计学意义,其总体诊断效能更好,这与刘琰等[16]研究的结果基本一致。这可能归因于最大长轴切面往往面积更大,S⁃Detect 能识别更多的超声特征,如形态、边缘、生长方向、内部回声等,因而更具优势。S⁃Detect 最大长轴切面诊断效能较好,诊断水平明显优于低、中年资医师,接近高年资医师。S⁃Detect 诊断的特异性较高(85.06%),显著高于低、中、高年资医师。这与此前韩国及意大利的研究人员开展的关于S⁃Detect的研究结果基本一致[15,17]。
表4 不同年资医师与S⁃Detect不同联合方案的诊断效能比较Table 4 Comparison of diagnostic performances between different combining methods of S⁃Detect and different ultrasound doctors
图4 不同年资医师与S⁃Detect不同联合方案诊断效能的ROC曲线Figure 4 ROC curves of diagnostic performances between different combining methods of S⁃Detect and different ultra⁃sound doctors
本研究联合诊断结果显示,低、中年资医师联合S⁃Detect技术后,诊断水平明显提高,高年资医师则无提升,这表明S⁃Detect 的辅助诊断优势具有局限性,随着年资上升,S⁃Detect 的辅助作用逐渐减弱。国内外多项研究亦表明BI⁃RADS 分类联合S⁃Detect后能提高不同年资医师的诊断效能,尤其是低年资医师和基层医院医师,对高年资医师(7~10年)则无显著提升作用[18-19],研究结果较一致。
本研究中,低年资医师经4种方案联合诊断后,诊断水平均明显提高,其中联合方案三、四显著优于联合方案一、二;中年资医师经联合诊断后,诊断效能亦均显著提升,其中联合方案三、四明显优于联合方案二;高年资医师经联合诊断后,诊断效能均下降,其中联合方案二后呈显著下降。
在4 种方案中,联合后诊断效能相对较好的是方案三(即任一切面扫查结果为“可能良性”时,原BI⁃RADS分类下调一级,结果均为“可能恶性”时,上调一级)和方案四(即最大长轴切面结果为“可能恶性”或“可能良性”时,原BI⁃RADS 分类上调或下调一级);这可能是由于S⁃Detect 诊断特异性较高,识别良性病灶更具优势,这两种方案均较大限度地发挥了该项优势。事实上,临床实践中乳腺超声门诊检查的乳腺结节良恶性比例远大于本研究中的87∶88,S⁃Detect 技术的发挥空间更大。此外,本研究中方案三和方案四并未体现出显著差异,这可能与本研究中恶性比例较高有关,或许增加样本量能进一步比较方案三、四的优劣。
本研究存在一些局限性。包括:①为单中心研究,样本数较少,结果可能存在一定选择偏倚误差;②钙化、硬度等因素是判断乳腺肿块性质的重要线索,而S⁃Detect缺乏相关参数;③排除了非肿块性病变和囊肿等典型良性病变,恶性病灶占比较高,与临床实际情况存在差异,这也同样可能造成偏倚。
S⁃Detect 技术具有良好的诊断特异性。低、中年资医师对乳腺结节进行BI⁃RADS 分类时联合S⁃Detect技术可以提高诊断准确性,其中,BI⁃RADS分类联合方案三(S⁃Detect 最大长轴切面或其垂直切面为可能良性时下调一级)和方案四(S⁃Detect 最大长轴切面为可能恶性或可能良性时分别上调或下调一级)评估乳腺结节良恶性效能较佳。