基于卷积神经网络成人肋骨骨折CT自动检测和分类的应用研究

2020-04-01 11:17周清清王佳硕唐雯张荣国
影像诊断与介入放射学 2020年1期
关键词:陈旧性放射科肋骨

周清清 王佳硕 唐雯 张荣国

肋骨骨折是胸部钝性创伤中最常见的损伤,约40%~80%的人曾发生肋骨骨折[1,2]。随着胸部多层螺旋CT扫描尤其是薄层CT的使用增加,肋骨骨折的检出率显著提高[3,4]。然而,从数百张薄层CT图像中检出肋骨骨折费时费力,漏诊也并不少见[1,5]。 Cho 等[1]报告肋骨骨折初诊的漏诊率达20.7%,明显高于胸椎或胸骨骨折(敏感度接近100%[6,7]),这将导致患者预后不佳或引发不良医疗纠纷[8]。因此,有必要提高肋骨骨折的诊断准确率,降低漏诊率。

目前,基于深度学习的卷积神经网络(convolutional neural network,CNN)技术因其有助于准确诊断、减少漏诊和提高诊断效率而被广泛应用于医学领域[9-11],例如肺结节、肺癌或结核病的自动检出及分类[12-14]。然而,利用CNN技术于胸部CT上自动检测及分类肋骨骨折并输出结构化报告的研究尚未见报导。本研究中建立了一种CNN模型并追求以下三个目标:(1)使用多中心验证集验证CNN模型的鲁棒性;(2)将多个骨折预测结果合并成一个骨折并输出结构化报告;(3)CNN模型的合并结果和放射科主治医生的诊断效能比较。

资料与方法

1.数据收集和分类标准

回顾性搜集三家医院共1024例肋骨骨折患者纳入本研究(经当地伦理委员会批准免除患者知情同意权),其中974例单中心数据来自A医院2011年1月~2019年1月就诊的患者;另50例独立多中心数据来自2019年1月就诊于B医院和C医院的患者(各25例),对其进行模型的鲁棒性验证(表 1)。

本研究中,肋骨骨折分为三种类型:新鲜骨折、愈合期骨折和陈旧性骨折。新鲜骨折定义为外伤后约3周内,CT图像表现为骨折线锐利,无骨膜反应或骨痂形成[15,16]。愈合期骨折CT表现为骨折线边缘模糊,伴有骨痂形成[17]。骨愈合通常需要约12周[18],因此陈旧性骨折定义为外伤3个月后,CT图像上显示成熟的骨痂、骨重塑、骨折线不可见的特征[17],且随访扫描无变化。

纳入标准:(1)外伤病史;(2)肋骨骨折的影像学特征;(3)随访CT扫描骨痂形成或骨折愈合。符合以上三条标签的患者被纳入本研究。排除标准:(1)具有影响诊断的放射状或运动伪影;(2)骨质破坏或骨肿瘤;(3)先天性肋骨发育不良或畸形。

2.图像预处理描述

于四台不同CT扫描仪(GE Optima 680;Philips Brilliance 16;Philips Ingenuity 128;Siemens Definition Flash)上行CT容积扫描,扫描范围从胸廓入口至第12肋结束。扫描参数:管电压120 kVP,管电流100~700 mA,取决于患者的体重,重组层厚为1 mm或2 mm,骨算法。肋骨骨折图像 (窗位500 HU;窗宽1500 HU)从图像存档和通信系统(picture archiving and communicationsystem,PACS)下载并存储为医学数字成像和通信 (DICOM)数据。然后,使用MicroDicom软件 (版本2.9.2)将DICOM图像转换为无损24位灰度JPEG格式图像(1024×1024像素)。所有数据由两名有经验的放射医师(8年和9年CT诊断经验)使用LabelImg软件(版本 1.8.1)标注,标注框约 1 cm,并由两名高级放射科医生(CT诊断经验20年和14年)审核。意见不一致时,一名胸外科医师参与讨论,并协商一致为最终诊断金标准。Putil Python库(版本 2.7.15)重命名所有数据,并转换为Voc2007格式。Mxnet(版本 1.1.0)生成包含原始图像、标记数据以及长度和宽度信息的记录文件。随后进行归一化、图像在线增强等步骤。

3.CNN模型构建

将单中心数据随机(Python 2.7.15)分成单中心训练集(90%,n=876)和测试集(10%,n=98)。构建基于快速区域的卷积神经网络 (faster regionbased convolutional neural network,Faster R-CNN)模型。测试集用于评估模型的性能,包括分类和定位的准确性。在本研究中,地面真相包括肋骨骨折类型和矩形框的位置,采用交并比 (intersection overunion)预测矩形框中的骨折类型。

表1 单中心和多中心数据的患者一般信息和标签数

为了评估模型的泛化能力、稳健性,在模型中加入来自两家不同医院的两个独立测试集(各25例,共50例)。所有的训练和测试集只包含带有标签的图像,不包括正常无骨折的图像。

4.CNN模型与放射科医师诊断效能的比较

临床实践中,放射科医师采用全图像阅片(包含骨折和非骨折图像),为了让CNN模型更符合临床实践,设计了结果合并程序,它能够将1~2 mm薄层CT图像的多个预测框合并成一个骨折病灶并输出结构化报告(包含肋骨骨折的相应CT层数和肋骨类型,图1)。使用骰子函数(Dice=2area|X∩Y|/area|X+Y|)来判断不同层面或同一层面不同部分的检测结果是否属于同一骨折。

选择5名有6~8年CT诊断经验的放射科主治医师(未参与肋骨骨折的标记)参与CNN模型的效能比较。测试数据为单中心测试集中具有1 mm层厚的33例患者的全部CT图像。5名放射医师被告知与CNN模型肋骨分类相同的分类标准,在不知患者诊断结果的情况下阅片(骨窗),记录肋骨骨折类型和骨折CT层数,助手记录诊断时间。

5.统计分析

图1 CNN模型输出的结构化报告。a)带有矩形框的检测结果图;b)检测到的可疑骨折和相应的层数,括号内为置信分数,按照层数顺序排列

符合正态分布(Kolmogorov-Smirnov检验)的数值记录为均值±标准差(SD),否则记录为中位值(范围)。训练集和测试集的性别对比采用卡方检验,年龄对比采用Kruskal-Wallis H检验。CNN模型结果合并后和5名医师的诊断效能比较采用单样本t检验,并绘制以敏感度为纵坐标,假阳性/真阳性为横坐标的自由受试者工作特征曲线(free-responsereceiveroperatingcharacteristic,fROC)。CNN模型和医师的检测/诊断时间对比采用配对Mann-Whitney U检验。模型效能的95%置信区间采用1000次抽样评估。双尾P<0.05为有统计学意义。统计分析和绘图采用R 3.5.3。

结 果

1.患者特征

本研究共纳入1024例患者,其中包括876例单中心训练集,98例单中心测试集和50例多中心测试集在性别、年龄方面均无统计学差异(P>0.05),见表 1。

2.CNN模型的多中心验证

如表2所示,单中心测试集和独立多中心测试集的平均精准度、召回率和F1值均≥0.8(除外多中心测试集的陈旧性骨折精准度略低)。所有测试集的新鲜骨折和愈合期骨折的诊断效能均高于陈旧性骨折(平均精准度:0.829, 0.867>0.814;平均召回率:0.875,0.870>0.827;平均 F1 值:0.851,0.868>0.821)。

3.CNN模型与放射科医师诊断效能的比较

CNN模型结果合并后的诊断精准度与5名医师相比差异无统计学意义(平均精准度在新鲜骨折、愈合骨折和陈旧性骨折分别为0.642<0.870、0.803<0.848、0.826>0.692;P 值分 别为 0.0015、0.5779和0.1608),CNN模型的敏感度在三种分类均高于5名医师的平均敏感度(平均敏感度分别为0.956>0.725、0.875>0.614 和 0.704>0.533;P 值均小于0.05)。如图2,代表5名放射医师的点散布于曲线周围。图3为CNN模型和医师对不同类型骨折的检测/诊断结果示例图。

表2 单中心和独立多中心测试集在不同分类的诊断效能

此外,CNN模型与5名医师的检测/诊断时间具有显著性差异[分别为(23.08±8.15)s,(155.15±50.34)s,P<0.01],CNN 模型的检测时间平均减少了132.07 s。

讨 论

准确诊断不同类型肋骨骨折不仅可减少漏诊率和医疗纠纷、提高患者临床预后,同时对于骨折产生及愈合期的准确判断有助于临床根据骨折愈合程度进一步指导治疗,尤其对于骨折是否骨性愈合将提示患者能否进行日常负重工作。

对于不同类别骨折的检测中,愈合期骨折和新鲜骨折比陈旧性骨折检测效能更好(表2)。原因可能是愈合性骨折和新鲜骨折的训练数据量高于陈旧性骨折,新鲜骨折或愈合骨折的患者通常多次到医院进行CT检查及复查,然而陈旧性骨折的患者很少复查。此外,陈旧性骨折是一种愈合了的骨折,与周围正常肋骨相似,具有成熟的骨痂,没有明显的骨折线[17],因此很难将其与正常肋骨区分开(图3f)。而出现在愈合期骨折的白色骨痂或锐利的骨折线在CT图像中是相对显著的特征(图 3a,3b),CNN模型更容易识别准确。

本研究构建了一种基于Faster R-CNN自动肋骨骨折检测和分类的模型。该模型具有良好的诊断效能,能在较短的时间内达到放射科主治医师的诊断水平,且通过多中心测试证实该模型的鲁棒性较好。对模型增加了两个独立多中心测试集,以测试模型的鲁棒性,包括不同的扫描机器和不同的病人来源。

图2 CNN模型与放射医师诊断效能的fROC曲线。a)~c)分别为新鲜骨折、愈合期骨折和陈旧性骨折的fROC,代表5名放射医师的点散布于曲线周围 图3 不同类型骨折的检测/诊断结果示例图。 a)~c)分别为新鲜骨折、愈合期骨折和陈旧骨折患者,CNN模型和放射医师均检测/诊断准确;d)多发骨折患者,该例两处新鲜骨折均被CNN准确检出,而后肋的微小骨折被部分医师漏诊;e)愈合期骨折患者,该患者的两个愈合期骨折均被部分医师误诊为陈旧性骨折,其中一个被CNN模型准确检出;f)正常者,CNN模型识别为陈旧性骨折(假阳性)

在和放射科医师比较诊断效能时,为了让CNN模型更符合临床全图片阅片模式,设计了结果合并程序,可避免将一处骨折识别为多个单层面的骨折。结果合并后,CNN模型的诊断精准度和放射科医师差异无统计学意义,诊断敏感度明显高于放射医师,并且检测时间明显低于医师的诊断时间,平均减少两分钟以上。对放射科医生测试结果分析显示,通常会对多发性骨折或微小骨折发生漏诊(图3d)。一些相对混淆的骨折,如新鲜骨折与愈合期骨折或愈合期骨折与陈旧性骨折,也偶被误诊(图3e)。而Faster R-CNN通过区域提议网络(region proposal networks,RPN)和 M×N的滑动窗口提取每个输入图像的特征[19],因此能准确地检测放射科医师漏诊的微小骨折(图3d)。

本研究的局限:(1)目前的模型不能准确显示肋骨的解剖学定位。(2)该模型的精准度和召回率不是特别高,尤其对于陈旧性骨折,将增加不同形状的骨折作为训练集,以识别各种骨折。(3)验证集的数据量相对较小。

猜你喜欢
陈旧性放射科肋骨
我国放射科住院医师规范化培训现状的调查与思考
掌长肌腱移植修复陈旧性拇长伸肌腱断裂30例
2种不同手术方法治疗陈旧性踝关节骨折合并下胫腓联合损伤的对比
放射科专业基地入科教育的实践探讨
新型冠状病毒感染疫情期间放射科应急防控管理方案的探讨
陈旧性肘关节恐怖三联征伴关节僵硬的手术治疗
一根肋骨
迷人肋骨
肋骨带外固定加外敷万伤接骨膏治疗单纯性肋骨骨折的临床分析
放射科安全管理