孟祥虹,吴迪嘉,马信龙,刘爱娥
(1.天津市天津医院放射科,天津 300211;2.上海联影智能医疗科技有限公司,上海 201210;3.天津市天津医院骨科,天津 300211)
肋骨骨折是最常见的胸部损伤之一,在钝性胸部损伤患者中,40%~50%的人群患有肋骨骨折[1-2]。CT是诊断肋骨骨折的最佳检查方法[3],但肋骨数量多、走行弯曲、变异大、行CT 检查时还可能因呼吸伪影较重而导致图像模糊,难以明确诊断[4],一旦漏诊或误诊骨折则可能导致医患纠纷,甚至延误患者治疗。人工智能是指利用计算机自动处理、分析、模拟人类智能行为的科学技术,其中的深度卷积神经网络(deep convolutional neural network,DCNN)算法常用于图像识别和分类[5],在医学影像领域应用广泛。目前国内外学者对人工智能辅助肋骨骨折CT 诊断的研究较少[6-7]。本研究拟应用DCNN 模型在胸部CT 图像上对肋骨骨折进行定位和诊断,辅助医师提高诊断准确性,缩短阅片时间,提高工作效率。
1.1 研究对象 本研究为回顾性研究,经院伦理委员会批准,项目批准号为“2020 医伦审048”。于2015 年1 月—2019 年8 月,搜集全国5 家医院,包括中国医科大学附属盛京医院、中国医科大学附属第一医院、北京中日友好医院、哈尔滨医科大学附属第一医院、河北医科大学第三医院的胸部CT 图像作为训练集和验证集,纳入2019 年11 月—2020年3 月天津医院的胸部CT 图像作为测试集。纳入标准:(1)因胸部外伤于门、急诊就诊的初诊患者。(2)CT 图像包括两侧所有肋骨,检查完成后可收集患者的DICOM 格式图像。(3)所有训练集、验证集和测试集CT 图像层厚均为0.625 mm。(4)18 岁以上成年人。排除标准:(1)肋骨骨折复查患者。(2)患者因屏气不佳等造成图像伪影过重、质量较差不能达到诊断要求者。(3)存在病理性肋骨骨折者。
本研究共纳入胸部CT 图像2 619 例,排除肋骨骨折保守或手术治疗后复查患者428 例,呼吸伪影较重、图像质量不佳患者134 例,病理性肋骨骨折患者57 例,最终纳入2 000 例胸部CT 图像。将数据集以4 ∶1分为训练集和验证集,其中,训练集共1 600 例(年龄18~91 岁,男837 例,女763 例),用以建立DCNN 训练模型;验证集共400 例(年龄18~89 岁,男204 例,女196 例),用以调整超参数,确定适用于该模型的最佳参数;纳入天津医院胸部CT图像300 例(年龄18~94 岁,男181 例,女119 例)作为测试集,用以评价该模型诊断的准确性。
1.2 扫描参数 全部训练集、验证集和测试集的胸部CT 检查扫描参数为:管电压120 kv,管电流200~300 mA,根据患者体重自动调节,CT 扫描设备包括GE(Revolution CT 和CT750,GEHealthcare,WI,USA)和西门子公司(Sensation 和Definition AS,Siemens Medical Solutions,Erlangen,Germany)的4 种机器。扫描范围从第1 肋骨上方2 cm至第2 腰椎水平,定位像包括左右两侧所有肋骨,应用高分辨薄层骨算法进行扫描,得到横断位胸部CT 图像,层厚为0.625 mm。扫描完成后,拷贝DICOM 格式图像。
1.3 参考标准(Ground Truth)的制定 每个患者的胸部CT 图像由2 名经验丰富的影像诊断医师(从事骨肌系统影像诊断工作10 年以上)在胸部CT 薄层骨窗图像上逐层标注,用于模型训练和验证的金标准数据集,由另外2 名高年资主任医师(从事骨肌系统影像诊断工作20 年以上)进行最终标注结果的确认。标注工具使用ITK-SNAP 软件(https://itk.org)中的矩形bounding box 工具勾画骨折部位,大小为0.7~1.2 cm2。在自己编写的软件上,三维立体标注12 块胸椎椎体的中心点[x1,y1,z1;x2,y2,z2···x12,y12,z12],矩形框框出n 个骨折位置返回中心点坐标和长宽高[x1,y1,z1,width1,height1,depth1;···xn,yn,zn,widthn,heightn,depthn]。
1.4 DCNN 模型构成
1.4.1 检测肋骨骨折的工作流程 在将CT 图像数据导入模型之前,对数据进行预处理,即对像素值归一化,并通过水平翻转、逆时针和顺时针旋转15°、裁剪等方式对数据量进行扩展。本研究的DCNN 模型由3 个三维网络构成,分别为分割网络、关键点检测网络、骨折检测网络,课题组应用残差网络模块(R-模块)和瓶颈层残差网络模块(B-模块)对传统V-Net 网络模型进行改造,提高肋骨骨折的定位和检测准确性,工作流程见图1。
图1 检测肋骨骨折的工作流程Fig 1 Workflow of rib fracture detection
工作流程主要包括3 个步骤:第一步:使用改良的V-Net 分割网络模型[8]从胸部CT 图像中分割出24 根肋骨,通过Dice 指数判断分割效果。
第二步:使用VRB-Net 关键点检测网络[9]检测12 块胸椎椎体中心点,分别获得12 个关键点的三维空间位置,即[T01,T02,T03,T04,T05,T06,T07,T08,T09,T10,T11,T12]。通过膨胀算法扩大关键点为关键区域,判断模型输出结果是否在关键区域。结合第一步的掩膜标记24 根肋骨,左、右侧肋骨从上到下依次标记为1~12 肋。
第三步:框出肋骨的骨折位置,并结合第二步结果提示骨折部位。通过模型输出框与金标准的重叠区域,即Dice 指数是否大于0.8 判断骨折位置是否检出,若重叠区域超过80%则输出为骨折。
1.4.2 肋骨骨折DCNN 模型 肋骨骨折检测的DCNN 模型如图2。Threshold Relu 模块计算公式:
图2 肋骨骨折检测的DCNN 结构Fig 2 DCNN structures of rib fracture detection
1.4.3 模型测试 为测试模型对肋骨骨折诊断的准确性和泛化性,本研究应用训练和验证集以外的胸部CT 图像进行测试。测试集诊断肋骨骨折的金标准为一名副主任医师和一名主任医师(分别从事骨肌系统影像诊断工作10 年和31 年)对用于测试的300 例胸部CT 图像进行诊断,经协商一致后达成最终诊断意见。两名低年资诊断医师(从事骨肌系统影像诊断工作不足5 年,对金标准诊断结果不知情)和DCNN 模型同时对测试集图像进行诊断,由其中1 名低年资诊断医师在DCNN 模型的辅助下进行再次诊断,分别记录诊断用时。
1.5 统计学处理 应用SPSS 25.0 软件(第25.0 版;SPSS Inc.;Chicago,IL,USA)进行统计学分析。符合正态分布的计量资料以±s 表示,取两位低年资医师诊断用时的平均值,应用单因素方差分析和LSD 检验比较低年资医师、DCNN 模型和在DCNN 模型辅助下的低年资医师诊断用时有无差别。计数资料以例(%)表示。取两名低年资医师的平均值,应用卡方分割检验比较低年资医师、DCNN 模型和在DCNN模型辅助下的低年资医师诊断的精确率和召回率有无差别。因为无肋骨骨折部位的数量众多而不能统计,所以难以得到DCNN 模型诊断的真阴性率。因此,本研究分别统计两名低年资医师、在DCNN 模型辅助下的低年资医师和DCNN 模型诊断肋骨骨折的精确率、召回率、F1-score。其中,精确率=真阳性/(真阳性+假阳性),召回率=真阳性/(真阳性+假阴性),F1-score=2×精确率×召回率/(精确率+召回率)。应用Matlab R2017b 软件进行数据处理并绘制精确率—召回率曲线(precision recall curve,PRC)。统计测试集中假阳性和假阴性病例的数量。P<0.05 为差异有统计学意义。
2.1 肋骨骨折诊断的精确率、召回率、F1-score 和假阳性、假阴性病例数量 在300 例测试集胸部CT图像中,共发现797 处肋骨骨折,DCNN 模型有22 例假阳性病例和62 例假阴性病例。两位低年资医师及二者的平均值、DCNN 模型和在DCNN 模型辅助下的低年资医师诊断肋骨骨折的精确率、召回率和F1-score 见表1。医师诊断肋骨骨折的精确率低于DCNN 模型(P=0.007),在DCNN 模型辅助下,低年资医师诊断的精确率有所增加,但无统计学差别(P=0.049),DCNN 模型和在DCNN 模型辅助下低年资医师诊断的精确率无明显差别(P=0.474)。低年资医师诊断肋骨骨折的召回率低于DCNN 模型(P<0.001),在DCNN 模型辅助下医师诊断的召回率明显升高(P<0.001),DCNN 模型和在DCNN 模型辅助下医师诊断的召回率无明显差别(P=0.199),PRC曲线见图3。低年资医师诊断肋骨骨折的F1-score较DCNN 模型低,而在DCNN 模型的辅助下,医师诊断骨折的F1-score 与DCNN 模型相同(图4)。
图3 低年资医师、DCNN 模型和在DCNN 模型辅助下低年资医师诊断肋骨骨折的精确率-召回率曲线Fig 3 Accuracy-recall curve of the diagnosis of rib fractures by junior doctors,DCNN model,and junior doctors assisted by DCNN model
图4 DCNN 模型在横断位胸部CT 薄层骨窗图像上自动诊断肋骨骨折Fig 4 DCNN model for automatic diagnosis of rib fractures on transverse chest thin-layer CT of bone window images
表1 两位低年资医师、DCNN 模型和在DCNN 模型辅助下的低年资医师诊断肋骨骨折的精确率、召回率、F1-score 和比较结果Tab 1 The comparison of the accuracy rate,the recall rate and the F1-score of rib fractures among two junior doctors,the DCNN model and the junior doctor assisted by the DCNN model
2.2 低年资医师和DCNN 模型肋骨骨折的诊断用时 在诊断用时方面,第1 位低年资医师诊断肋骨骨折的时间为(159.6±35.2)s(93~226 s),第2 位低年资医师诊断时间为(150.3±30.1)s(105~203 s),平均时间为(155.0±31.9)s(105.5~214.5 s),DCNN 模型诊断肋骨骨折的时间为(4.8±1.4)s(3~7 s),在DCNN辅助下低年资医师诊断时间为(40.6±7.0)s(25~56 s)。低年资诊断医师、DCNN 模型和在DCNN 模型辅助下的低年资医师三者间诊断用时有明显差别(F=328.1,P<0.001),DCNN 模型较低年资医师诊断时间明显缩短,模型几乎可以在打开胸部CT 图像的同时对有无肋骨骨折予以诊断,而低年资医师在DCNN 模型辅助诊断下可明显缩短诊断时间,提高诊断效率。
2.3 假阴性及假阳性分析 本研究所构建的DCNN 模型诊断肋骨骨折尚存在一部分假阳性和假阴性病例,在对300 例测试集进行骨折诊断时,DCNN模型有22 例假阳性病例(即误诊病例)和62 例假阴性病例(即漏诊病例)。课题组对误诊病例图像分析发现,DCNN 模型存在将血管沟(n=9)、骨岛(n=6)、骨纤维异常增殖症(n=3)和其他肋骨变异或骨质密度不均(n=4)误认为骨折的情况(图5)。而在对漏诊病例图像分析发现,DCNN 模型对无明显移位的肋骨骨折(n=28)、骨皮质轻度角折而致的肋骨不全骨折(n=19)和愈合中及陈旧骨折(n=15)存在漏诊(图6)。
图5 DCNN 模型诊断肋骨骨折假阳性病例Fig 5 False positive cases of rib fractures diagnosed by DCNN model
图6 DCNN 模型诊断肋骨骨折假阴性病例Fig 6 False negative cases of rib fractures diagnosed by DCNN model
本研究采用多中心胸部CT 数据对DCNN 模型诊断肋骨骨折进行训练、验证和测试,提高了模型诊断的泛化性和鲁棒性,减少了过拟合的可能。结果表明,DCNN 模型诊断肋骨骨折的精确率、召回率和F1-score 均高于低年资医师,而低年资医师在DCNN 模型辅助下可显著提高诊断的召回率,并在一定程度上提高精确率,即明显减少漏诊率,一定程度上减低误诊率。而在诊断用时方面,DCNN 模型诊断肋骨骨折仅需4 s 左右,在打开CT 图像的同时即可诊断,而低年资医师的诊断用时在3 min 左右,如遇多发骨折的病例则用时更长,DCNN 模型可帮助医师明显缩短诊断时间,40 s 左右即可完成诊断。
在CT 图像上应用DCNN 诊断肋骨骨折方面,Zhou 等[6]应用Faster R-CNN 和YOLOv3 两种算法分别对来自3 家医院共1 079 个病例进行模型训练和验证,并应用来自5 家医院、不同层厚和像素的173 例患者胸部CT 和30 名正常人图像作为测试集对肋骨骨折进行诊断,并按照新鲜骨折、愈合中的骨折和陈旧骨折对骨折进行分类。结果表明,Faster R-CNN 模型诊断各种类型肋骨骨折的敏感性和精确率均较高,假阳性率低,诊断用时仅为23 s 左右。医师在模型辅助下可显著提高骨折诊断的敏感性、精确率、缩短诊断时间。Jin 等[7]应用FracNet 算法对肋骨骨折进行诊断和分割,发现此算法诊断肋骨骨折的敏感性高达92.9%,平均假阳性率为5.27 个/每次胸部CT 检查,图像分割的Dice 指数为71.5%,诊断用时约为31 s,远低于影像医师诊断时间。在此算法的协助下,影像专家诊断肋骨骨折的准确率明显增高,诊断用时明显缩短。
本研究所构建的DCNN 模型仍有一些假阳性和假阴性病例,该模型存在误将血管沟、骨岛、骨纤维异常增殖症和其他肋骨变异或骨质密度不均认为骨折的情况,课题组认为这些发生在肋骨的正常解剖结构、变异或病变与新鲜或陈旧骨折、骨痂形成的形态和密度相似,DCNN 算法难以分辨。DCNN模型对部分轻微肋骨骨折、愈合中及陈旧骨折存在漏诊,这与DCNN 检测算法的敏感性不足有关。在下一步研究中,需要课题组加入更多轻微骨折、肋骨变异和病变图像进行训练,优化算法模型,提高模型诊断的准确性。
本研究应用3 种DCNN 算法对肋骨骨折进行定位和诊断,模型首先结合胸椎椎体的部位对肋骨进行分割、标记,确定肋骨位置,然后再检测骨折具体部位,这样可对骨折部位进行自动标记,减轻医师人工定位肋骨的负担。Relu 级联的检测网络对肋骨骨折的检出具有明显的优势,通过3 个特征层分别输出检测结果,这样更容易检测出不同的骨折大小;此模型通过级联,参考上一级输出的检测结果,通过Threshold Relu 和Mean 模块,调整阈值检测出所有阳性,防止过早的过滤掉阳性,而且会输出更少的假阳性,缓解过拟合。本研究应用Relu 网络检测肋骨骨折,精确率和召回率与Zhou 等大致相当,而诊断用时较Zhou 等[6]的模型明显缩短,仅为4 s左右,较Jin 等[7]的Dice 指数更高,用时更短。在此模型辅助下,医师的诊断用时、误诊和漏诊明显减少。但本研究尚未对骨折类型进行分类,这也是本课题组下一步重点研究的内容。
在其他学者的研究中,DCNN 在骨折诊断上多集中在X 线片,尤其对桡骨远端[10-11]和股骨近端[12-13]骨折的研究较多,多为在手腕正侧位和骨盆正位片上对骨折进行诊断。还有作者应用DCNN 在X 线片上诊断肱骨近端、足踝、手等部位骨折,并对骨折进行分类[14-15]。结果表明,DCNN 在平片上诊断骨折的准确性高,与亚专科医师水平相当,并普遍高于一般医师。在应用CT 图像诊断骨折方面,Pranata 等[16]发现应用ResNet 和SURF 算法在CT 横断、冠状、矢状位图像上对跟骨骨折进行诊断和分类的准确性高,可达98%。Tomita 等[17]在胸、腹部和盆腔CT 图像上应用CNN 算法诊断有无相应部位的骨质疏松性椎体骨折,诊断准确性达89.2%,与有经验的放射科医师相当。
本研究尚有一些不足:首先,本研究的金标准均为高年资医师的最终诊断,而医师的诊断存在漏诊或误诊的可能,因此,以此标准对DCNN 模型进行训练和测试存在偏倚可能。其次,本研究在测试DCNN 模型诊断效能时排除了屏气不佳,胸部CT 图像呼吸伪影较重的患者,而此类患者在日常工作中并不少见,如何解决这些患者肋骨骨折诊断的问题也是临床工作中亟需解决的问题。第三,本研究仅能诊断肋骨骨折,不能对骨折类型进行区分,未来需改进算法提高对骨折分类的能力。最后,胸部外伤患者不仅有肋骨骨折,还有胸廓其他部位骨折、双肺和纵膈、皮下软组织等部位的损伤,如能在今后的研究中对胸外伤患者的损伤部位和程度进行系统、全面的诊断和分类,并结合现有预后评分标准指导治疗、提示预后,则会大大提高DCNN 在临床应用上的前景。
本研究所构建的DCNN 模型在胸部CT 图像上可准确定位、诊断肋骨骨折,显著缩短诊断用时,可辅助医师诊断,减少漏诊、误诊率,提高工作效率。