陶建华,陈聪,张怀宇,曲晓霞,郭健,鲜军舫
鼻骨区骨质菲薄,位置浅在,是颅面部外伤中最常受累部位。由于鼻骨区体积较小,解剖结构细微,该部位骨折容易被漏诊及误诊[1-3]。在临床急诊工作中,颅面部外伤患者常涉及到法医鉴定等刑事问题,在工作量大、时间紧和视觉疲劳的情况下,能否正确判断鼻骨区骨折显得尤为重要[4-5]。深度学习是一种人工智能(artificial intelligence,AI)方法,通过学习样本数据的内在规律和表示层次,通过组合低层特征形成更加抽象的表示高层属性的特征,使机器模仿人类的视听和思考活动。近年来人工智能技术在疾病诊断及预后评估方面逐渐发挥出较大作用,基于深度学习的AI模型构建的肺结节、颈部血管和冠状动脉疾病检测系统已逐步应用于临床实践[6-9]。此外,虽然AI方法已应用于四肢骨、骨盆、椎体和肋骨骨折的检测且已取得较好的进展[10-12],但是在颅面部骨折方面的临床应用尚未见到相关报道。本课题拟基于大样本的鼻骨区骨折和非骨折影像数据,建立鼻骨区骨折的人工智能辅助诊断模型,探讨此模型在辅助影像医师初步筛查骨折部位、减少医师因过度疲劳导致可能的漏诊和误诊,提高诊断准确性方面的临床应用价值。
1.一般资料
回顾性分析2018年1月-2019年8月因鼻骨区外伤来我院急诊行鼻骨CT检查的2080例患者的CT资料。经2位高年资医师(工作年限>15年)共同认定(金标准),其中1000例无明确鼻骨区骨折,1080例有明确鼻骨区骨折,所有患者均无鼻骨区和副鼻窦区肿瘤。无骨折组中,男667例, 女333例,年龄18~75岁,平均(38.2±8.2)岁;骨折组中,男625例,女455例,年龄18~80岁,平均(36.5±7.1)岁。
本研究经我院伦理委员会批准(TRECKY2019-014)。
2.CT扫描方法
使用Philips brilliance 16排螺旋CT机,扫描范围自鼻根部到鼻尖下方层面,扫描参数:120 kV,200 mAs,螺距0.438,矩阵512×512,层厚0.8 mm,层间距0.4 mm,骨算法重建。每例患者获得原始骨算法图像200~300帧,设置图像的窗宽为4000 HU、窗位为700 HU。屏蔽患者个人信息后将所有图像上传到AI工作站进行分析,研究步骤和流程见图1。
图1 本研究步骤和方法的流程图。 图2 基于FPN算法的深度学习方法对鼻骨图像学习过程的示意图。a)鼻骨区定位训练;b)鼻骨区骨折的定位训练。
3.图像标注
无骨折组中,在每例患者的原始CT图像中选取鼻根部层面、鼻骨区中间层面和上颌骨额突最上端这3个层面,使用白色矩形框(可隐藏)对鼻骨进行标注,矩形框内应包括双侧鼻骨、上颌骨额突和鼻中隔前部。1000例中800例用于AI模型的鼻骨区定位训练,100例用于AI模型的测试,100例用于AI辅助下不同医师对骨折检出效能的评估。
骨折组中,在每例患者鼻骨区原始CT图像上采用矩形框对所有层面的骨折部位进行标注。先由低年资医师进行标注,然后由具有15年以上鼻骨区骨折诊断经验的高年资医师进行审核和确认。矩形框内应包含骨折线,面积尽量小。1080例中680例用于训练,240例用于AI测试,160例用于AI辅助下医师对骨折检出效能的评估。
4.基于深度学习的AI模型的训练和测试
鼻骨区的定位训练和测试:本研究中使用3D特征金字塔网络(Feature Pyramid Network,FPN)深度学习算法[13],基于无骨折组的鼻骨区标注图像进行定位训练来建立AI模型,具体过程见图2a。鼻骨的标注从鼻骨最上端起始位置到上颌骨额突结束的位置,统一将尺寸归化为矩阵128×256×256,使用3个卷积特征的残差网络跳转链接方式和降采样,将CT图像经过统一化处理,最终的特征是512通道,矩阵16×32×32。经100例测试,鼻骨区定位符合率达100%。
鼻骨区骨折的定位训练和测试:对鼻骨区骨折的定位训练过程如图2b所示。训练样本包括680例有骨折和200例无骨折(从用于AI模型的鼻骨区定位训练的800例无骨折中随机选取)患者的原始CT图像。本文设计了2.5D的FPN方法实现网络鼻骨区骨折定位,将相邻的3层切片堆叠起来作为输入图像,扩大空间信息,使骨折集中在5×5~12×12 像素中显示。网络在特征提取时将最后一层进行反卷积堆叠采样,提供更多的空间信息。选取3560帧图像(从240例骨折病例中随机选取2560帧有骨折图像,从100例无骨折病例中随机选取1000帧无骨折图像,对AI模型的骨折定位能力进行测试。
5.人工和AI辅助对骨折检出效能的比较
选取1000帧原始图像(从160例骨折病例中随机选取735帧有骨折图像,从100例无骨折病例中随机选取265帧无骨折图像),首先由2位低年资医师(工作年限<3年)、1位高年资医师(工作>10年)和AI模型分别独立对图像进行分析和标注。3个月后,由上述3位医师分别对AI模型标注过的CT图像再次进行分析和观察,对骨折部位进行标注。
表2 低年资医师B及在AI模型辅助下对鼻骨骨折诊断效能的比较
表3 高年资医师C及在AI模型辅助下对鼻骨骨折诊断效能的比较
在评估过程中,AI标注框和人工标注框在x、y轴方向的重叠率均大于50%且重叠面积大于25%视为正确识别(图3)。标注框正确识别骨折定义为真阳性;标注框未正确识别骨折定义为假阴性;标注框识别错误定义为假阳性(包括骨折组和无骨折组);在无骨折图像上无标注框定义为真阴性。
图3 人工(红色框)与AI模型(绿色框)标注骨折的一致性较高。a)双侧鼻骨粉碎骨折,骨性鼻中隔前部骨折;b)左侧鼻骨骨折,断端成角;c)右侧鼻骨骨折,断端分离;d)右侧鼻骨骨折,断端分离;e)左侧鼻骨轻微骨折、略塌陷,骨折线不清晰;f)左侧上颌骨额突线性骨折,断端无移位。 图4 AI模型把右侧血管沟(鼻骨孔)误诊为骨折。 图5 AI模型把透亮点状或线状血管沟、缝间骨、鼻颌缝误诊为骨折(绿框)。a) AI模型(左侧绿框)将左侧鼻颌缝内缝间骨误诊为骨折,人工(红框)和AI模型(右侧绿框)均检出右侧鼻颌缝分离; b) AI模型将左侧鼻颌缝和右侧血管沟误诊为骨折; c) AI模型(左上绿框)将右侧血管沟误诊为骨折,同时人工(右下绿框)和AI模型(红框)均检出左侧上颌骨额突骨折; d) AI模型将右侧缝间骨和血管沟均误诊为骨折; e) AI模型将左侧血管沟误诊为骨折; f) AI模型将左侧鼻颌缝误诊为骨折。 图6 AI模型把鼻骨末端的鼻颌缝误诊为骨折(绿框)。 图7 无鼻骨骨折患者。a) 横轴面 CT 图像,AI模型将左侧缺损型鼻骨末端误诊为骨折(绿框); b) VR图像示左侧缺损型鼻骨末端。
6.统计学方法
使用SPSS 24.0统计学软件,采用四格表或R×C表Pearson卡方检验对人工标注与AI辅助下人工标注骨折部位的敏感度、特异度和符合率进行比较。采用ROC曲线来分析各种标注方式对骨折的检出效能,通过Delong检验比较各种标注方式的ROC曲线下面积(AUC) 。以P<0.05为差异有统计学意义。
在鼻骨骨折的测试集中,AI模型检出骨折的敏感度为86.64%(2218/2560),特异度为41.99%(721/1717),符合率为68.71%(2939/4277);AI模型检出的假阳性骨折数为996个,常见位置依次为血管沟、鼻颌缝和鼻骨末端(图4~7),分别占48.99%、29.91%和21.10%。
三位医师单独及在AI模型辅助下对鼻骨骨折的诊断效能指标及统计分析结果见表1~3。两位低年资医师在AI辅助下检出鼻骨骨折的敏感度和符合率均较独立检出有显著提高,分别提高了24.35%、23.54%和17.81%、16.97%,差异均有统计学意义(P<0.05),AUC亦有明显提高(P<0.05),但特异度的变化不明显(P>0.05)。高年资医师在AI模型辅助下对鼻骨骨折的检出敏感度、特异度和符合率与独立检出比较,差异均无统计学意义(P>0.05)。在AI模型辅助下2位低年资医师检出骨折的敏感度和符合率与高年资医师间的差距明显缩小,敏感度的差距从29.39%和25.45%分别缩小到6.13%和3.00%,符合率的差距从28.07%和23.46%缩小到11.21%和7.44%。在3位医师的各2种诊断方式中,以AI模型辅助下高年资医师的诊断效能最高,AUC最大(图8)。
表1 低年资医师A及在AI模型辅助下对鼻骨骨折诊断效能的比较
图8 低年资和高年资医师独立及在AI模型辅助下检出骨折的ROC曲线,以AI模型辅助下高年资医师的诊断效能最高,AUC最大。
传统深度学习模型需要百万级的数据集,在训练数据相对较少的条件下,本研究采用迁移学习的预训练模型,使用左右翻转和直方图随机扰动策略进行训练,每次训练时对数据进行随机变换以实现数据的扩充,从而解决数据集较小的问题。对鼻骨区骨折的检出属于对微小目标的识别,骨折区域在整个标准框立方体中占比太小,导致标注区域的噪声过多,训练效果较差。针对这种特殊情况,本研究采用2.5D网络,将相邻的前后两层堆叠起来作为输入图像,从而可降低噪声并弥补空间信息的不足。对于无明显移位的轻微鼻骨区骨折,除了局部信息,还需要更大空间视野来辨识骨折、骨缝和血管沟,本研究中使用特征金字塔网络,在特征提取时将最后一层进行反卷积堆叠来进行采样,这种方法可以提供更多的空间信息,增加对骨折、骨缝和血管沟的识别。
低年资医师在AI模型的辅助下检出骨折的敏感度和符合率均有显著提高,AUC亦有明显增加,说明AI模型可以帮助低年资医师对骨折进行初步筛查。急诊值班工作中,工作量大,外伤严重且复杂,在这种高强度脑力劳动和容易视觉疲劳的环境下,AI模型辅助筛查鼻骨区骨折,可以在一定程度上减少漏诊,提高诊断效能。此外AI模型缩小了低年资医师与高年资医师检出骨折的敏感度和符合率之间的差距,间接减少了高年资医师审核报告的时间。
值得注意的是AI模型检出骨折的假阳性率较高(图4~7),假阳性标注出现的部位主要为鼻颌缝(占44.19%)、血管沟(占41.31%)和鼻骨末端(占14.50%),这些区域也是临床实际工作中最容易被影像医师与骨折相混淆的部位。在横轴面图像上,鼻颌缝中下部分常常出现缝间骨征象,单独观察某一层面容易误认为骨折碎片。鼻骨区血管沟孔较多,除了固定出现的鼻骨孔以外,鼻骨和上颌骨额突还存在其它的一些血管孔沟,且常不对称出现,在单独某个层面上也极易与骨折相混淆。鼻骨末端的形态多变,有M型、锯齿型、单侧缺损型和拱型等多种形态,在横轴面图像上,锯齿型和单侧缺损型的鼻骨末端常表现为双侧不对称的局部缺损,容易被误认为碎骨片和单侧骨折。因此,在临床实践中,应连续上下多层面、多角度并结合VR图像来观察鼻颌缝、鼻骨孔、血管沟位置和鼻骨末端形态等,有助于将上述解剖变异与鼻骨骨折进行鉴别。AI模型评估鼻骨骨折时出现假阳性的主要原因是AI模型更多关注单层的局部信息,对某一结构上下层面的连续变化的空间信息观察不足;其次的原因是用于训练基于深度学习算法的AI模型的样本数量不够大。低年资医师检出假阳性骨折的主要原因也是受到鼻颌缝、血管沟和鼻骨末端不规则形态的干扰。
本研究中AI模型检出骨折的敏感度为86.64%,低年资医师平均约为70.00%,低于AI模型,差距主要存在于鼻骨区的轻微线性骨折,分析原因主要是低年资医师的工作时间短、对线性骨折经验不足所致。鼻骨的骨质较菲薄,轻微的线性骨折往往仅能见到局部骨质有线状透亮影,断端通常无明显移位。在工作量大、时间紧的急诊工作中,医师在视觉疲劳的情况下,对于轻微的线性骨折更容易漏诊,可以利用容积再现(volume rendering,VR)技术进行图像重组,获得鼻骨及邻近区域的三维立体图像,从而能对鼻骨区进行全面观察,提高对线性骨折的检出率,减少漏诊。
鼻骨区包括鼻骨、上颌骨额突和骨性鼻中隔,均属于不规则骨,和规则的四肢长骨和扁骨相比,解剖结构复杂,其形态和邻近血管的变异较多,这给应用AI模型来检测鼻骨区骨折带来困难和挑战。本研究基于深度学习算法初步建立了检测鼻骨区骨折的AI模型,这是将AI技术应用于颅面部骨折的新尝试。在AI模型辅助下,低年资医师对鼻骨骨折的检出效能有一定程度的提高,不足之处在于AI标注框的面积普遍较大、精准度不高,检出骨折的假阳性率仍较高。针对上述问题,笔者拟在后续研究中通过增大训练AI 模型的样本量和多样性、进行多中心研究和优化算法,来提高AI模型对解剖结构和骨折的空间识别能力、减少假阳性率,并通过缩小标注框来提高骨折定位的精准度,增加诊断医师对AI骨折检出模型的信任度,使其能更好地应用于颅面部骨折的筛查和法医鉴定中。