人工智能在胸部创伤肋骨骨折CT诊断中应用的初步研究

2021-08-21 07:36谢辉辉许玉峰陶晓峰吴迪嘉王霄英

上海交通大学学报（医学版） 2021年7期

刘想，谢辉辉，许玉峰，陶晓峰，柳林，吴迪嘉，王霄英#

1.北京大学第一医院医学影像科，北京 100032；2.上海交通大学医学院附属第九人民医院影像科，上海 200011；3.吉林大学中日联谊医院影像科，长春 130031；4.上海联影智能医疗科技有限公司，上海 201800

肋骨骨折在胸部钝性损伤中常见，可合并肺、纵隔和其他重要胸腹器官的损伤。研究表明，81%的外伤性肋骨骨折患者有血胸、气胸［1］以及其他器官损伤，通常与特定肋骨骨折有关［2］。检出肋骨骨折的类型和数量可为治疗方案的制定提供依据［3-4］。许多影像学检查可以用来确定肋骨骨折的存在，检查方式在很大程度上取决于损伤机制和病史。根据美国放射医师学会所制定的成像方式选择标准［5］，仰卧位的X线胸片通常是创伤患者的初始影像学检查，但有研究证实超过50%的肋骨骨折会在X线诊断中被漏掉［6］，因此电子计算机体层扫描（computed tomograph，CT）被推荐为评估怀疑胸部并发症时胸部创伤的主要影像学检查方法。CT可评估胸部创伤时肋骨骨皮质的完整性、骨折碎片的存在以及周围脏器的损伤状况等，快速检出CT图像上的肋骨骨折并准确报告肋骨骨折的数量是必要的［7］。受个体因素、拍摄设备及角度等的影响，放射科医师在进行肋骨骨折的CT诊断时也易出现漏诊误诊的情况［8］。近年来，随着深度学习技术的快速发展，人工智能（artificial intelligence，AI）作为一种计算机辅助诊断工具已成功应用于许多医学领域，并取得了很好的效果，如胸部螺旋CT图像上的肺结节检测［9］和乳腺磁共振成像图像上的肿块检测［10］。本研究应用基于深度学习的AI软件检出骨折病灶，分析软件在CT图像上自动检出外伤肋骨骨折的效能。急性创伤患者行胸部CT扫描后，图像直接输入AI模型，模型返回结果为是否有肋骨骨折的预测结果。如模型预测结果为阳性，则立刻通过信息系统发出通知，提醒影像科医师优先处理该病例；相应结果也会同时自动发送到结构化报告，由影像科医师进行阅片复核后将报告签发。AI可完成对患者的初筛，对影像检查进行优先级排序，将AI检出的有肋骨骨折的图像推送到工作列表的最前面，以提醒医师紧急优先处理，有利于危重患者的即时救治。

1 资料与方法

1.1 临床资料

收集2019年8月—9月因急性胸部外伤而行CT扫描的393例连续数据。数据入选标准包括：①年龄18岁及以上。②因急性胸部外伤而行胸部CT检查。③有完整的CT图像数据。数据排除标准为（符合以下任何1项标准的数据均不入选）：①图像质量不佳，如摆位不良、呼吸运动等原因引起的伪影导致图像质量不佳。②肋骨病理性骨折、自发性骨折或肋骨其他非骨折性病变。③胸廓畸形。最终入组男性患者245例，女性患者148例。本研究获得了北京大学第一医院伦理委员会的批准，伦理审查编号：（2019）器械注册第（15）号。本研究为注册临床试验（AI301003-QCN-CTP-01）的子课题之一。

1.2 骨折类型

所有入组的患者中包括无肋骨骨折患者和有肋骨骨折患者。其中全部肋骨外伤骨折改变包括3种类型：错位型骨折（一侧或双侧骨皮质断裂，骨折部位出现移位、成角、骨折碎片等），轻微骨折（一侧或双侧骨皮质断裂，但未出现移位）和骨皮质扭曲（一侧骨皮质弯曲，另一侧未出现明显骨折征象）［7］（图1～3）。

图1 错位型肋骨骨折Fig 1 Displaced rib fracture

图2 轻微骨折Fig 2 Mild rib fracture

图3 骨皮质扭曲Fig 3 Bucklerib fracture

1.3 参考标准制定

由3位影像诊断专家（工作经验>10年）共同在CT图像上进行肋骨骨折检出并标注、记录具体病灶位置。以全部肋骨外伤改变为研究对象时，阳性结果为专家发现的全部错位型骨折、轻微骨折和骨皮质扭曲病灶，阴性结果为专家未发现肋骨外伤改变。以错位型肋骨骨折为研究对象时，阳性结果为专家发现的错位型肋骨骨折病灶，阴性结果包括无骨折、轻微骨折和骨皮质扭曲。

1.4 AI处理结果

本研究采用的AI软件为上海联影智能医疗科技有限公司所研发的骨折辅助检测软件，型号规格为：uAIBoneCare。将符合DICOM3.0标准的CT图像导入AI系统后，AI软件可对其进行图像后处理和分析，输出软件预测出的肋骨骨折区域，并做出标记。

1.5 一致性评价

评价AI结果和参考标准的一致性时分为病灶层面、肋骨层面和患者层面。

在病灶层面，将AI结果与参考标准比对，其结果分成3类。真阳性：AI和参考标准都检出同一病灶。假阳性：AI检出病灶，参考标准未检出该病灶。假阴性：参考标准检出病灶，AI未检出该病灶。

在肋骨和患者层面，将AI结果与参考标准比对，其结果分成4类。真阳性：AI与参考标准均检出某个肋骨/患者有骨折灶，且AI与参考标准在这个肋骨/患者上至少有1处病灶是重合的。真阴性：AI与参考标准均未在这个肋骨/患者检出骨折。假阳性：AI检出某个肋骨/患者有骨折病灶，参考标准在这个肋骨/患者上未检出任何骨折。假阴性分2种情况：①AI在某个肋骨/患者上未检出骨折，但参考标准检出该肋骨/患者有骨折。②AI在某个肋骨/患者上检出骨折灶，参考标准也有骨折灶，但二者没有重合之处。

在病灶层面计算AI检出骨折的敏感度和阳性预测值。在肋骨和患者层面计算AI检出骨折敏感度、特异度、阳性预测值和阴性预测值。

1.6 统计分析

采用SPSS 20.0统计分析软件。定量数据以x±s表示，分别对患者、肋骨和病灶层面的肋骨骨折检出敏感度、特异度、阳性预测值、阴性预测值进行统计描述。采用χ2检验比较AI对不同类型肋骨骨折检出敏感度的差异，P<0.05为差异有统计学意义。

2 结果

2.1 基本情况

纳入的393例患者年龄18～89岁，平均（45.57±14.53）岁。以全部肋骨外伤改变为研究对象，有骨折（轻微骨折、骨皮质扭曲、错位型骨折，包括其中1种即可）患者有187例，无骨折患者有206例。以错位型肋骨骨折为研究对象，有骨折（1处或多处错位型骨折）患者有90例，非错位骨折（无骨折或单纯轻微骨折或单纯骨皮质扭曲或轻微骨折+骨皮质扭曲）患者有303例。各层面（病灶、肋骨、患者）的全部肋骨外伤改变和错位型肋骨骨折数量分布如图4所示。其中病灶层面的具体骨折分布情况如表1所示。

图4 全部肋骨外伤改变与错位型肋骨骨折在不同层面的分布Fig 4 Distribution of all traumatic and displaced rib fractures in different levels

表1 肋骨骨折病灶分布及检出情况（n）Tab 1 Distribution and detection of rib fracture lesions（n）

2.2 诊断效能

2.2.1 病灶层面在病灶层面上，参考标准共检出骨折病灶630处（错位型骨折194处，轻微骨折113处，骨皮质扭曲323处）。AI共检出689处病灶，其中真阳性病灶515处（错位型骨折184处，轻微骨折88处，骨皮质扭曲243处），假阳性病灶共174处。AI未检出的假阴性病灶为115例（错位型骨折10处，轻微骨折25处，骨皮质扭曲80处）。因此，在病灶层面上AI检出全部肋骨外伤骨折病灶的敏感度为81.75%，阳性预测值为74.75%。其中错位型肋骨骨折的检出敏感度在3种骨折类型中最高，为94.85%（χ2=32.63，P=0.000）。各类型骨折病灶层面检出敏感度结果见表2。图5所示为与金标准阅片相比，AI阅片检出的1处真阳性病灶，图6所示为1例假阳性病灶。

表2 AI软件检出肋骨骨折敏感度（病灶层面）［%（n/n）］Tab 2 Sensitivity of AI software in detecting rib fracture（lesion level）［%（n/n）］

图5 AI检出真阳性结果Fig 5 True positive result detected by AIsoftware

图6 AI检出假阳性结果Fig 6 False positive result detected by AIsoftware

2.2.2 肋骨层面在肋骨层面上，以全部肋骨外伤改变为研究对象，AI检出肋骨骨折的真阳性肋骨为451根，假阳性为148根，真阴性为8 737根，假阴性为96根。其敏感度、特异度、阳性预测值、阴性预测值分别为82.45%、98.33%、75.30%和98.91%。以错位型肋骨骨折为研究对象，肋骨水平上AI检出肋骨骨折的真阳性肋骨为174根，假阳性为161根，真阴性为9 087根，假阴性为10根。其敏感度、特异度、阳性预测值、阴性预测值分别为94.57%、98.26%、51.94%和99.89%（表3）。

2.2.3 患者层面在患者层面上，以全部肋骨外伤改变为研究对象，AI检出肋骨骨折的真阳性病例为170例，假阳性为49例，真阴性为157例，假阴性为17例。其敏感度、特异度、阳性预测值、阴性预测值分别为90.91%、76.21%、77.63%和90.23%。以错位型肋骨骨折为研究对象，在患者水平AI检出肋骨骨折的真阳性病例为86例，假阳性为77例，真阴性为226例，假阴性为4例。其敏感度、特异度、阳性预测值、阴性预测值分别为95.56%、74.59%、52.76%和98.26%（表3）。

表3 AI软件检出肋骨骨折的诊断效能（患者和肋骨层面）Tab 3 Diagnostic efficiency of AI software in detecting rib fractures（patient and rib level）

3 讨论

肋骨骨折是反映胸部创伤严重程度的一项重要指标［11］。有研究报道，高达12%的外伤性肋骨骨折患者会在急性或亚急性损伤期间死亡，近50%的患者最终需要重症监护和手术［12］。肋骨骨折在肺部的并发症有气胸（37.2%）、血胸（26.8%）、血气胸（15.3%）、肺挫伤（17.2%）和皮下气肿（2.2%）等［13］。另一项研究［14］表明，胸部外伤患者年龄超过45岁且有超过4处肋骨骨折时，死亡率较高。

急性胸部外伤肋骨骨折的位置有一定规律。根据损伤程度和周围脏器相关损伤程度，胸廓的全部肋骨可分为3个区域。上部区域包括第1～4肋骨。这一区域的骨折常为快速撞击造成，通常伴有血管或臂丛神经损伤。中部肋骨区包括第5～9肋骨，这一区域的骨折通常发生在侧面或后面，常见的并发症包括肺裂伤、肺挫伤、胸膜外血肿、血胸和气胸。下部肋骨区域包括第10～12肋骨。该区域因为活动性较大，较少发生骨折，如发生下部肋骨骨折，多合并实体器官（肝脏、脾脏等）损伤［15-16］。

急性胸部外伤肋骨骨折的类型与患者的预后密切相关。错位型肋骨骨折尤其是明显、多发的肋骨骨折，常会导致一些致命的并发症如主动脉夹层［17］等。而轻微骨折和骨皮质扭曲因其损伤范围小而经常在影像学上被忽略，且它们通常可在没有手术干预的情况下愈合，对于患者的预后影响不大［7］。因此本研究除了研究全部肋骨外伤改变，还以错位型肋骨骨折为主要研究对象来分析AI软件对肋骨骨折检出的效能。

本研究利用AI软件在胸部CT图像上检出肋骨骨折，研究结果表明，基于深度学习的AI软件在自动检出肋骨骨折上具有较高的效能。Yan等［18］在2019年欧洲放射学大会上报道过CT图像上肋骨骨折的AI检出研究，其预试验结果在肋骨层面上的敏感度可达到95%，阳性预测值为55.7%，但该研究未分析骨折层面、患者层面上AI检出肋骨骨折的效能。本研究发现在骨折层面上AI检测错位型肋骨骨折的敏感度最高，轻微型骨折及骨皮质扭曲的敏感度略低，这与影像科医师在临床工作中也容易忽略隐匿性骨折的情况是一致的。本研究发现，无论是以全部肋骨外伤改变还是以错位型肋骨骨折为研究对象，AI软件在患者和肋骨层面的敏感度和特异度都与放射科专家的准确性相当［19］。但是，应该注意到AI假阳性过高导致检出肋骨骨折的阳性预测值在各个层面都较低，分析主要原因分为2类。第一类是AI对CT图像上与骨折类似的病变不能鉴别，AI确实检出的是“假病灶”，包括：①先天性肋骨畸形与解剖变异，包括残留肋骨、滑膜关节和分叉肋骨可能被误认为是外伤性损伤。②横突骨折，呼吸伪影以及肋骨和肋软骨之间的生理过渡区在轴位CT图像上与错位型肋骨骨折表现相似。第二类是AI对骨折轻微改变检出更敏感，在制定参考标准时3位专家认为有些可直接忽略的微小骨折也被AI软件检测出来了。重新读片时专家也认为这些所谓的“假阳性”区域有骨折的可能性，只是在患者同时合并其他更严重的肋骨骨折时，这些区域一般不报告，所以这些区域是无重要意义的“真病灶”。因此，在研究过程中存在AI检出了轻微骨折，却与参考标准的结果不一致而被认为是错误检出，但在实际工作中这些骨折的发现也有一定的提示作用，是必要的。

AI软件临床验证的主要目标是观察医师在AI辅助下的工作表现是否得到提升，包括诊断的准确性、工作效率、对诊治决策的影响等［20］。医师在AI辅助下是否获益取决多种因素。首先，AI软件本身的诊断效能必须达到较高的水平，只有AI独立预测的结果与参考标准一致性较高时，才有必要进行真实工作场景下的临床验证。本研究发现AI软件独立诊断的准确性较高，证明后续临床验证试验是可行的。其次，应找到AI在临床场景中承担的合理角色［21］。AI的角色通常可为：①“第1读片者”，先于医师读片，帮助医师筛选出可疑病灶，再由医师确认。②“第2读片者”，在医师读片后再次验证，帮助医师避免漏诊一些重要病灶。③“共同读片者”，在医师读片时提示可疑区域为病灶的可能性。本研究中AI的敏感度高、特异度一般，可以很好地承担“第1读片者”的角色。展望在实际场景中的这个软件的应用应该是在急诊胸部CT检查后由AI自动诊断，软件发现肋骨骨折后在RIS里自动给出提示，提醒医师优先关注这些高危患者。第三，在信息系统流程优化后，AI结果应自动生成在结构化报告中，临床医师可得到定位、定性、定量等诊断信息［22］，还可以将病灶区域的关键图像自动截图填加到报告中，有利于临床医师快速、直观地了解影像诊断结果。通过结构化报告和临床信息系统整合［23］，对患者做出风险分层。

本研究的有一定的局限性，未来需要改进之处在于：①本研究的参考标准是基于3位资深放射科专家建立的，少量隐匿性骨折很可能会在专家阅片中遗漏。将来可在创伤后的随访胸部CT图像中通过骨质硬化或骨痂形成等特征来帮助定位隐匿性骨折。②本研究结果显示AI自动检出肋骨骨折的敏感度高、特异度一般，因此其恰当的应用场景应为辅助影像科医师筛查肋骨骨折。在本临床注册试验的另外2个子课题中，我们在患者层面、肋骨层面和病灶层面比较了“医生+AI”和“单独医生”检出肋骨骨折的敏感度、特异度及ROC曲线下面积（area under the curve，AUC），来分析AI辅助软件的效能。③对于外伤急诊入院的患者来说，及时准确地出具诊断报告是十分重要的。但本研究仅对AI软件检出肋骨骨折的准确度进行了探讨，并未就AI检出骨折所用时间进行讨论。在本临床注册试验的另外2个子课题中，我们通过对“医生+AI”和“单独医生”的阅片时间进行比较，来说明AI辅助软件的阅片效率。④在本研究中，我们最终纳入的病例数为393，相对于国内外的一些类似研究来说，样本量确实不够大。因此，在将本AI软件实际应用于临床工作前，我们还将进行更大样本量的验证。

总之，基于深度学习的AI软件在自动检出肋骨骨折上显示出了良好的诊断效能，检出肋骨骨折的敏感度较高，有望成为急诊外伤胸部CT检查后自动初步筛查的工具。

参·考·文·献

[1] Liman ST,Kuzucu A,Tastepe AI,et al.Chest injury due to blunt trauma[J].Eur JCardiothorac Surg,2003,23(3):374-378.

[2] Ivey KM,White CE,Wallum TE,et al.Thoracic injuries in US combat casualties:a 10-year review of Operation Enduring Freedom and Iraqi Freedom[J].JTrauma Acute Care Surg,2012,73(6 Suppl 5):S514-S519.

[3] Bemelman M,de Kruijf MW,van Baal M,et al.Rib fractures:to fix or not to fix?An evidence-based algorithm[J].Korean J Thorac Cardiovasc Surg,2017,50(4):229-234.

[4] de Jong MB,Kokke MC,Hietbrink F,et al.Surgical management of rib fractures:strategies and literature review[J].Scand J Surg,2014,103(2):120-125.

[5] Chung JH,Cox CW,Mohammed TL,et al.ACR appropriateness criteria blunt chest trauma[J].JAm Coll Radiol,2014,11(4):345-351.

[6] Livingston DH,Shogan B,John P,et al.CT diagnosis of rib fractures and the prediction of acute respiratory failure[J].J Trauma,2008,64(4):905-911.

[7] Talbot BS,Gange CPJr,Chaturvedi A,et al.Traumatic rib injury:patterns,imaging pitfalls,complications,and treatment[J].Radiographics,2017,37(2):628-651.

[8] 李洪涛.16层螺旋CT与DR胸片对肋骨骨折的诊断价值分析[J].中国继续医学教育,2016,8(29):47-48.

[9] Gurcan MN,Sahiner B,Petrick N,et al.Lung nodule detection on thoracic computed tomography images:preliminary evaluation of a computer-aided diagnosissystem[J].Med Phys,2002,29(11):2552-2558.

[10] Lehman CD,Blume JD,DeMartini WB,et al.Accuracy and interpretation time of computer-aided detection among novice and experienced breast MRI readers[J].AJRAm JRoentgenol,2013,200(6):W683-W689.

[11] Lin FC,Li RY,Tung YW,et al.Morbidity,mortality,associated injuries,and management of traumatic rib fractures[J].J Chin Med Assoc,2016,79(6):329-334.

[12] Dunham CM,Hileman BM,Ransom KJ,et al.Trauma patient adverse outcomes are independently associated with rib cage fracture burden and severity of lung,head,and abdominal injuries[J].Int JBurns Trauma,2015,5(1):46-55.

[13] Barnea Y,Kashtan H,Skornick Y,et al.Isolated rib fractures in elderly patients:mortality and morbidity[J].Can JSurg,2002,45(1):43-46.

[14] Holcomb JB,McMullin NR,Kozar RA,et al.Morbidity from rib fractures increasesafter age45[J].JAm Coll Surg,2003,196(4):549-555.

[15] Park S.Clinical analysis for the correlation of intra-abdominal organ injury in the patients with rib fracture[J].Korean JThorac Cardiovasc Surg,2012,45(4):246-250.

[16] Al-Hassani A,Abdulrahman H,Afifi I,et al.Rib fracture patterns predict thoracic chest wall and abdominal solid organ injury[J].Am Surg,2010,76(8):888-891.

[17] Park HS,Ryu SM,Cho SJ,et al.A treatment case of delayed aortic injury:the patient with posterior rib fracture[J].Korean J Thorac Cardiovasc Surg,2014,47(4):406-408.

[18] Pan Y,Shi D,Wang H,et al.Automatic opportunistic osteoporosis screening using low-dose chest computed tomography scans obtained for lung cancer screening[J].Eur Radiol,2020,30(7):4107-4116.

[19] Ringl H,Lazar M,Töpker M,et al.The ribs unfolded—a CT visualization algorithm for fast detection of rib fractures:effect on sensitivity and specificity in traumapatients[J].Eur Radiol,2015,25(7):1865-1874.

[20] 高歌,马帅,王霄英.计算机辅助诊断在医学影像诊断中的基本原理和应用进展[J].放射学实践,2016,31(12):1127-1129.

[21] 高歌,胡娟,王成彦,等.整合临床及多参数MRI信息的前列腺癌CAD系统:诊断效能研究[J].放射学实践,2016,31(12):1143-1145.

[22] 韩超,朱丽娜,刘想,等.基于U-Net实现前列腺MR图像上腺体的自动分割和径线测量:临床植入验证研究[J].放射学实践,2020,35(4):519-524.

[23] Liu Y,Liu Q,Han C,et al.The implementation of natural language processing to extract index lesions from breast magnetic resonance imaging reports[J].BMCMed Inform Decis Mak,2019,19(1):288.