胸部正位片人工智能自动质控系统模型的研究与应用

2023-12-18 06:46胡君花辛小燕唐堂于芷轩胡安宁
中国医疗设备 2023年12期
关键词:肺野正位肩胛骨

胡君花,辛小燕,唐堂,于芷轩,胡安宁

南京大学医学院附属南京鼓楼医院 医学影像科,江苏 南京 210008

引言

胸部数字X 线摄影术(Digital Radiography,DR)设备,因其辐射剂量低,检查费用低,成像速度快等特性,已逐步成为胸部疾病初步筛查最常见的检查方式[1]。随着人们医疗意识水平的提高,大家对影像数据质量的要求也相应提高。医学影像的质量不仅关乎到临床医生对疾病诊断的准确率,同时也影响着就诊患者的就医体验和对医院的满意度评价。而目前,DR 正位胸片质控标准由中华放射学会质控中心、各地方放射质控中心分别制定[2],质控标准化程度不高、质控标准参照不一;图像的质量基本完全依靠人工判别,缺乏客观性,不仅耗时耗力,且存在主观评判差异[3]。

随着数字化、智能化转型的时代趋势,DR 正位胸片的智能化质量控制显得尤为重要。本研究主要针对医疗影像传统质控管理的局限性,基于主流的神经网络分割模型、分类模型,以及计算机视觉框架,构建一套基于深度学习[4-5]的DR 正位胸片质控管理系统,自动对影像数据进行质控,实现医学影像质控的自动化、常态化和规范化。

1 一般资料

回顾性研究已发布的ChestX-ray8 开源数据集及南京鼓楼医院从2018—2021 年的胸部正位片(本研究中使用的所有数据均是脱敏处理后的纯医学影像),共约10 万数据集,这份数据集简称NJCX8,数据集被随机分成2 个部分:90%用来训练,10%用来验证。

1.1 评分标准

基于人工智能深度学习理论,结合国内外各医学影像科质控评分标准,参考《“上海市放射诊断质控标准”(修订版)》、江苏省质量控制中心文件及南京市影像质量控制中心文件,成立南京鼓楼医院医学影像科质量管理小组及质控五分制评分标准,小组成员共7 人,分别由工作5 年以上的技师及医师共同构成。质控评分等级:满分为5 分,若检测出上面出现的情况,就加上相应的分数,直到这些标准全部都判断完毕,得到最终的得分,便可以得出最终评片等级。一级片:5 分;二级片:4 ≤评分<5 ;三级片:3 ≤评分<4;废片:<3。本研究中DR 胸部正位片质控扣分标准如表1 所示。

表1 DR胸部正位片质控扣分标准

1.2 异物的判断

在质控评分的异物方面,经过与质量管理小组的反复讨论[6],本研究认为正位胸片中与异物相关的扣分项应当是肺野内的体外异物和肺野外可去除异物,理由包括:① 体内异物诸如心脏起搏器、心脏支架、中心静脉导管等,由于此类异物无法移除,故不扣分;② 肺野外的体外异物诸如耳钉等,不影响影像诊断,但影响图像美观,故扣0.5 分;③ 肺野内的体外异物,如内衣钢钉、项链等会对核心区域造成遮挡,影响诊断结果,故扣1.5 分。

2 系统模型建立

2.1 模型训练

在项目初期筛选了近1000 张图像作为训练集与测试集,对肺野、锁骨、肩胛骨等目标区域轮廓进行了高精度的人工标注。标注工具基于Python 框架下的软件labelmerc[7]。本文对传统的labelmerc 软件进行修改,使其可以特异性地完成正位胸片左右肺野、肩胛骨与锁骨区域的多边形描点标注,并将标注结果以json 格式保存。最后再使用Python 脚本进行批处理即可获得各个区域的二值化(binary) mask 掩码图像,即对应区域为白色-灰度值为1,背景区域为黑色-灰度值为0(图1)。

图1 图像标注工具(labelmerc)标注后生成的二值化图像

2.2 图像语义分割模型

传统的语义分割框架包括OSTU 大津阈值分割算法[8],全卷积神经网络[9](Fully Convolutional Network,FCN)框架等。而这些传统框架无一例外地表现出边缘精度低,噪声稳定性差,训练成本高,收敛速度低等问题[10]。本项目的语义分割基于U-Net 框架(图2)。

图2 U-Net神经网络架构

U 型网络结构(U-Net)[11]是基于全卷积神经网络FCN 进行优化设计得到的分割模型。U-Net 包括两个部分:特征提取(左侧)和上采样(右侧)。

特征提取路径又称收缩路径,在此路径上每经过一个池化层(图2 中为红色箭头)图像长宽减半而特征通道数加倍。经过第一个池化层后,通道数由64 扩充至128,而特征图尺寸减半后变为284×284。整个收缩路径采用了装配ReLU 激活函数和3×3 卷积核的卷积层与Max-Pooling 池化层的feed-foward 运算。收缩路径的目的本质上是特征提取,每个3×3 的卷积核都记录着某种“特征”,这些“特征”随着网络层数变得愈加抽象,最终经过上采样将这些抽象的特征转换为每个像素点上0 和1 的灰度值,1 代表肺野区域,0 代表肺野外区域。

上采样路径又称扩展路径,通过反卷积层实现上采样,可以理解为上述收缩路径的逆运算,即每经过一个上采样层,特征图通道数减半,特征图尺寸加倍。U-Net采用了4 个长连接(灰色箭头),将收缩路径的特征图与扩展路径的特征图裁剪拼接在一起。这些长连接最大程度地保留了输入图像携带的有效信息,有助于还原降采样所带来的信息损失。

U-Net 的损失函数即二元交叉熵[12]。训练过程即为寻找交叉熵局部最小值的凸优化问题,当交叉熵趋于0 时,肺野区域预测结果与对应的训练掩码的灰度值在每个像素点上将完全相同。大量的研究表明,U-Net 即使在非常小的训练集上也可以实现出色的精度。本研究最终使用的数据集为645 组胸片- 掩码作为训练集,50 组胸片-掩码作为测试集。使用2 台Tesla-V100 显卡对3 个独立的U-Net 分别进行训练。训练参数如下:输入图像:512×512,池化层移动步长:2,单批训练样本数:2,训练次数:50。

2.3 语义分割的后处理

神经网络预测过程中有时会将周边的深色区域误以为是肺野区域,因而生成一些肺野区域外的白色噪点。类似地,在实际的肺野区域内偶尔也会存在黑色的噪点,仿佛肺野中存在“漏洞”。显然,这两类噪点都需要在后处理中进行移除。

移除这两类噪声的解决方法便是形态学运算。首先引入腐蚀和膨胀这两个概念,腐蚀即通过腐蚀边缘像素点让图像中目标区域(如肺野)“变瘦”;而膨胀即通过填充边缘像素点使目标区域“变胖”。形态学中的两类基本运算为开运算和闭运算。开运算即先腐蚀后膨胀的运算,其作用是:分离物体,消除小区域,那么通过开运算即可消除图像中的白色噪点块。闭运算则恰巧相反:先膨胀后腐蚀,通过闭运算可以消除目标区域内的黑色“空洞”从而使得连通域“闭合”。

后处理的步骤如下:对于肺野、肩胛骨、锁骨区域分别使用14×14、9×9、3×3 的单位矩阵作为结构元素依次进行开、闭运算。

2.4 核心质控参数评价指标的计算

通过U-Net 可以获得胸片中核心区域的连通域,这些信息可以帮助本研究计算耸肩度,体位偏移度以及肩胛骨/肺野重合面积比等核心质控参数。

(1)肺野区域完整性判定:通过U-Net 分割结合形态学后处理可以确定双侧肺野的具体位置,此时可在肺野区域掩码图中(图1b)绘制一个距离图像边缘2.0~2.5 cm 的正方形边框,若双侧肺野区域完全位于边框之内则认为肺野区域完整,否则扣5 分。

(2)胸片L/R 识别码标注:在正位胸片中常在人体左侧或右侧使用L 或R 字母进行标记,本软件使用OCR 技术对规定标记的区域进行文字识别,如果双侧均无法识别到标识码则扣1 分。

(3)体位偏移计算:记图中左侧锁骨连通域为C1,右侧锁骨连通域为C2;记C1中点坐标的最大值为x1,记C2中点坐标的最小值为x2。则患者体位中心点为,记图片中心点为xim,则体位偏移量为Δx=|xp-xim|。假设图片尺寸为512×512,若Δx>50 则认为存在体位偏移,扣0.5 分。

(4)耸肩量计算:对图中左、右侧锁骨分别求外接矩形,矩形对角线的水平夹角即为左、右侧耸肩量。任意一侧耸肩量大于30°,则认为存在耸肩,扣0.5 分。

(5)肩胛骨/肺野重合面积占比计算:首先计算左右肩胛骨和肺野各自的连通域,记左侧肩胛骨面积为S1,右侧肩胛骨面积为S2,记左侧肩胛骨与肺野重合面积为U1,右侧肩胛骨与肺野重合面积为U2,则左侧重合比为O1=U1/S1,右侧重合比为O2=U2/S2。若O1、O2任意一者大于1/3,则认为肩胛骨在肺野内,扣0.5 分;否则不扣分。

(6)胸片对比度:胸片对比度也是质控中的重要评分依据,对比度过高/过低时往往由于曝光过度/曝光不足,机器故障或技师操作失误导致。对比度的计算方式不唯一,主流的算法[13]有两种:① 记图像中最大灰度值为Imax,最小灰度值为Imin,对比度=(Imax-Imin)/(Imax+Imin),这样计算的灰度值将介于0~1 ;② 对比度=。

2.5 图像分类模型

对于异物的判断,选择二分类器。经过测试,相对较新也较复杂的Inception-V4 架构[14]不仅训练速度慢,而且存在严重的梯度消失问题,导致损失函数收敛极慢甚至完全不收敛而是反复震荡,最终精度甚至不及50%。因此本文采用了结构较为简单的视觉几何群网络(Visual Geometry Group Network,VGG)16 架构作为二分类器(图3)。

图3 VGG16架构图

VGG16[15]架构由16 个参数层组成,其中13 个为卷积层,3 个为全连接层。每个卷积层与U-Net 相似,使用3×3 的卷积核以及ReLU 激活函数。此外VGG16中共有5 个池化层,同样地采用最大值池化,即Max-Pooling 方式。传统的VGG16 针对多分类任务设计,故而采用了softmax 损失函数,而对于二分类任务,本研究采用二值交叉熵。

3 系统模型的应用与测试

3.1 前端质控

在临床操作中,技师成功采集患者图像后,人工智能DR 质控管理系统对图像进行自动检测,根据医学影像质控标准进行前端质控,在技师预览图像的操作界面,显示质控评分及扣分细则,技师根据反馈的质控结果进行摄片的选取或调整。

3.2 后端集中质控

定期从人工智能质控系统中抽取一定数量DR 摄片的质控数据,对该段时间内摄片质量进行评估和总结,提升放射质控的管理效率和整体水平。

3.3 模型测试与调整

随机从测试模型中集中抽取300 张图像,由人工智能质控系统和质量管理小组进行质控评分,分别记录摄片范围、标识、检查体位、异物、技术参数等质控数据,以质量管理小组的评分结果为金标准,评估人工智能质控系统与质量管理小组在质控各方面的一致性,并根据测试结果对人工智能质控系统进行参数调整。

3.4 统计学分析

质控分数属于偏态分布,由于检测样本n>30,根据中心极限定理,可以假定服从正态分布,两样本以±s表示,组间对比采用t检验,并通过Kappa 一致性检验,检验人工智能质控系统与质量管理小组的一致性,本研究所有的统计学分析均使用SPSS 22.0 统计学软件,以P<0.05 表示差异有统计学意义。

4 结果

图像分割测试结果如图4 所示,逐点测试精读为:肺野96.73%,肩胛骨98.02%, 锁骨98.71%。U-Net 的预测结果与手动标注的区域相似度极高。U-Net 甚至展示出一些手动标注无法精准实现的局部细节,例如图4g中左锁骨的内测轮廓。在图像分类模型二分类训练、对异物的识别能力中,详细的训练参数如下:输入图像尺寸:1024×1024,单批训练样本数:4,训练次数:100,学习速率:1×10-6,最终测试精度为87.58%。

图4 U-Net测试结果

在前端质控中,图像经过传输后可以立即出现质控分数;后端质控中,系统可以对大量胸片进行批量质控,并可生成详细的表格。

在测试的300 张胸片质控中,最终质量管理小组与人工智能质控系统两组质控分析结果为:质量管理小组:一级片232 份,二级片62 份,三级片6 份,废片 0 份,人工智能质控系统:一级片228 份,二级片67 份,三级片5 份,废片 0 份,不同得分人数用柱状图表示,结果如图5 所示。

图5 人工智能质控系统与质量管理小组质控测试结果

配对样本t检验结果:质量管理小组:4.862±0.292,人工智能质控系统:4.853±0.295;t=0.008,P=0.132,认为质量管理小组与人工智能质控系统差异无统计学意义;两组得分交叉表(表2),采用Kappa 一致性分析,本实验两组测试结果Kappa=0.901,P<0.001,说明质量管理小组与人工智能质控系统在质控DR 胸片时具有较好的一致性。

表2 人工智能质控系统与质量管理小组交叉表

5 讨论

人工智能目前在医学影像方面已普及,计算机智能辅助诊断等方面[16-17]更是广泛应用于医学影像的各个领域,如异物的检查、疾病成像的提取以及辅助诊断等。智能影像质控系统[18-19]发展更是近年来的热点,如李坤成[20]就加强人工智能深入学习在医学影像学临床应用领域的研究中提出,人工智能产品的研发必须针对临床和影像学医师的痛点和难点问题,而且首先需要由医院提供数据,产品也要在临床使用过程中不断改进。贾晓茜等[21]就卷积神经网络在辅助胸部数字X 线图像质量控制工作的应用价值的研究表明,卷积神经网络可满足影像质量控制工作达到最低标准的要求,但要进行高级别图像质量评分和考核等管理工作,还需更大的数据集和更加细致的特征标记。肖艳等[22]就国内放射质量控制管理现状进行总结与分析及对放射质控未来发展趋势进行探讨的研究表明,建立统一标准化的放射质量控制标准是质控全面管理工作的基础,智能化的放射质控将成为提高质控效率、提升质控质量的主要手段。本研究主要将人工智能与胸部X 线质控结合,并优化了质控评分系统,通过辅助系统的自检和数据汇总,简化质控的流程,优化质控的质量,将医学影像带入数字化和智能化方向。

DR 质控所需工作量庞大,目前国内医学影像质控缺乏完整统一的质控标准,人工智能的自动化质控则可以完成这项繁琐的工作,并且做到对每个DR 片进行客观准确的质控。本项目通过U-Net 框架,VGG16 架构完成对DR 正位胸片的语义分析,结合制定的质控五分制评分标准,研究出一套完全自动化的正位DR 胸片智能质控系统。该系统存在以下优势:① 该系统可以高效、精确地评估胸片质控参数,结果显示人工智能质控系统与质量管理小组质控的结果具有很强的一致性,大大降低了质控小组成员们的评片时间成本,减轻质控管理小组的人员压力,使卫生资源能够被更好地合理利用;② 人工智能质控系统评分更具有客观性,避免了主观偏差;③ 通过前端质控,技师可及时对摄片作出调整,降低了废片及低分片的出现,提高技师的摄片水平;集中质控统计结果图一目了然,可以帮技师提出针对性的改进意见,并制定奖惩制度,便于科室管理。

同时,该系统存在一定局限性:① 异物识别精度有待进一步提高,提出在后续的研究中持续性地收集更多的数据样本,使分类模型可以更好地学习正位胸片的各种情况,更进一步地提高模型的准确性,随着模型的深度学习和更新可以让人工智能质控系统更加完善;② 本研究数据仅来自南京鼓楼医院医学影像科,而摄片水平和质控水平在不同级别医院和地区差异很大,因此,在后续研究中,希望加入多中心、大样本的数据。

猜你喜欢
肺野正位肩胛骨
改良肺部超声评分与呼吸窘迫综合征新生儿氧合状态及呼吸支持模式的相关性
反向全肩关节置换术后肩胛骨切迹
基于卷积神经网络的肺野分割和肺炎筛查
先天性高肩胛症1例
儿童肺部CT定位像精准扫描策略
关于铁路货车制动管系漏泄原因分析及对策建议
金融委的意义在于为金融“正位”
论媒体监督在司法领域的“正位”回归
肩胛骨骨折的手术入路
肩胛骨骨折手术疗效分析