Development of surgical instrument recognition system based on improved YOLOv5
ZHU Junling, QU Fang, QIAN Bei, ZHANG Shoupeng*
Union Hospital, Tongji Medical College, Huazhong University of Science and Technology, Hubei 430022 China
*Corresponding Author ZHANG Shoupeng, E⁃mail: 2013xh0903@hust.edu.cn
Keywords surgical instruments;artificial intelligence;identification;category;positioning;object detection
摘要目的:基于改进型You Only Look Once V5(YOLOv5)人工智能开发手术器械识别系统。方法:收集常用外科手术器械10类,包括治疗碗、药杯、弯盘、针持器、血管钳、刀柄、组织拉钩、手术刀片、缝针、棉球。将收集的器械置于同一视野下,随机改变不同器械放置位置和状态,在不同拍照方位、布料背景、光线角度和强弱环境下拍摄照片806张。将拍摄的照片按照7∶3随机划分为人工智能训练组和验证组。采用精确度、召回率、平均精度、平均精度均值和F1得分值等参数比较原始YOLOv5模型和改进模型S⁃YOLOv5的算法识别性能。结果:与原始YOLOv5模型相比,改进模型S⁃YOLOv5表现出更高的识别性能,其精确率、召回率、平均精度和F1 得分值分别为0.978,0.973,0.926,0.975。改进模型S⁃YOLOv5对各手术器械的识别准确率均高于原始YOLOv5模型。结论:基于S⁃YOLOv5的人工智能辅助手术器械识别系统具有较好的分类能力和定位能力,为人工智能辅助手术器械清点提供了初步探索和思路。
关键词手术器械;人工智能;识别;分类;定位;目标检测
doi:10.12102/j.issn.1009-6493.2024.21.027
手术器械清点是外科手术和操作必不可少的环节,此项工作通常由器械护士和巡回护士配合完成。重复多次、精准无误的器械清点与核对是保证手术和外科操作顺利、安全完成的最基本前提。它在对巡回护士和器械护士提出高要求的同时,也显著增加了人力资源的投入。且在临床工作中,1名巡回护士有时需要管理多个手术间,这在一定程度上制约了手术效率。近年来,随着计算机与互联网技术的快速发展和普及,计算机辅助手术器械识别成为富有前景的潜在可行方案。目前主要存在2种形式的计算机辅助识别方式:1种是基于传统的机器学习(machine learning,ML)方式,另1种是基于卷积神经网络(convolutional neural networks,CNN)模型的深度学习方法(deep learning,DL)。有学者提出了基于机器视觉(computer vision,CV)的器械清点分类方法[1⁃2],该方法利用形态学骨架提取与像素滑动检索方法确定器械的数量与位置,并将数量与位置作为先验信息预先建立待测物搜索框,再结合模板匹配方法对器械进行分类。缺点主要是泛化性弱,一旦改变了器械种类或样式,就需要重新人工提取特征,依赖专业的知识和复杂的调参过程,而这正好是卷积神经网络的优势所在。新的基于深度学习的图像识别方法也正在研究中[3⁃4]。本研究基于计算机深度学习,提出了1种将Soft⁃NMS与You Only Look Once v5(YOLOv5)相结合的改进方案(S⁃YOLOv5),用于常见手术器械分类和定位。本研究初步探究了基于S⁃YOLOv5的人工智能辅助手术器械识别系统的分类和定位能力,为人工智能辅助手术器械清点提供了思路和技术支持。
1 YOLOv5算法介绍
YOLO算法的全称是“You only look once”,可以理解为只需要浏览1次就能准确识别出图中物体的类别和位置。它于2016年由Redmon等[5]提出,是最早的单阶段目标检测算法。它将目标检测任务看成回归问题,通过直接处理整张图片来预测边界框坐标、边界框包含物体的类别和所属类别的置信度[6]。经过多年的发展,YOLO算法已经更新至Ⅴ11版本。YOLOv5模型是Ultralytics 公司在YOLOv4的基础上进一步改进,于2020年6月9日公开发布。相比于YOLOv4,YOLOv5的速度与精度都得到了较大提升,已成为目前工业界使用的最普遍的检测算法之一。本研究所用的YOLOv5算法版本为6.1,它由3部分构成,整体结构见图1。第1部分为输入端,训练图片输入尺寸为640 像素×640像素;第2部分为主干网络,它使用CSPDarkNet53网络,从输入图像中提取丰富的信息特征;第3部分为检测层,该部分采用了多尺度进行检测,在特征金字塔网络结构(feature pyramid networks,FPN)后加入1种新的自下而上的路径聚集网络结构(path aggregation networks,PAN),实现了不同尺度特征信息的融合,之后再对生成的3个特征图进行预测。YOLOv5在开源数据集COCO(80类)中有良好预测效果,但是在迁移学习到外科手术器械分类识别任务上检测性能仍需要改进[7]。针对轻度重叠排列、轻度遮挡的器械等问题,有学者应用加速稳健特征算法(speeded up robust features,SURF)提取图像特征信息,采用KD⁃Tree搜索相似特征矢量,以实现堆叠手术器械的准确识别与定位[8]。本研究在YOLOv5的基础上进行初步改进优化,提出了1种适用于手术器械目标识别的算法模型S⁃YOLOv5。
2 S⁃YOLOv5算法的改进
YOLOv5默认处理算法为非极大值抑制(non⁃maximum suppression,NMS)[9],其步骤主要包括:1)将所有矩形框按照不同的类别标签分组,组内按照置信度高低得分进行排序;2)将步骤1)中得分最高的矩形框提取出来,遍历剩余矩形框,计算与当前得分最高的矩形框的交并比(intersection over union,IOU),将剩余矩形框中大于设定的交并比阈值的框删除;3)将步骤2)结果中剩余的矩形框重复步骤2)操作,直到处理完所有矩形框。其主要缺点包括:1)NMS算法是它将相邻检测框的分数均强制归零(即将重叠部分大于重叠阈值的检测框移除),在这种情况下,如果1个真实物体在重叠区域出现,则将导致对该物体的检测失败并降低算法的平均检测率;2)NMS的阈值不太容易确定,设置过小会出现误删,设置过高又容易增大误检。由于本研究中涉及一定程度的物品重叠问题,故采用Soft⁃NMS算法[10]进行改进。Soft⁃NMS在进行非极大值抑制的同时,兼顾考虑了得分和边框之间的重合程度,因此更适合本研究。
3 实验结果与分析
3.1 实验环境
本研究的处理器为Intel®CoreTM i7⁃8700 CPU@3.20 GHz,32 GB 运行内存,显卡为NVIDIA GEFORCE GTX 1070,操作系统为Windows 10,64位。整个实验基于深度学习框架Pytorch 1.10,实验环境是Python 3.8,GPU加速软件为CUDA10.0和CUDNN7.5.
3.2 试验数据集
由于目前尚没有公开的手术器械图片数据集,本研究选择性收集最常用到的10类手术器械,参照既往文献报告,数据集被命名为SID10[11]。通过数据增强(几何变换和光学变换)增加数据集中图片数量,另外通过扩增物品数量相对较少的类达到类间平衡。主要用到的拍照方法为:在同样焦距条件下,改变拍照方位、光线角度、强弱、布料背景、器械开合状态、器械正反放置状态以及不同物品的随机组合,以尽可能确保图像所包含的特征信息的丰富性和平衡性,本研究共收集806张图片。
使用开源软件LableImg进行人工打标签(YOLO格式)的方式英文标注10类物品,包括:治疗碗(bowl)、药杯(cup)、血管钳(forceps)、弯盘(kidney dish)、持针器(needle holder)、组织拉钩(retractor)、手术刀片(scalpel)、刀柄(scalpel handle)、缝针(suture needle)、棉球(tampon)。
3.3 评测指标
为了验证S⁃YOLOv5改进算法的性能,本研究主要使用指标为精确度(precision,P)、召回率(recall,R)、平均精度(average precision,AP)、平均精度(mean average precision,mAP)和F1得分值(F1 score)。具体计算公式如下所示:
精确度定义为真阳性率(TP)与真阳性率(TP)及假阳性率(FP)和之比,如式(1)。召回率定义为真阳性率(TP)与真阳性率(TP)及假阴性率(FN)和之比,如式(2)。mAP是对所有类别的平均精度(AP)求取均值后获得,如式(3)(4)。F1得分值是综合考虑精确度和召回率的调和值,如式(5)。mAP@0.5即将交并比IoU设为0.5时,每个类别下所有图片的平均AP。mAP@0.5:0.95表示在不同交并比阈值(0.50~0.95,步长0.05)时的平均mAP。
3.4 模型训练
本研究按照7∶3的比例将数据集随机划分实验组(579幅图片)和验证组(227幅图片)。输入图像尺度为1 280×1 280,批训练数据量为4,训练动量为0.937,初始学习率设为0.01,权重衰减为0.000 5,训练过程持续了300轮,采用随机梯度下降(stochastic gradient descent,SGD)作为优化函数对模型进行训练。本研究训练的模型分别是YOLOv5和改进模型S⁃YOLOv5,以对比两者的性能差异。
3.5 实验结果分析
使用改进后S⁃YOLOv5模型在数据集上进行实验。实验得到的P⁃R(precision⁃recall)曲线见图2,其横轴是召回率,纵轴是精确率。基于S⁃YOLOv5的各类别手术器械的F1曲线见图3,基于S⁃YOLOv5的各类别手术器械的混淆矩阵图见图4。由图2中的P⁃R曲线和图3中的F1曲线可知,曲线越靠近坐标(1,1)位置,算法的性能越好。由图4混淆矩阵图可知,除了缝针误检稍高,其他分类识别准确率都较好。
实验得到的算法性能结果见表1。由表1可知,改进S⁃YOLOv5算法的精准率、召回率、mAP@0.5:0.95和F1值分别为97.8%、97.3%、92.6%和97.5%。从表2可以看出,改进后算法的平均检测精度mAP@0.5:0.95有明显的提升。特别是对长条形的刀柄、尺度较小的手术刀片和缝针的平均检测精度提升较大,分别提升了3.9%、2.4%和2.4%。
3.6 检测结果
YOLOv5算法和改进S⁃YOLOv5算法上的检测效果差异见图5。从对比图中可以明显看出,原始YOLOv5 算法将血管钳检测错误,但改进S⁃YOLOv5算法将此器械检测正确且提高了检测的置信度。
4 讨论与展望
YOLOv5目标检测算法可以有效辅助临床护士完成外科手术器械的识别和计数,是值得深入探索的研究方向[12]。首先,YOLOv5的检测精准性高,在手术器械全流程跟踪管理中利用该技术可以准确识别出外科手术器械,从而提升器械核查的安全性;其次,YOLOv5准确识别外科手术器械可以有效提高手术或外科操作效率,缩短病人术前手术器械的核查时间,减少对巡回护士和洗手护士的依赖程度;此外,该技术还可优化手术室器械管理水平及运行机制,提升医疗管理质量。总之,YOLOv5在外科手术器械识别领域具有独特的优势,能够有效简化外科手术核查流程、提高手术效率和质量。同时,它也将成为人工智能辅助手术器械清点的潜在研究方向。尽管如此,YOLOv5在外科手术器械识别中也还存在许多不足,如识别高度重叠排列、高度遮挡、任意旋转角度、长条形状、目标极小的器械等情况尚不准确,未来可能需要更大样本的图片数据进行训练,同时,更多高效、低计算量的优秀算法模型有待开发[13]。因此,需要加强这方面的研究,开发出更高效、准确的改良模型以及更稳定、安全的识别系统,才能真正实现YOLOv5在外科手术器械识别中的应用和普及。此外,随着移动信息化技术的发展,目标检测技术结合个人掌上电脑(personal digital assistant,PDA)移动技术也将可能是未来手术器械质量追踪与数据清点实现信息化与智能化的重要发展方向[14]。
综上所述,本研究结合Soft⁃NMS算法对YOLOv5进行改进,并利用创建的常用手术器械数据集初步展示了基于S⁃YOLOv5的人工智能辅助手术器械识别系统的分类能力和定位能力,为人工智能辅助手术器械清点提供了初步探索和潜在思路。
参考文献:
[1] 汪睿,苗玉彬.基于改进模板匹配的外科手术器械清点方法[J].机电一体化,2022,28(4):51-57.
[2] 张志阳,宋成利,李良,等.基于模板匹配的医用内窥镜影像目标识别算法[J].软件导刊,2020,19(3):234-237.
[3] 张文凯.基于细粒度图像分类的外科手术器械识别研究[D].大连:大连理工大学,2021.
[4] 路宽.基于深度学习的手术器械图像检测方法研究[D].天津:天津理工大学,2021.
[5] REDMON J,DIVVALA S,GIRSHICK R,.You only look once:unified,real-time object detection; proceedings of the computer vision & pattern recognition[EB/OL].[2023-08-23].https://blog.csdn.net/qq_29598161/article/details/108166577.
[6] 刘振忠,周羿帆,王炎.一种基于图像的手术器械位置检测方法[EB/OL].[2023-08-14].https://d.wanfangdata.com.cn/patent/ChJQYXRlbnROZXdTMjAyMzA5MDESEENOMjAyMjExNjAxMDYxLjQaCG02NG1jY2tk.
[7] 王巍,白天宇.基于单目视觉的手术器械位姿估计模型研究[J].激光杂志,2023,44(1):32-41.
[8] 陈贤儿,梁丹,傅云龙,等.Harris与SURF特征点检测的手术器械机器视觉识别方法[J].传感器与微系统,2023,42(2):118-ZkGDPv5h4YyN4X2HEEKZOpUZc/fd81z9FlvdtF659Xs=121.
[9] ELSHAHAWY M,ELNEMR A,OPROESCU M,.Early melanoma detection based on a hybrid YOLOv5 and resnet technique[J].Diagnostics(Basel),2023,13(17):10.3390.
[10] BODLA N,SINGH B,CHELLAPPA R,.Soft-NMS-improving object detection with one line of code[EB/OL].[2023-08-23].https://blog.csdn.net/weixin_36670529/article/details/99886964.
[11] HOU Y,ZHANG W,LIU Q,.Adaptive kernel selection network with attention constraint for surgical instrument classification[J].Neural Comput Appl,2022,34(2):1577-1591.
[12] 黄鹏,王志浩,关思宇,等.一种基于Swin-transformer与YOLOV5模型集成的手术器械清点方法[EB/OL].[2023-10-08].https://d.wanfangdata.com.cn/patent/ChJQYXRlbnROZXdTMjAy MzA5MDESEENOMjAyMjExMjIwNDE1LjAaCHF4ZGJkNW4y.
[13] 李润浩.基于深度学习的骨科手术器械检测与识别[D].秦皇岛:燕山大学,2022.
[14] 余文静,高兴莲,肖瑶,等.基于PDA移动技术融合手术器械质量追踪与数据清点的实践[J].护理学报,2020,27(2):27-29.
(本文编辑崔晓芳)
基金项目湖北省自然科学基金计划项目,编号:2023AFB889
作者简介朱俊玲,主管护师,硕士研究生在读
通讯作者张守鹏,E⁃mail:2013xh0903@hust.edu.cn
引用信息朱俊玲,瞿芳,钱贝,等.基于改进YOLOv5的外科手术器械识别系统的开发[J].护理研究,2024,38(21):3923⁃3928.