基于YOLOv3目标检测技术的改进研究

2021-08-31 02:24:20李丽娟李念琪

中国新技术新产品 2021年11期

李丽娟李超李念琪

（1.成都九洲电子信息系统股份有限公司，四川成都 610041；2.上海电力大学，上海 200090；3.复旦大学，上海 200433）

0 引言

静脉输注是患者接受治疗的主要手段之一，为了提高输液成品质量，促进合理用药，保证患者用药的安全性，通常由医院静脉用药调配中心（以下简称“静配中心”）统一负责全院患者静脉输液药品的调配。在静配中心，由于不同病患有不同的输液药品，因此要求医护人员在配置输液药品前，必须认真核查药品清单以保证配药的正确性，现阶段主要通过人工手动“三查七对”来保证配药的正确性[1]。由于输液配药的工作量极大，人工核对不仅会占用大量的护理资源、降低护理质量，而且也会使医护人员容易出现操作疲劳，在病员拥挤的情况下配药出错，造成医疗纠纷[2]。

为了规范医护人员配药的操作流程，降低药品配置的出错率，提高配药工作质量，静配中心通常使用视频监控的方式，对医护人员配药操作全过程进行记录以备事后查询，但是该方法不能满足对配药操作进行实时监测、智能核对和及时报警等需求。该文提出了一种基于视频图像目标检测的药品外观识别方法，通过使用图像处理与神经网络技术实现对药品品类的检测与识别，并自动与处方/医嘱进行核对，以达到辅助医护人员准确配置药品的目的。

1 基于改进YOLOv3的药品外观识别与检测模型

当前基于深度学习的主流图像目标检测算法分为2 类[3]：1）基于区域的目标检测算法。例如Faster R-CNN、Mask R-CNN等双阶段目标检测模型。2）将检测问题变为回归问题的SSD、YOLO 等单阶段目标检测模型。双阶段目标检测模型需要先提取图像的候选区域，再基于候选区域做二次修正得到分类和位置坐标，其监测精度较高，但检测速度较慢；而单阶段目标检测模型仅需要一个网络即可同时产生候选区域并预测出物体的类别和位置坐标，其特点是提高了检测速率，但目标定位的准确率略差于双阶段目标检测模型。

YOLOv3 是采用单阶段结构的目标检测模型，使用单个神经网络结构，与之前的YOLO 版本相比，YOLOv3 通过调整特征提取网络、利用多尺度特征进行对象检测以及使用逻辑回归预测每个边界框并进行多标签分类等算法优化，提升了平均精确度（mAP）及小物体的检测效果。如果采用COCO AP50做评估指标，那么YOLO3 的表现相当惊人，在精确度相当的情况下，YOLOv3 的检测速度是其他模型的3～4 倍。综合考虑静配中心工作流程及实时检测需求，该文在针对静配中心输液药品配置检测中选用了基于YOLOv3 的目标检测模型。

该文在YOLOv3 网络架构中改进了YOLOv3 模型中的先验框部分，对先验框进行提取特征，在先验框前对特征图进行预估算，对特征图采取高斯建模，判断特征图是否达到自适应阈值，该阈值为超参数，随训练轮数进行调整，在卷积层中采用一个N维列向量对输出的卷积层进行判断，经过迭代调整出一个合适的阈值。该文改进的部分可以加快药品检测的速度，对不同类型的药品进行检测时有较好的识别效果。

1.1 数据的采集与处理

在实际的静脉注射中心的药品配置环境中，存在药品摆放、环境中光源干扰以及拍摄角度的问题，该文的数据集采用在排除干扰的环境中采集的一批数据如图1（a）、图1（b）所示，同时针对实际作业环境下的药品采集的另一批数据如图1（c）所示。

图1 采集的药品样品

采集到数据集后，使用图像数据标注工具对数据进行分类标注，该文采集的药品种类包括静脉注射药品中常见的注射袋、水针剂以及粉针剂。针对不同种类的药品进行单独标注，针对同种药品的不同规格的药品设计2 种标注方式：1）针对药品仅标注名称，按照名称进行识别，例如：200 mL 葡萄糖注射液、100 mL 葡萄糖注射液统一标注为葡萄糖注射液。2）将不同规格的药品分开标注，例如将200 mL 葡萄糖注射液、100 mL 葡萄糖注射液标注成2 个不同的类别，以便进行精细识别。

1.2 检测模型改进

该文采用基于YOLOv3 的目标检测模型对药品进行检测，在所检测的药品中，存在4 种较为明显的种类划分，即袋状注射液、盒状药品、圆柱形粉针剂和透明玻璃瓶形的水针剂。实际环境下检测的药品存在注射袋液体大多透明、现场作业环境中存在大量反光以及同类型药品形状相似的问题，因此，通过药品标签信息无法高效地获取文本文字，使用辅助方法处理会增加检测任务的复杂度，图像拼接[4]手段也无法有效应用到实际的工作环境中。该文在实验中发现，直接采用目标检模模型训练数据，会因为部分药品相似度太高而出现识别精确度低于该模型在通用数据集平均精确度的问题，同时也存在召回率较低、模型稳定性较差的问题。

该文使用改进版YOLOv3 目标检测模型对药品进行检测，提取模型先验框的特征，在先验框前对特征图进行预估算，对特征图采取高斯建模，判断特征图是否达到自适应阈值，该阈值对超参数随训练轮数进行调整。在骨干网的输出卷积层中采用一个列向量对输出的卷积层进行判断，LT用来表示阈值损失（如公式（1）所示），经过迭代调整出一个合适的阈值。YOLOv3 将图片划分成若干个网格，每个网格负责一块区域的检测，该文对局部网格的平均值与阈值进行比较，大于阈值的先验框继续进行检测；其次是在先验框中选定预测框后设置搜索算法，并分析区域内的特征是否存在连续，针对体积较小的注射液的检测，在先验框中可能有多个区域存在粉针剂、水针剂这种小物体的特征，因此再将选中的先验框划分为若干小预测框进行预测。对若干个较小预测框进行筛选后，在预测框中找到较大的特征值，在较大的特征值中选择位置坐标最大值Xmax、Ymax和最小值Xmin、Ymin，重新调整目标框为仅包含特征最大的几个值的新目标框，再进行后序流程。

式中：LT为阈值损失；i为若干小预测框；Rd为先验框；xi*、yi*为先验框的若干位置预测。

该文所使用的YOLOv3 采用ResNet 网络作为模型的骨干网，ResNet 增加了直连通道缓解网络深度会导致出现退化的问题。为了提高识别的精度，使用了101 层的ResNet 来进行模型训练。

2 实验分析

该文药品检测模型的评价指标为平均精确率AP，对损失函数采用批量梯度下降的方法，优化深度学习模型的权重参数，最大程度地降低分类的错误率。训练过程中各项超参数配置如下：权值初始化采用正态随机初始化方法，根据训练所使用GPU 的性能和内存容量，选取批大小为16；学习率采用动态学习率。训练完成后，使用独立的测试集损失函数进行误差评估。

2.1 实验流程

该文提出在YOLOv3 的基础上结合图像增强、迁移学习进行药品检测，该文使用的药品检测流程框架如图2 所示。

图2 药品检测流程框架图

该文使用的数据集为在不同环境背景、不同拍摄角度以及不同摆放情况下静脉注射药品的多种类型图像，共计3 637 张；使用pytorch 深度学习框架编写代码，基于detectron2 框架搭建目标检测模型。

2.2 模型训练方式与参数设定

实验过程中使用Ubuntu 16.04 系统和NVIDIA Tesla V100显卡训练YOLOv3 药品检测模型。

该文模型采用迁移学习方式，其过程涉及2 个阶段：1）进行模型预训练。使用COCO2017 数据集训练目标检测模型。小批量梯度下降法迭代40 000 次，学习率为0.001，动量设置为0.9，权重衰减率0.0001，批量大小Batchsize为16（Batchsize即一次训练选取的样本数）。2）进行数据集训练。经过预训练后，使用药品数据集训练目标检测模型，小批量梯度下降法迭代80 000 次，学习率大小为0.001，动量设置为0.9，权重衰减率为0.0001，Batchsize为16。

2.3 药品检测实验结果分析

经过训练后，该文设计的模型在测试集上的训练效果如图3 所示。

图3 YOLOv3 模型检测药品效果图

该文在对药品外观进行检测时，使用以YOLOv3 为基础的目标检测模型进行检测识别，该文对采集的数据集进行测试时发现，当使用的每种药品只有一种规格时，其平均精度可以达到93.84%，但是采用每种药品按照名称和不同规格详细划分出多种标签的方法，其平均识别精度降低到了73.67%，低于YOLOv3 在COCO 数据集上的平均识别精度。该实验所采集的药品图像是包含了多种不同类型的药品（例如水针剂、粉针剂和注射液），实验发现该文改进的模型对具备明显特征的药品具有良好的识别能力，同时在分析实验结果中发现，由于同种药品不同规格的标注标签不同，导致召回率高于使用每种药品仅有一个的数据集的情况，即外观相似度过高的药品会对模型的识别能力产生较大的干扰，而具备相同外观的不同规格的药品会严重干扰模型的识别精度。由于无法有效分辨图像中药品的实际大小，因此该文改进的模型对不同规格的药品的识别能力略显不足。

该文所选用的目标检测模型对不同类型的药品具备良好的识别能力，可以方便快速地部署在生成环境中。在实际工作中，由于YOLOv3 相比于其他模型，其轻量级的结构使参数远远少于二阶段目标检测模型，因此能够做到在生成环境中快速检测出目标，降低延迟，提高了实际运行效率。

3 结论

药物在临床诊疗中具有重要地位，正确合理用药是保证疗效的基本前提，在严格遵守静配中心操作流程的同时，也可以采用相应技术手段进行辅助确认。该文对静配中心中的药品配置环节进行实时监测，能够辅助医疗人员进行药品核对，降低因操作疲劳出现配药差错的概率。该文使用YOLOv3模型能够精确识别药品品类，可以实现在生产环境下高效快速识别药品类别的目标，能够做到近似实时辅助监测药品配置，可以高效地辅助作业人员对药品进行核对。该文使用的模型在同种药品不同规格的识别区分检测上存在一定的不足，在后续的研究中，会围绕该文采用的目标检测方法额外添加文本识别技术，采用药品标签文本识别和目标检测结合的方式识别出药品的具体种类和具体规格，实现对多种同类异类药品标签的快速检测。