基于改进YOLOv3 的数字识别方法

2020-09-23 02:52陈悦哲孔令云王许鹏
科学技术创新 2020年28期
关键词:网络结构尺度准确率

陈悦哲 孔令云 李 杰 张 仪 王许鹏

(西京学院,陕西 西安710123)

1 概述

数字在数学、金融、大数据、教育等各个行业都是加快发展历程的关键。由于信息时代的迅速发展,致使数字信息的长度和维度都大大增加,如何快速准确的识别出数字内容就尤为重要。

2016 年3 月份,自从Google 的围棋人工智能程序AlphaGo以4 比1 的大比分,战胜人类选手李世石以来,深度神经网络就迅速发展起来,发展出了一系列的手写数字识别的算法,例如R-CNN[1],Fast R-CNN[2],Faster R-CNN[3],和Mask RCNN[4]。这些算法的准确率虽然可以满足基本的识别需求,但是实时性不佳。

本实验介绍基于改进YOLOv3[5]的手写数字识别技术,该方法对数字的识别有较高的准确率和较快的预测速度。

2 数据准备与预处理

数据质量的高低与模型训练的好坏有着直接的联系,因此本实验对原生的MNIST 数据集进行了改进和数据增强。

2.1 数据准备

本实验将单一数字为样本的MNIST 数据集进行拼随机拼接处理,提高模型在同一个样本内识别多个数字的能力。

2.2 数据预处理

在数据预处理部分,主要有两个核心任务。

第一,避免分散模型对数字识别的注意力。因为在数字识别的过程中,并不需要对数字的色彩和灰色度进行识别,去除一些非必要信息,所以将对样本进行二值化。

第二,解决样本数量问题。训练YOLOv3 的模型需要大量的样本,否则极易过拟合,使模型缺失泛化能力。在基础样本数量确定后,本实验采取的数据增强技术有:随机移动、随机裁剪、随机反转。处理后的数据如图1。

图1 数据样本

3 YOLOv3 的改进

3.1 多尺度特征的改进

YOLOv3 相较于YOLOv2 的一个重大改进就是采用的多尺度特征的方法代替YOLOv2 采用的passthrough 层,这种多尺度特征的方法对于检测细粒度特征有着优异的效果,三种特征尺度分别为13*13、26*26 和56*56。

但是在日常的数字识别项目中,每个数字一般只占据页面的一小部分,过多的进行大尺度特征描述是徒劳的,同时为了避免特殊情况,将设定一个阈值为0.7 来触发是否进行大尺度特征描述,计算公式如下:

特征图由大到小对应的先验框分别为(116*90),(156*198),(373*326);(30*61)(62*45)(59*119);(10*13)(16*30)(33*23)。

3.2 DarkNet-53 的改进

YOLOv3 具有对80 类甚至上百类的目标进行识别,由于数字识别的范围是在0~9 的10 分类问题,YOLOv3 过于厚重的网络模型会造成资源浪费和实时速度。虽然DarkNet-53 采用残差网络结构使得网络的训练难度得到降低,并使用了大量的1×1 卷积核与使用3×3 大小步长为2 的卷积核替代最大池化减少网络总体的参数数量,但是还是没有解决训练复杂和识别速度慢的问题。

为了精进这一点,在保证准确率的基础上,本实验提出了改进版的DarkNet-53 特殊提取器IDN,改进YOLOv3 网络结构如图2 所示。

图2 改进YOLOv3 网络结构

4 模型训练与结果分析

本实验主要任务是两个部分:

第一个部分,通过实验评估YOLOv3 模型与改进后的YOLOv3 模型的准确率。

第二个部分,在预测阶段对比模型的响应速度。

4.1 损失函数

Loss 主要分为三大部分:边界框坐标损失,分类损失和置信度损失。使用误差平方损失函数分别计算(x,y,w,h)的Loss 时,为了弱化边界框尺寸对损失值的影响,增加1 个与物体框大小有关的权重。

整个模型的Loss 如下:

其中,λobj表示置信度,判断网格内有无物体。

4.2 评价指标

本实验在准确率P(Precision)、召回率R(Recall)的基础上,选取mAP 作为评价指标,计算公式如下:

训练25 个epoch 的实验结果如表1。

表1 实验结果比对

改进YOLOv3 与原始YOLOv3 的mAP 差距并不大,甚至可以忽略,但是在实时性上有一定的提升。

5 结论

本实验对MNIST 数据集进行随机拼接并使用多种数据增强方法,加强数据的多样性,并且对DarkNet-53 网络结构和YOLOv3 的多尺度识别进行改进,提出了数字的识别方法。最后实验采用mAP 方法进行性能评估。实验结果表明, 本实验提出的数字识别方法相对YOLOv3 方法的mAP 差距不大,但是在预测速度上有一定的提升。

猜你喜欢
网络结构尺度准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
快递网络结构研究进展
财产的五大尺度和五重应对
基于AutoML的保护区物种识别①
宇宙的尺度
基于时效网络的空间信息网络结构脆弱性分析方法研究
基于互信息的贝叶斯网络结构学习