基于自适应调整VGG16网络的高色差视频图像预测

2023-06-22 00:52岳洋
无线互联科技 2023年4期
关键词:深度学习分类

岳洋

摘要:为了提升高色差视频图像自动分类的精确度,文章采用开源的深度学习框架Pylorch,提出了一种基于深度学习的高色差图像分类方法.文章针对高色差图像分类提出一种调整后的VGG16网络模型( Ad_VGG16),该网络利用正负例样本均衡化和学习率自适应调整来优化过拟合和局部最小值问题,其次因高色差图像分类效果与输入图像大小有很大关系,则修改VGG16网络第一个全连接层以适应任意大小的输入图像,再采用交叉验证来提高网络的泛化能力。最终的实验数据表明,与VGGJ16和ResNet18网络相比,Ad VGG16网络具有更好的分类准确度,其最终的分类准确度达到92%。

关键词:深度学习:VGG16:ResNet18:高对比度:分类

中图分类号:TP183;TP391.9 文献标志码:A

0 引言

随着网络视频用户的不断扩大和视频监控系统的广泛应用,视频图像越来越多地用于表示和传递信息。但视频图像的质量会受到很多因素的影响,比如硬件环境、拍摄姿势、角度等,特别是由于曝光设置不当导致图像过于明亮或异常黑暗的现象:外部光的色温不同会导致捕获的图像与物体真实颜色之间存在偏差。这些失真因素会导致无法从视频图像中获取有用的信息,对于监控视频来说,严重的失真现象可能会导致产生无效的监控信息。因此,研究关于高色差视频图像的自动分类技术,可以对视频图像在采集、传输和处理3个阶段进行优化和监控。

视频高色差图像的分类方法有很多,主要分为主观分类和客观分类两大类[1]。到目前为止,许多客观的分类检测方法已经被提出。其次特征提取是视频图像质量检测、分类和质量评价的关键[2]。当前有人提出一些无参考的图像质量评价算法,这些算法先对失真图像识别,再對图像质量进行评估,如BRISQUE'3]和DIIVINE[4].BRISQUE模型被称为无参考/盲图像质量评价算法模型,它不计算失真特定的特征,如模糊、振环或阻塞。DIIVINE模型是基于这样一个假定:自然场景具有一些统计特性,这些特性在失真的情况下会发生变化,使其变得不自然:通过使用场景统计来描述这种不自然的特性可以识别出部分失真图像。

基于以上启发,本文通过设计白适应调整VGG16网络对视频高色差图像进行自动分类。在模型训练前会对高色差图像进行数据预处理。调整后的VCJCJ16网络采用交叉验证机制,通过验证损失和准确率来划分数据集和学习率。最终的实验数据表明,调整后的VGG16网络的分类结果优于ResNet18和VGG16等传统卷积神经网络。

1 算法模型

本文受VGG16网络经典结构的启发,对VGG16网络进行了一些调整,命名为Ad—VGG16。该网络保留了经典的VGGl6结构,首先为了适应输入图像的任意大小,将VGG16网络第一个全连接层改为全卷积层,同时也可达到提高模型训练和预测的准确性。其次,在网络中加入交叉验证机制和白适应步长调整机制,可以提高网络的泛化能力和加快网络的收敛速度。Ad—VGG16网络架构如图1所示。

Ad—VGG16网络主体结构由6个卷积层和2个全连接组成,分类结果利用softmax层输出。首先,由于模型训练的数据量较小,则引入交叉验证机制提高模型的训练精确度[5].该机制将1 200个数据集分成10部分,每部分作为一个验证集,最终错误率等于每部分错误率总和除以10。其次,引入学习率白适应调整机制可以防止模型训练时收敛过于缓慢的现象,该机制指4次迭代精确度不变时,学习率将降低为上一次的0.8倍。在模型结构上,将VCG16第一个全连接修改为全卷积层,可适配任何输入图像大小。

1.2 数据集

为了验证本方法的性能指标,实验采用的数据集来源于3个部分,第一部分是实际监控视频,第二部分是实际拍摄视频,第三部分是模拟标准图像库。模型训练前会利用Opencv技术将视频数据逐帧转换为图像,最终的训练数据集由600张高色差图像和600张普通图像组成。其中,数据集场景包括人、景观、建筑、动物等。表1给出每个场景类别对应的图像数量。

1.3 数据预处理

1.3.1 正负例样本均衡化

为了获得更好的网络分类精度,在数据预处理阶段加入正负例样本均衡[5]。正负例样本均衡化可增加样本图像的数据量,避免因样本图像分布不均匀而使得分类精度偏低。实验中的监控视频包括1 000段正常视频、500段异常亮视频和50段异常暗视频。由于样本分布不均匀,本文采用两个仿射变换,即旋转A,和缩放A。来实现视频的正负例样本均衡,详细执行过程如下。

当μ值在合理范围内时,认为样本数据分布相对均匀,算法的分类性能不受影响。

(2)当μ∈μ时,操作停止。否则,进行正负样本均衡化。

(3)随机取θ和s的值,重复步骤2,直到μ∈μ。

1.3.2 图像局部对比归一化

为了提高模型的泛化能力,引入了图像局部归一化机制。该机制可以避免神经元过度饱和,更大程度消除亮度和对比方差对模型的影响。在训练模型之前,对数据图像块进行局部比较和归一化处理,将图像(i,j)处的亮度值设置为m(i,j),局部对比归一化

1.3.3 评价指标

本文采用多个评价指标对Ad—VGG16网络的分类效果进行直观评价。其中,评价指标包含假阳性( FP)、真阳性(TP)、假阴性(FN)、真阴性(TN)。

这4个指标的详细说明如下:

TP:预测为阳性(P),实际上预测为正确(T),指判断为阳性的准确率。

TN:预测为负(N),实际预测为正确(T),指判断为负的准确率。

FP:预测是积极的(P),实际上预测是错误的(F),即判断消极为积极。

FN:预测是负的(N),实际上预测是错误的(F),即积极的判断称为负的。

选择Sensicivity,preclsion,Accuracy和F1评分作为评价指标。4个计算公式如下(4)一(7)所示。

2 实验数据

2.1 实验设置

本实验使用深度学习框架Pytorch。训练网络使用Intel lOx AMD EPYC 7402 24核处理器@2.80 CHz和NVIDIA A30显卡,16 G内存。采用CUDAII.1和CUDNN8.0.5进行模型加速训练。输入数据集按照比例9:1随机分为训练集和验证集,输入图像数据大小为512×512×3.优化器选择Adam,初始学习率为0. 000 1。

2. 2结果和讨论

本文选择ResNet18网络、VCC16网络的图像分类方法在相同实验环境下进行对照测试,其中.ResNet18和VGG16网络的输入图像数据尺寸设置为224x224x3。实验中所有数据都进行了预处理,即正负例均衡和局部归一化。通过迭代实验,验证数据集中不同模型的精确度和误差曲线如图2所示,最终评价指标数据如表2所示。

由图2看出.3种算法精确度在迭代过程中的波动均较大,但总体上Ad VGC16网络比其他两种网络的分类精确度更高,最終准确率达到91. 660。在分类误差方面.VGC;16网络在迭代过程中误差波动最大.ResNet18在第20次迭代后误差会出现一个持续变大再下降过程,Ad.VGG16分类误差处于较均匀下降阶段,迭代结束时Ad—VGG16分类误差达到0. 056 966.

从表2数据可知,Ad—VGG16网络在高色差图像分类中取得了较好效果。同时Ad—VGC16网络准确率为91. 66%,灵敏度为88. 89%.精度为94. 11%,F1评分为91. 42%。

3 结语

本文提出基于白适应调整VGG16网络的高色差视频图像预测方法,主要的研究意义如下:(1)解决了主观和客观进行高色差图像分类的缺陷,可高准确率进行高色差场景识别;(2)该方法对特征不需要主动提取,能够自动克服图像内容对高色差检测的影响,网络可自主学习图像特征使得模型可适配任意场景的高色差分类场景;(3)用实际视频监控、仿真图像库测试本网络的分类精确度,均取得了很好的分类效果,使得Ad—VGG16网络的分类精确度达到了92%.其次在灵敏度、精度和Fl评分方面均优于VGG16和ResNet18网络。

参考文献

[1]LI C, BOVIK A C, WU X.Blind image qualityassessment using a general regression neural network[J]. IEEE Transactions on Neural Networks. 2011(5):793-799。

[2]贾惠珍,孙权森,王同罕.结合感知特征和自然场景统计的无参考图像质量评价[J].中国图象图形学报,2014(6):859-867.

[3] MITTAL A, MOORTHY A K, BOVIK A C. No -Reference image quality assessment in the spatial domain[ J ] IEEE Transactions on Image Processing APublication of the IEEE Signal Processing Society , 2012( 12) :4695.

[4] MOORTHY , ANUSH, KRISHNA , et al. Blind imagequality assessment: from natural scene statistics toperceptual quality[J]. IEEE Transac.tions on ImageProcessing, 2011( 12): 3350-3364.

[5]邬美银,陈黎,田菁.基于卷积神经网络的视频图像失真检测及分类[J].计算机应用研究,2016( 9):2827-2830.

(编辑傅金睿)

猜你喜欢
深度学习分类
分类算一算
垃圾分类的困惑你有吗
分类讨论求坐标
数据分析中的分类讨论
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望