杨婷婷
(安徽文达信息工程学院 计算机工程学院,合肥 231201)
随着计算机芯片、数字图像等的发展,图像处理技术迎来了巨大的突破,在多个领域都有适合的应用[1].当今时代是科技碰撞的时代,人工智能集信息科技发展成果之大成[2],深刻地改变着人们的日常生活方式和思考问题的角度.深度学习作为人工智能的核心,以培养机器的学习能力为目的,在不断的应用实践中提升着机器解决复杂问题的能力.深度图像处理引擎设计正是从这一角度起步,探寻图像处理实时性与质量之间的联系,寻求克服现有图像处理引擎所存在的缺陷与弊端的方法,涉及生产生活中的许多方面,小到家庭电视机,大到监控图像传输,对于提高人们的生活质量具有重大意义.
大部分传统的图像处理算法在图像去噪上能达到好的效果,但它们的缺点也在长年累月的应用中被放大[3].一个图像处理算法在试验时的结构较为固定因此很难进行性能提升和优化,并且因为其固定性,对不同环境的自适应性较差,每到一处新环境就需要手动更改参数.而且,优良的传统算法牺牲的是其功能的全面性,一个固定的模型往往是针对一个固定的任务而设计的,所以难以应付真实情况下更为复杂多变的噪声,这些噪声称为真实噪声或盲噪声.传统的滤波算法在具有此类噪点的图像上表现通常不是很好.因此,滤除真实噪声就显得非常必要.滤除真实噪声的核心要义是在合理的时间范围内尽可能保证滤除噪声情况的真实性.为了保证这样的真实性,最有效且合理的办法就是让计算机去学习噪声分布的一般规律,就是去利用深度学习[3-4].
为了将深度学习更好地应用在图像处理引擎中,模型与神经网络的构建是核心部分[5],搭建好的模型在对海量的图片进行特征学习之后能够掌握图片噪声的大体分布规律,进而得到更加贴合实际的去噪方法,这就是深度学习(Deep Learning,DL)的基本工作原理.神经模型借助机器学习高速发展的东风,运算效能和学习能力得到爆发式的提升,在资源配置和应用能力方面更上一层楼,为建立和训练用于去噪和图像边缘检测的深度神经网络提供了技术基础.神经网络(ANN),是数学建模和计算机学习算法编程相结合的产物[6].通过特定的程序算法和数学思想进行一定层次的建模,可以给予图像处理引擎像人脑一样学习的能力,使其通过大规模的图像处理训练,利用学到的规律获取参数,不断优化内部结构,最终解决现实中的各种复杂问题.
在图像处理的去噪领域,图像的卷积是这个领域的核心算法,因为卷积本身就是图像处理过程的一种数学体现,图像滤波中所用到的一切比如窗口,滤波算法等,本质上也与卷积算法中的一些运算有关联之处,图像的卷积算法示意图如图1所示.
图1 图像的卷积算法示意图
基于卷积神经网络的边缘检测的实质是将边缘的提取过程视为边缘模式识别的过程,在算法实现上利用了神经网络所具有的自学习性、自组织性及自适应性,这些性质使神经网络用于边缘检测成为可能.相比之下,传统的图像边缘检测算子中的阈值只能人为地去估计和设置,定的太高或者太低都会极大地损害边缘提取结果的准确性.基于卷积神经网络的边缘检测不需要考虑这一点,只要给予足够的样本进行学习,就能获得足量的特征用于边缘检测.但问题也就在这里,机器学习的质量受样本的质量影响比较深,如果样本质量不好,那么学习的结果也不会好;另一方面,神经网络本身就是需要人为去设计的.边缘检测的主要步骤包括四个:滤波、增强、检测、定位.其中图像增强包括图像平滑和锐化,图像定位是边缘检测中最重要的一步,在深度学习中,图像定位的实现,本质就是在原有图像分类的基础上加以改进.在图像分类中,原本要输出的结果只是经过softmax函数得到的某类图像的概率值,然而在目标检测中,输出的结果除了有softmax函数值外,还会有一个是否检测到物体的标签.如果检测到了物体,就会用四个参数分别表示矩阵的左上角坐标的x,y值,及矩阵的长和宽.通过这样的一个矩阵将目标定位出来.目前图像定位大概分为基于灰度,基于特征,基于几何形状三种.
要想对图像进行便捷而高效的去噪和边缘提取,第一步是要建立神经网络模型,然后先对该模型在指定的数据集中进行多次的迭代训练,从而获得合适的权重参数.有了这些参数后模型才可以使用并在此基础上做出正确的操作.卷积算法是模型进行图像滤波和边缘提取的核心.在操作完成后,图片处理的质量高低取决图像处理程序算法的各项参数选取是否合适.因此,模型的事先训练在整个实验过程中处于最为紧要且核心的位置.软件基本设计思路如图2所示.
图2 软件基本设计思路
2.2.1 模型构建
深度学习的构建通常分为四步.(1)定义架构:构建深度神经模型的首要任务就是确立任务目标和网络架构,根据任务需求选定合适的网络体系结构.这里是要对图像进行先滤波再检测边缘的操作,所以选择卷积神经网络(CNNs).除此之外,还可以决定整个深度学习架构的模型结构的类型.(2)编译模型:完成架构定义后,继续进行模型构建的第二步——编译模型.这里采用的是TensorFlow深度学习框架,使用函数进行编译.(3)拟合模型:在模型的基础框架被确立之后,下面就是拟合模型以使其可在固定数的周期(或数据集的迭代)内训练模型.(4)评估和预测:评估和预测是对已训练模型进行功能判断和效果预估的重要一步.其主要方法是确保模型的预处理步骤.刚开始时,将分割测试数据的预测也考虑在内以证明这个模型在处理特定问题上是有效果的.
2.2.2 迭代训练
模型迭代训练的要点是首先对权重和偏差进行初始配置,赋予模型一组初始值,然后让模型以这组初始值为起点不断运行,并由运行所获得的结果提取对应参数再返回模型中.如此循环往复,不断更换着由初始值变换而来的参数和优化着自身架构,直到获取能产生最多理想结果的权重参数和损失系数为止.神经网络模型的迭代训练就是这么一个收敛的过程,因此,模型初始参数的设置显得尤为重要,如果设置不当,极有可能导致模型训练时间指数级延长或模型发散,模型迭代训练的基本原理如图3所示.
图3 模型迭代训练的基本原理
本文的图像增强引擎包含去噪、图像边缘提取两种功能,评价增强后的图像需要用衡量指标来评定.图像质量的评价从方法上分为主观评价和客观评价.本次实验使用的是客观评价方法的三个重要指标,它们是峰值信噪比(PSNR,Peak Signal to Noise Rate)、均方误差(MSE,Mean Squared Error)以及结构相似性(SSIM,Structural Similarity).其中峰值信噪比如式(1)所示:
(1)
其中:MAX的平方为原始图像的最大像素值,一般针对uint8图像,最大像素值为255.均方误差假设原始图像I大小为M × N的以及经过处理的图像K,则均方误差如式(2)所示:
(2)
均方误差所衡量的是原始图像和处理后图像像素差的均方值,再通过均方值的大小确定两个图像的差异.MSE越大,两者差异越大;MSE越小,两者差异越小.最后一种标准是结构相似性,是基于两个图像三个指标来进行比较的,指标包括亮度、对比度和结构.这些指标和SSIM如式(3)—式(6)所示:
(3)
(4)
(5)
SSIM(x,y)=[l(x,y)αc(x,y)βs(x,y)γ]
(6)
计算时要用到x,y的均值、方差和协方差,并且每次计算时都会从图片上取一个N×N的窗口,然后不断滑动窗口计算,最后取均值作为全图的SSIM.
在深度学习中,进行模型的迭代训练之前,为了获得更多数据对,需要先对既定的图像数据进行预处理操作.具体操作包括图像二值化,压缩,旋转;取反,加入高斯噪声.目的是为了获取更多训练值.
为了验证模型的训练成效及其在图像去噪和边缘检测方面的适用性,随机在数据集中选取了两张不同的图片,分别对其进行图像滤波和边缘提取,运行结果分别如图4和图5所示:
图4 去噪模型运行结果
图5 边缘检测模型运行结果
由图4可以看出,该神经网络在图像去噪方面效果很好.噪点有明显的减少,并且可以看到图像正尝试针对损坏的像素以适应图像原始颜色.最终的PSNR得分为30.605 8,SSIM得分为0.819 2.
通过传统边缘检测算子与本文的基于深度学习边缘检测相结合的方法,在加入一定噪声情况下的卷积神经网络,通过实验验证,边缘检测效果明显比传统经典算子更优秀,不仅可以滤除图像中的干扰噪声,并且检测出的图像细节基本得以保留完整.在实际应用中可以针对不同的环境条件和检测要求对图像进行边缘检测,以求达到最好的检测效果.
图像处理技术在日常生活中的重要性已不言而喻.基于深度学习的图像去噪方法更关注真实图像的去噪,对实际应用环境的适应性更强.如何在获取更加高效和便捷滤波去噪方法的同时尽可能保留图像的原始特征,是去噪模型需要不断自我完善以达到的目标.
边缘检测则是在提高检测效率的同时追求的鲁棒性的提高.当真正想检测出复杂图像的边缘时,不一定要去采用绝对固定的算子模板,无论是程序编写还是模型训练,思想一定都不能固化,将固定值转化为可变的参数以去适应不同环境不失为一种很好的解决问题切入角度,在不同的环境中提取共性能够帮助提高图像处理实时性.正是卷积计算使深度模型具备了提取特征的能力.将这矩阵中数字当成参数的思想,已经成为计算机视觉中最有效的思想之一.