封 顺
吉林警察学院 教务处,吉林 长春 130117
随着社会的发展和以大数据、云计算、图像处理、视频技术、数据挖掘、知识管理等新一代信息技术为支撑的智慧警务不断建设[1],视听资料以其客观稳定、信息丰富、信息拓展性强等特点在警务工作中应用极为广泛。由于高分辨率图像包含较多的几何结构和细节纹理信息,公安工作对图像分辨率和图像质量要求也不断提高。但在很多复杂的现实场景下,现有设备或技术所获得的影像或图像往往受到环境、成像机理、视频场景[2]等因素影响发生降质,造成分辨率低、画面视觉质量低下,缺少必要的细节纹理信息,致使观察者辨识能力降低,直接影响图像的视觉感官效果。例如,在多数刑事侦查和治安案件中获取图像资料多为案后采集,往往因摄录设备的安装角度不合理、维护与管理不完善、设备性能和存储压缩限制、特殊或恶劣环境等因素导致画面模糊不清、变形等问题,影响对犯罪嫌疑人体貌特征和作案工具的判断,获取的图像资料难以进行比对、识别和认定,给公安机关的巡逻、侦查、检验鉴定等工作带来极大困难。
近年来,利用单幅图像超分辨率重建(Single Image Super-resolution Reconstruction,简称SISR)技术对低分辨率、低质量图像进行增强以获取对应高分辨率图像的方法,引起了学术界和工业界的广泛关注,由于其性能优越且具有较高的实用价值,逐步被引入警务工作中。SISR 技术克服了硬件设备、软件系统、拍摄环境的局限性,可对公安实战中获取的低分辨率图像资料进行增强处理,增加高频细节纹理,提高人脸识别、数据检索的准确率和识别率,提升医学影像的视觉质量,为公安工作提供高效、实用的技术处理手段,也为法庭科学中司法鉴定提供可靠的参考,在刑事侦查、人脸识别比对、公安图像数据检索、法医学影像、司法鉴定等警务工作[3]中具有广泛的应用和研究前景。邵雷等[4]将人脸识别比对技术应用于视频侦查中,图像增强技术使视频中人像质量得到改善,提高人脸识别率,在人像识别比对中发挥着至关重要的作用。侯欣雨等[5]将SISR 技术应用于人像比对中,虽然在个例人像中取得了很好的提升效果,但整体不具有普适性,且对低质量人像重建效果不佳。徐敏敏等[6]通过脉冲耦合神经网络公安图像增强方法解决低照度图像亮度低、对比度小和像素质量差的问题,实现保持图像细节信息和增强图像明暗对比度的双重效果。高飞等[7]使用Enlighten-GAN 网络对指纹进行超分辨率重建,利用包括启发块的各种方法来指导生成特征图,自监督分层感知损失来优化生成模型,在NIST 指纹图像数据集上取得了很好效果。田煜等[8]使用改进FSRCNN 卷积神经网络对模糊车牌图像进行超分辨率重建,不仅缩减了训练时间,图像质量在主观和客观方面都有所改善。
总结和思考前人的研究和应用可发现两个问题:一是SISR 技术在公安实战和法庭科学中是否具有实际应用价值;二是在日常工作中采集图像情况极其复杂多样,不同条件下生成图像对重建效果的影响。针对这两个问题,本文从公安实战和法庭科学司法鉴定的角度出发,以案件中积累的图像数据为基础,应用多种基于深度学习的SISR 技术进行图像增强,探讨其在公安实战和法庭科学中应用可行性,并分析不同条件对重建效果的影响,研究SISR技术在警务工作中的实际应用价值和局限性,为公安实战应用提供参考,为法庭科学领域的研究提供借鉴。
图像超分辨率重建旨在从低分辨率图像(Low Resolution,简称LR)重建出细节清晰、自然的高分辨率图像(High Resolution,简称HR)[9],增强后的高分辨率图像具有高像素密度和低分辨率图像中缺失的细节信息。重构模型定义见公式(1):
式中:Il是低分辨率图像,Îh是重构后的高分辨率图像,F(·)是图像超分辨率重建模型,θ是重建模型的各项参数。
为使重构后图像更接近真实图像Ig,通常将Îh和Ig之间的损失函数进行迭代优化,使二者差距尽量小,优化目标函数见公式(2):
式中:Lθ(·)是损失函数项,可以是L1损失(平均绝对误差)、L2损失(均方误差)、内容损失、感知损失或多种损失函数组合等;φ(θ)是正则化约束项。
为提高图像分辨率和质量,早期研究者提出了各种SISR 算法,其中:传统差值算法和图像滤波算法过于简单,预测图像纹理细节处存在局限性,产生过于平滑图像;基于稀疏编码算法过度依赖训练数据,注重学习和优化词典重构有效映射函数,很难直接扩展到高维数据;基于正则化约束算法需要很多先验知识并且模型复杂度高,运行效率低[10]。近年来,随着深度学习技术的不断发展,基于深度学习实现快速有效SISR 的研究热潮迅速兴起。SRCNN 是一种浅层卷积神经网络结构[11],首次将深度学习技术应用到SISR 中,实现低分辨率到高分辨率图像之间端到端的映射,相比传统方法,取得了显著的效果。自此之后,基于深度学习的SISR 不断探索和发展,在原有基础网络(卷积神经网络CNN、生成对抗网络GANs)中融入新的网络结构。图1 为基于深度学习的SISR 技术网络结构基本流程图,表1 为基于深度学习的超分辨率重建算法深层次网络结构的类型、相关作用和对应网络结构的代表性算法。
图1 基于深度学习的超分辨率重建技术网络结构基本流程图
由于本文研究重点是SISR 技术在警务工作中的应用进展,因此,接下来对本文使用的SISR 技术和生成图像后的质量评价方法进行简要概述。
主要采用基于深度学习的图像超分辨率重建算法,实验中使用ESRGAN 和BSRGAN 处理真实低分辨率图像。
SRGAN 算法[12]首次将生成器网络与判别器网络对抗训练应用到超分辨率图像重建当中,并提出一种新的图像质量评价指标来反映测试对象和真实HR 图像的相似程度。ESRGAN 从三方面对SRGAN进行改进[13],可获得更真实、自然的纹理和更好的视觉质量。首先,使用没有批量归一化的残差密集块(Residual-in-Residual Dense Block,简称RRDB)来代替SRGAN 中的残差块(Residual Block,简称Resblock),增加残差缩放(residual scaling),增强深度网络训练稳定性和网络容量;其次,改进SRGAN的对抗损失,让生成图像和真实图像之间距离保持尽可能大,以此来指导判别器预测相对真实度而不是绝对值,有助于生成器重构更真实的纹理细节;最后,使用VGG 网络激活前的特征图计算感知损失,从而重构更精确的亮度和更清晰的边缘纹理。
BSRGAN 提出基于实际应用图像退化的广义盲图像超分模型[14],对模糊、下采样以及噪声退化方式采取随机洗牌策略生成LR 图像,解决图像超分的预假设退化模型与真实图像的退化方式存在偏差,模型重建后难以取得良好效果的问题。该算法提出一种针对SISR 的广义退化模型,考虑更为复杂的退化空间,尽量模拟真实世界图像退化过程,将退化模型合成LR 图像与真实HR 图像进行配对,以端到端监督方式训练一个基于新退化模型的深度ESRGAN 盲超分模型。模型在不同类型真实退化数据上取得了非常好的效果,可显著提升深度SISR 模型的实用性和泛化能力,为超分辨率重建实际应用提供了一种有效解决方案。
上述方法使用目前国际上一些专用于SISR 的公共标准数据集进行模型训练和测试,基于深度学习SISR常用的数据集见表2。
表2 基于深度学习的SISR常用数据集
图像质量评价(Image Quality Assessment,简称IQA)的方式主要分为人眼视觉系统感知方面的主观评价和实验数值计算方面的客观评价[15]。客观方法通过一定指标衡量原始图像与重建图像之间的相似度,采用量化值代替人类视觉系统认知图像质量优劣,常见的评价方式有峰值信噪比、结构相似性、平均绝对误差和均方根误差等。主观评价是观察者通过人眼运用掌握的知识观察重建的高分辨率图像,在色彩、清晰度、高频纹理、质感和边缘细节等方面对HR 图像进行综合评价。常见的评价方式有平均意见评分(MOS)[12],观察者对原始图像和待评估图像进行综合评估,然后对所有主观得分求和取平均值。由于客观评价标准主要是追求像素级平均问题而产生过于平滑的结果,主观评价主要面向视觉感知方面,可以准确测量图像感知质量,更符合人类视觉需求和公安实战应用,是测量感知质量最可靠的评价方法,因此,本文主要采用主观平均意见评分评价法。
为探索SISR 技术在公安实战和法庭科学中应用可行性和应用进展,并分析不同条件对重建效果的影响,本文采用被广泛应用于工业界的ESRGAN网络和BSRGAN 网络,分别从不同自然环境下的指纹、人像、车牌、自然景物等角度进行分析。
本实验中采用的测试样本数据是从相关案件中获取的具有代表性的图像,共120 组,每组图像包含原始低质量图像、使用ESRGAN 和BSRGAN 对原始图像进行超分辨率重建得到的高分辨率图像。实验数据按照原始图像类别分为4类,包括车牌类30组、指纹类30 组、人像类30 组、自然场景类30 组。全部图像都为彩色RGB 色彩模式,每类图像根据光照强度、摄录角度、采集客体、场景复杂度、摄像距离等因素再进行分类,高度复现警务实战应用中多复杂场景获取真实线索类和证据类情形。
全部实验图像数据从自然场景下获取,受自然环境、拍摄角度和距离、硬件设施、运动模糊、离焦模糊、场景复杂度等因素影响,导致图像视觉质量相对较差。其中:车牌数据30 组均为从原始视频录像或图像中截取的130×32 像素车牌图像,受视距、拍摄角度、光照、硬件设备等条件影响,分辨率低、质量相对较差;指纹数据30 组为在客体表面粗糙或纺织物背景下获取的275×400 像素图像,因客体不同、提取技术、指纹模糊不全等因素影响,指纹比对工作和法庭科学司法鉴定受到一定影响;人像数据30 组为视频监控中截取的640×640 像素图像,因摄像距离、倾斜角度、光照强度等因素影响,视觉效果很差,难以进行人像辨别和比对;自然场景数据30 组为视频监控中截取的低质量图像,根据场景复杂性分为室内场景、室外场景和视频车辆,因硬件设施、光照强度、摄像距离等因素致使自然场景中细节难以辨识。
首先,对ESRGAN 和BSRGAN 模型进行复现、训练和测试,得到最佳模型参数,其中ESRGAN 使用数据集DIV2K 进行训练,使用Set5、Set14 和BSDS100进行测试,BSRGAN是在DIV2K、Flickr2K、WED以及源自FFHQ 的2 000 张人脸图像基础上,根据自设退化模型和随机洗牌策略进行训练和测试。然后,使用训练好的模型对采集的指纹、人像、车牌、自然景物的每张低质量图像进行超分辨率重建,重建比例因子为×4,得到ESRGAN 和BSRGAN 重建结果,图2为重建结果示例图。
图2 使用ESRGAN和BSRGAN对原始低质量图像(LQ)的处理结果
为得到相对客观和准确的评价结果,采用平均意见评分评价方法,邀请专业人员和未接受过训练的普通人对全部120 组处理结果进行评价。要求评分者通过色彩、清晰度、噪音、纹理细节、质感等视觉感知质量标准对比低质量图像和重建后图像,进行综合评价并分配感知质量分数(感知质量分数及其含义见表3),最后对每组所有评分求算数平均值。
表3 感知质量分数及其含义
对于车牌的超分辨率重建,主要使用视频中截图所得的30 组130×32 像素图像,将图像与ESRGAN和BSRGAN 重建后图像进行比较。为验证多场景应用的可行性,在实验中分别选取低质量图像10 张、光线条件较差环境下10 张、较大倾斜角度5 张和质量较好5 张车牌图像,图3 为其中一些代表性结果。邀请146 名专业人员和100 名未接受过训练的普通受访者从视觉感知质量角度对不同组中车牌处理结果进行客观评价,结果如图4所示。
图4 车牌平均意见评分评价结果
从图3 可以看出,这两种方法都提升了低质量图像的清晰度和细节,其中BSRGAN 整体效果优于ESRGAN,可以产生清晰、自然的纹理和锐利边缘。较好质量的图像重建结果表现稳定,较大倾斜角度对重建结果影响较小,图像质量低和光线条件对重建后结果影响较大,往往会生成伪影和难以消除的噪声,尤其对复杂文字增强效果不理想,可能放大一些假象,不能生成足够的细节。从图4 可以看出,专业人员中评分4 分以上占49%,评分5 分为32%,远大于评分1分和2分的15%和17%,普通受访者评价3分以上占62%,评价主要集中在5分、3分和2分,综合所有评价者的评分,评分为5 分占30%,评分4 分以上占46%。可见重建后的图像对图像纹理和细节有很好的增强,受访者认为SISR 技术可以很好地提升图像质量。
指纹在警务工作和法庭科学中发挥着重要作用。为验证SISR 技术在模糊指纹重建中应用的可行性,在渗透性客体、半渗透性客体和非渗透性客体中选取30 组模糊不清指纹图像,分别使用ESRGAN和BSRGAN 重建图像,并与原始图像进行对比,图5为一些代表性的比对结果。图6 为127 名专业人员和87 名普通受访者从视觉感知质量角度对不同客体指纹处理结果的客观评价。
图5 指纹低质量图像重建比对
图6 指纹平均意见评分评价结果
如图5 所示,SISR 的两种方法都增强了模糊指纹图像的高频纹理,并在三种客体上都取得较好视觉质量。与ESRGAN 相比较,BSRGAN 在指纹自然度和清晰度方面效果更为突出,能够恢复现实世界中指纹真实的纹理,在保持高频纹理的同时能有效消除伪影,但当客体颜色与指纹颜色相近时处理得较为平滑。由图6 可知,专业人员评分主要集中在3分和4 分,共占51%;普通受访者评价主要分布在2~4 分;整体评价主要集中在2 分和3 分,其中4 分以上为37%,3 分以上为65%,评分整体占高分较多。这说明超分辨率重建技术在指纹纹理增强中发挥着重要的作用,可进一步提高视觉清晰度,为后期公安实战中指纹比对和法庭科学中司法鉴定提供一定的技术支撑。
为验证SISR 技术人像重建在公安实战中的应用效果,本文人像实验数据与以往方法不同,全部取自视频监控中的截图,此类截图在警务工作中使用度较高且具有代表性,但其视觉质量较差,一般很难进行人像数据库比对。分别选取正面、具有一定倾斜角度和复杂场景面部30 张低质量人像进行实验,图7 为使用ESRGAN 和BSRGAN 重建后人像与原始图像的代表性比对结果。图8 为115 名专业人员和97名普通受访者从视觉感知质量角度对人像处理结果的客观评价。
图7 人像低质量图像重建比对
图8 人像平均意见评分评价结果
从图7 可以观察到,在正面、具有倾斜角度和复杂场景中重建后人像在视觉质量和保真度上都有很大提升。与低质量图像比较,ESRGAN 能够轻微改善图像质量,BSRGAN 能产生更清晰的边缘、更丰富的纹理、更自然的人像,角度差异对重建后人像效果影响较低,具有很好的适用性和鲁棒性,但也会产生伪影,尤其在高光处重构效果更为平滑。由图8 可知:专业人员评分主要集中在5 分(50%)和4 分(30%),普通受访者评价主要分布在5 分(42%)和4分(31%),全部受访者的评价5 分占46%、4 分占31%。可见,SISR 技术对人像重建效果较好,在提升视觉质量的同时又很好地重构人像细节纹理,在人像比对中能够起到关键性作用,但重建效果受光照影响较大,仅能够为法庭科学司法鉴定中的人像检验提供参考。
在日常警务工作中往往会遇到复杂场景图像,多种因素交织在一起导致图像细节难以辨认,实验选取室内场景、室外场景和视频车辆共30 组自然场景图像,均为视频设备录制影像截取获得,此类图像更切合公安实战场景。图9 展示了原始低质量图像、ESRGAN 和BSRGAN 重建结果,从图中可以看出BSRGAN 重建效果要优于ESRGAN,在三种复杂场景都能重建出高质量图像,泛化能力强,能够有效去掉原始低质量图像未知的复杂噪声,可以生成清晰的边缘和精细的细节,但是对高光和过暗处细节效果处理不好,可能出现无中生有现象。图10 为133名专业人员和87 名普通受访者从视觉感知质量角度出发对自然场景处理结果进行客观评价,专业人员评价结果为4 分占27%,5 分占18%,普通受访者4分占26%,5 分占19%,整体评分结果4 分以上为46%。由此可知,SISR 技术对自然景物重建效果良好,视觉质量有很大提升,能够恢复复杂自然场景的细节纹理,可为研判分析案件提供一定的支持和帮助,具有一定的实战应用价值。
图9 自然场景低质量图像重建比对
图10 自然场景平均意见评分评价结果
从上述120组实验图像可以看出,ESRGAN对实验图像在清晰度和细节方面有一定提升,高频纹理相对平滑,BSRGAN 可以产生更清晰、更自然、纹理细节更加丰富的高视觉质量图像,但光照和复杂退化因素会影响图像重构质量,不能生成足够细节和自然的纹理,有时产生噪声和伪影。将众多评价者的平均意见评分进行综合分析,参与实验的四类数据评分主要集中在3~5分,其中5分占27.6%,4分以上为51.43%,2分以下为23.58%。这表明现有SISR技术在车牌识别、指纹比对、人像识别和比对、自然景物场景线索查找等领域有实际的应用价值,具有稳定性和一定的普适性,可为公安实战应用提供必要线索,为法庭科学领域的研究提供参考。
本文主要对SISR 技术在警务工作中的应用进行研究和探讨。通过使用ESRGAN 和BSRGAN 两种基于深度学习SISR 方法对不同自然环境下的车牌、指纹、人像、自然景物等进行分析。从重建结果可得出结论:SISR 技术在上述应用场景中都取得了较好的增强效果,整体评价得分稳定,主要集中在3~5分,这意味着其对多场景应用的图像视觉质量有显著提升,能够很好地重构出清晰的边缘、丰富的纹理、更自然的图像,但重建质量也会受到光照、视距等复杂环境因素的干扰和影响。该技术能够为实战应用提供必要的线索,在案件的研判分析中发挥重要作用,在公安工作中具有很强的应用意义,同时也可为法庭科学领域的研究提供参考。
虽然SISR 技术是学术界和工业界研究热点,但目前仍没有适用于公安实战的警用专业数据集,没有更精准地创建适用于警务工作特定场景的模型,在公安领域还没有大规模覆盖,这对SISR 技术在警务工作中应用具有很大的阻碍作用,制约着基于深度学习的解决方案[16]在公安工作中的发展和落地。未来可整合和收集多个警用数据库中的特定数据,创建具有针对性和代表性的警用数据库,在此基础上针对特定场景下不同自然条件的超分辨率模型进行更深入的研究和创新,使模型具有更高的稳定性、鲁棒性、普适性,并实现警务系统中SISR 模块的开发、部署和应用,使SISR 技术在公安实战中得到广泛应用,更好地服务于公安实战。