基于卷积神经网络的视频聊天中人眼自动矫正

2022-01-17 06:20沈晓倩
电子元器件与信息技术 2021年9期
关键词:人眼卷积神经网络

沈晓倩

(吉林大学计算机科学与技术学院,吉林 长春 130012)

0 引言

日常生活中的很多内容都需要改变眼睛的外观,并以数字化的方式来控制人力对相机的凝视。比如说,在桌面视频会议系统交流时,人眼的沟通非常关键,此时基于卷积神经网络加强人眼凝视,能进一步提升人们的表达注意力和沟通需求。但从实践应用角度来看,大部分视频会议系统都没有眼神的交流和凝视意识,出现这现象的原因在于参与者看到的是显示器,并没有直接进入摄像机中,此时人眼自动矫正在这一环节非常重要。因此,本文根据当前技术理念提出了一种简单且新颖的凝视矫正图像修复模型,并利用定性与定量的方式评估了这一模型的科学性和有效性。

1 背景介绍

在大数据时代中,每天大约有三百万张图片出现在社交平台,被各类平台软件所捕捉或共享,其中有超过一半的都是以人为中心的图片。由此可见,在未来技术革新发展中,美化算法和逼真的面部修饰将成为计算机视觉和机器学习的主要研究方向,比如说合成化妆品、红眼固定以及瑕疵去除等,这些都在市场中得到了认可和支持。但从科研角度思考,现如今人类面部结构及其特征操控依旧是科研人员很难跨越的难点。而在深卷积网络也叫做DNNs在绘制显示自然风景的图片缺失区域中取得了优异成绩,促使人们对人眼跟踪有了更深认识和理解[1]。

从本质上讲,卷积神经网络是指一种包含卷积计算和深度结构的前馈神经网络,其属于深度学习具有代表性的一种算法之一。这类算法具有机枪的表征学习能力,且可以按照阶层结构在平移的基础上合理分类处理输入信息,因此在现如今技术研究中也叫做平移不变的人工神经网络。这一算法最早出现在上世纪八九十年代,其中时间延迟网络和LeNet-5是技术研发最早提出的卷积神经网络,直到二十一世纪,随着深度学习理论及相关技术软件的不断优化,这一内容得到了进一步优化,并开始被大量引用到计算机视觉和自然语言等领域中。本文在研究时,将目光主要集中在眼睛绘画这一特殊问题上,虽然利用卷积网络(DNN)可以获取语义上具有现实性和可信性的应用结果,但大部分深层技术依旧无法保留照片中人的身份。比如说,在构建模型没有编码作为基础保障时,DNN可以学习如何打开一双闭上的双眼,换句话说新眼镜可以与原本图像中人的特定眼结构一一相对。反之,DNNs可以插入一双眼,与训练集当中拥有的相似面孔进行识别与判断,假设一个人拥有过于明显的特征,这一内容将不会出现在生成部分中[2]。

2 实验设计

在本文研究主要分析了所选数据集、网路培训以及基线模型,而后在验证的基础上利用定性和定量评估这一模型的合理性,而后对所提出的自监督学习模块进行研究,这种方法可以简称为GazeGAN。具体结构如图1所示:

图1 GazeGAN模型结构图

2.1 数据集

本文研究所选数据集分为两部分,一种是新凝视数据集,其主要是为了评估所构成的模型,可以叫做NewGaze数据集。这一内容包含了3万幅图像,且主要分为两个领域,域X是指人眼盯着相机有2万5千张,域Y是指人眼盯着其他地方共有5千张。在对这一数据集进行处理时,要先裁剪再运用人脸检测算法计算眼罩区域,同时将域X看做是训练集,域Y看做是测试集。需要注意的是,这一数据集必须没有标记特定的头部姿态或视角信息;另一种为哥伦比亚数据集,属于是公开凝视数据集,其作为跟踪调查的基准,包含了5880张图像,且有56个人有5个头部姿势,21个凝视方向。在收集这类数据信息时,必须要让每位受试者都贴上三个信息标签,而在处理信息时也要和NewGaze数据集一致,先裁剪后再进行培训和测试,得到的训练集可以用来进行自我引导前的训练模型[3]。

2.2 培训内容

根据提出的自引导预训练模型在1个大小的批次上实施训练,且学习率为0.01。主模型培训的λs、λr和λp都是1。要想保障整体训练过程的稳定性,本文研究运用了光谱归一化处理了鉴别器的所有层。而优化器分别为Adam与β1=0.5和β2β1=0.999。此次培训共设计批次为16次,在第一次20000次迭代中,内部绘制模型的学习概率达到了0.0001,且在后续的迭代中将线性衰减为0。

2.3 基线模型

将GazeGAN看成是一类画模型,并利用常用的深度注入绘制模型GLGAN作为基线,而后在NewGaze数据集中实施训练。而图像翻译模型可以在NewGaze数据集中训练StarGAN,并合理转换学习域X和域Y。在眼睛操作中,深度扭曲已经达成了现如今较为先进的注视操作结果,且主要是利用卷积神经网络来完成凝视方向的转变。

另外,本文在研究时选用了GLGAN3和StarGAN4作为公共代码,并输入已经标记视角和头部姿态信息的配对训练图像。一方面,要利用哥伦比亚凝视数据集进行训练,另一方面要在新Gaze和哥伦比亚数据集中进行测试。具体过程如图2所示。

图2 模型测试流程图

2.4 不变性

针对原有自动编码器也要利用数据集进行训练对比,由此观察分析可以得到,学习者编码大都是线性,将不同的眼睛角度输入到模型中,其对不同人的相同视角可以得到相同的数值,而其他曲线则是不规律的,因此可以判断自动编码器难以处理潜在空间所呈现出的角度特征。要想进一步验证自引导预训练模型在学习角不变性特征中的科学性和有效性,本文在研究训练时将GazeGAN(W/O)与GazeGAN的结果进行对比分析,由此发现后者的彩绘效果更佳,不仅能保留原始人脸的身份信息,而且可以增强人眼的形状处理水平[4]。

2.5 结果分析

通过在实验分析中掌握NewGaze数据集的比较实验,并利用定量定性的评估方式进行分析,能得到更为精准的实验结果。需要注意的是,此时并不需要对模型进行任何算法的处理,尤其是对GazeGAN而言。其中,在定性评估中,GazeGAN能准确纠正人眼,而且利用相机验证了这一方法的合理性。而StarGAN能在风格或纹理翻译中获取更多优势,但很难完成自然的几何翻译。由此可证,StarGAN是基于周期一致性损失的,换句话说需要两个域之间的映射关系具有持续性和相反性。按照域定理所表现出的不变性,此时两个域中的维数是一致的。但结合实际结果分析发现,域Y要远超域X。除此之外,对比GLGAN,GazeGAN在保留脸部结构信息中具有更强优势[5]。

而在定量评估分析中,需要选用两种方案进行操作,一种为初始分数,另一种是基于FID评价眼部区域生成的样本质量。相比IS,Frechet初始距离(FID)所获取的样本的有效性与人类评估更为相近,换句话说过低的FID代表输入样本质量更高。相比GLGAN的2.87± 0.07,StarGAN实验模型所获取的分数为3.10±0.12,由此表明前者可以获取更为真实的图像信息。结合上文提出的定性评价分析结果探讨可知,StarGAN虽然没有较强的学习翻译能力,但最终得到分值较高,因此在实际应用时能得到高质量的样本,而GazeGAN主要用来学习重建,根据用户调查显示结果分析可知,这一模型的投票率达到了35.40%,远高于其他型号[6]。

3 结论

综上所述,根据当前技术研发提出的GazeGAN模型分析可知,其作为现如今最有效且简单新颖的凝视矫正模型,主要用于处理野生图像。结合本文设计实验和结果分析可知,这一模型的新颖之处在于可以运用自监督生成对抗性网络的修复模型,在学习人脸图像的同时,运用矫正之后的新内容填充眼部区域存在缺陷的地方。这种方法并不需要对训练数据进行特殊标记,只需要输入原始的身份信息,就能利用自导预训练模型进行学习与翻译。从实践应用角度来看,其对未来技术创新发展而言具有积极作用。

猜你喜欢
人眼卷积神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
神经网络抑制无线通信干扰探究
从滤波器理解卷积
人眼X光
人眼为什么能看到虚像
基于傅里叶域卷积表示的目标跟踪算法
闪瞎人眼的,还有唇
看人,星光璀璨缭人眼
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用