彭 然, 刘爱丰, 李斐逸, 刘 扬, 范冰冰, 刘美奇
(四川农业大学 信息工程学院, 四川 雅安 625014)
皮影戏是中国民间古老的传统艺术,老北京人都将其称为“驴皮影”。 据史书记载,皮影戏始于西汉,兴于唐朝,盛于清代,元代时期传至西亚和欧洲,可谓历史悠久,源远流长。 改革开放之后,皮影戏日渐式微,现在因受国家“非遗法”的保护,减缓衰萎的速度[1]。 在以往对皮影和人的动作捕捉方法中,主要通过动画捕捉完成动作映射[2],但成本较高且实现不易。 在计算机视觉技术飞速发展的条件下,本文提出了一种使用卷积神经网络方法来捕捉人物模型动作,大大提升了动作映射的效率。 通过此方法,极易将热门视频转化为皮影图像,引发人们对传统皮影技艺的兴趣,保护皮影艺术。
为了得到更好的模型效果,研究中采用MPII 数据集对骨骼关键点进行提取,MPII 是用于评估人体姿势估计的数据集以及相关基准,拥有约2.5 万张图像,并且包含超过4 万名具有注释关节的人,该数据集利用人类活动的既定分类法系统化收集图像。 表1 包含有用于训练或验证的图像数量的信息。
表1 数据集图片数量Tab.1 Number of picture sets
所使用的图像示例,如图1 所示。 图像以JPG格式进行存储。
图1 显示人体姿态图像示例Fig.1 An example of a human attitude image
在本文的图像预处理中,着重探讨论述的是暗通道去雾。 研究中,MPII 数据集每张图片均来自YouTube 视频,图片的清晰度往往受外界环境影响,进而影响模型识别和判断结果。 为了进一步提高模型的精度,更好地拟合模型状态,研究拟采用暗通道去雾算法[3]后得到的图像数据。
在图像的大多数局部区域,某些像素始终至少有一个值非常低的彩色通道,而此区域的最低光强度是很小的数字。 暗通道的数学定义,对于任何输入图像J,暗通道可以表示为:
当Jc表示彩色图像的每个通道时,Ω(x) 表示以像素X为中心的窗口暗通道先验理论,由此可以得到:
计算机视觉中的雾图生成模型可写为: 其中,I(x) 为无雾图像;J(x) 为待恢复的原始无雾图像;A为全球大气光分量;t(x) 为透射率。 由现有的I(x),即可求得J(x)。
在此基础上,将其转换为如下公式:
如果C表示3 个通道,假设每个窗口中的传输是恒定的,并定义为t^(x),还给出了A值,则需要执行2 个最小操作,即:
上述是需要寻找的无雾图像,因此其暗通道应满足前一种情况:
可以得到如下公式:
引入要寻求的公式可以得出估计的结果为:
图像增强效果如图2 所示。
图2 暗通道去雾后展示图像Fig.2 The image is displayed after the dark channel is de-fogged
研究中,采用CNN 模型SimplePose,实现自上而下、即先找到人体,再判断关节点归属的人体骨骼关键点检测(Pose Estimation),网络结构在ResNet 后加上几层反向卷积(Deconvolution)直接生成热力图,相比Hourglass,CPN 等其他模型,使用Deconvolution 替代了上采样结构。 网络结构如图3 所示。
图3 SimplePose 网络结构图Fig.3 SimplePose network structure
这里值得一提的是,在ResNet 的基础上,取最后残差模块输出特征层(命名C5), SimplePose 采用Deconv 扩大特征图的分辨率。 Deconvolution 模型如图4 所示。
图4 Deconvolution 模型Fig.4 Deconvolution model
与其他经典算法性能对比[4]参见表2。
表2 与其他算法性能对比Tab.2 Performance comparison with other algorithms
根据文献[4]的实验数据,研究得到的仿真结果参见表3,研究中又调整了输入图片尺寸。
表3 输入图片大小对网络模型效果的影响对比Tab.3 Comparison of the influence of the input image size on the effect of the network model
故研究中选取ResNet-50 作为Backbone,如图5 所示。
图5 ResNet-50 网络结构图Fig.5 ResNet-50 network structure
将输入图像大小拓展至384×288 像素。 使用超微分图像超分辨率重建算法(SRResNet 算法)[5],SRResNet 使用深度残差网络来构建超分重建模型,主要包含2 部分:深度残差模型、子像素卷积模型。深度残差模型用来进行高效的特征提取,可以在一定程度上削弱图像噪点。 子像素卷积模型主要用来放大图像尺寸。 模型框架如图6 所示。
图6 SRResNet 网络结构Fig.6 SRResNet network structure
图6 中,k表示卷积核大小,n表示输出通道数,s表示步长。 除了深度残差模块和子像素卷积模块以外,在整个模型输入和输出部分均添加了一个卷积模块用于数据调整和增强。 扩充图结果如图7 所示。
图7 扩充前后图像对比Fig.7 Image comparison before and after expansion
对人体骨骼关键点检测结果示例如图8 所示。
图8 骨骼关键点检测示例Fig.8 Example of bone key detection
通过获取到的骨骼关键点,确定各个关节的位置,将人体关节与相应的皮影图片进行匹配,计算位置与旋转方向,达到人体活动与皮影运动同步,进行动作捕捉。 从而促进中国传统技艺皮影戏的传承。
通过2 个骨骼关键点可以确认肢体的长度和旋转角度,由于皮影面是二维平面, 只需对应平面的(x,y) 方向上的坐标,设2 个点的坐标分别为(x1,y1)、(x2,y2),计算旋转角,将皮影素材图像按旋转角中心旋转,再计算2 个关键点间的位移,得到映射点位置。 并将各个素材图片映射到对应的肢体上,达到动作映射的效果,如图9 所示。
图9 皮影图像映射过程Fig.9 Shadow image mapping process
将视频逐帧切割,并逐张映射为皮影图像,最后按帧聚合组装成皮影戏视频。
本次实验,选取单帧图像作为皮影映射后的展示图,如图10 所示。
图10 单帧皮影展示图Fig.10 Single frame shadow display
本文针对基于SimplePose 优化算法的皮影保护技术进行讨论与分析。 文中,先是提出了实验选用的数据集,接着对图像预处理中的暗通道去雾技术进行了整体阐述,然后又对网络结构及数据再处理展开了深入的研究,并对每一步都给出了详尽说明。在此基础上,将本文的研究方法运用在皮影戏的制作中,最终得到了较为满意的仿真效果。 本文研究成果有益于传统皮影戏的保存和传承,具有重要的现实意义。