曾勇,李楠,卢贤票
(1.燕山大学 车辆与能源学院,河北 秦皇岛 066004;
2.清华大学苏州汽车研究院 智能汽车技术研究所,江苏 苏州 215200)
行人检测是目前智能车辆研究的一个热点,许多的研究机构、高校以及汽车厂商目前已经做了大量研究。研究行人检测可以减少行人和车辆碰撞造成的伤亡数量和事故等级,并在危险状况下警告驾驶员和自动减速;同时行人检测也是实现低速自动驾驶重要的一步[1-2]。行人检测通过传感器获取目标行人的信息特征,由于颜色特征可增强图像识别的准确率,为了提高行人检测的效率,本文提出了一种自动彩色化灰度图像模型。灰度图像彩色化的算法主要有基于优化拓展的彩色化算法、基于最短距离和色度混合的彩色化算法以及基于颜色转移的彩色化算法[3-5]。
CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征[6-11]。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。由于 CNN的特征检测层通过训练数据进行学习,所以在使用 CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
在经典彩色化灰度图像方法及卷积神经网络的基础上,本文提出了:
·无用户干扰的灰度图像彩色化方法;
·一种新的端到端的网络,学习图像的全局及局部特征;
·利用分类标签来提高学习性能;
·深度评估我们用户学习的模型及许多不同的例子。
本文基于卷积神经网络理论,从大量的训练数据中训练检测模型。本文的网络由形成有向无环图(DAG)的几个子部分组成,并包括了与广泛使用的标准模型的重要差异,尤其该模型可以处理任何分辨率的图像,可结合全局图像先验进行局部预测及将其转换为另一种颜色的图像。模型及子部分的描述见图 1。由图可知,模型由四个主要部分组成:底层特征网络、中层特征网络、全局特征网络及彩色化网络。
深度神经网络具有多层结构。给定一个输入即可预测连续值,函数形式如下所示:
卷积神经网络具有权值共享的特性,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。一般来说,向量x、y的分量是通过笛卡尔坐标以及通道号被像素检索的,一层是由多个通道的2D图像组成。矩阵w为图像与一组滤波器的卷积,若2D层图像是C通道h×w,则下一层C通道图像为h×w,即n=h·w·C,m=h·w·C。综上,公式(1)可变为如下形式:
其中,kh和 kw分别代表内核的高度与宽度(奇数),yu,v为输入的像素分量,yu,v为该层的输出,为非线性传递函数,b为偏置。由以上公式可以看出,权值W可以在神经元之间互相传递,实现共享。
图1 自动彩色化灰度图像模型
该模型中,层与层之间是连续的连接,大多数分类网络最初使用卷积层,最后使用常规的全连接层来使输出为一个特定尺寸的向量,但这样的网络只能处理固定大小的图像,为了解决此问题,本文提出了自动彩色化灰度图像模型,可处理任何分辨率大小的图像。
将全局特征与局部特征进行融合,全局特征可确定输入图像的类型。假设输入图像尺寸为W,卷积核尺寸为F,步幅(stride)为S(卷积核移动的步幅),Padding使用P(用于填充输入图像的边界,一般填充0),那么经过该卷积层后输出的图像尺寸为(W-F+2P)/S+1。在本文中,使用3×3卷积内核及1×1的空隙作为输入来保证输出图像是同等的尺寸大小(若步幅为2,则输出图像尺寸减半)。共享功能的结构如表1所示。
表1 底层特征网络
1.2.1 全局图像特征
全局图像特征是通过四个卷积层进一步处理底层特征,再通过三个全连接层获得,其详细内容如表2所示。
由于该网络中线性层的性质,底层特征的输入固定尺寸为224×224像素。
表2 全局特征网络
1.2.2 中层特征
中层特征是通过两个卷积层进一步处理底层特征得到的。输出从底层特征的512通道数变为中层特征的256通道数,与全局图像特征不同的是,底层特征与中层特征均为全卷积网络,中层特征网络的输出尺寸大小为(H/8)×(W/8)×256,H、W为原始图像的高度与宽度,具体如下表所示:
表3 中层特征网络
1.2.3 全局与局部特征融合
为了结合全局图像的256维向量特征与局部(中层)图像特征,本文介绍了一种融合层,该层用于将全局特征融入局部特征,融合方式如下:
1.2.4 彩色化网络
全局特征与局部特征融合后,再经过一组卷积层和上采样层,上采样层,为跨度转置卷积(Strided Transposed Convolutions),跨度为 S,即上采样层将为该层的每个输入产生S个输出。在输出是原始输入的一半大小之前,这些层是交替出现的。彩色化网络的输出层有具有Sigmoid传递函数的卷积层组成,输出为输入灰度图像的色度,具体如下表所示:
表4 彩色化网络
本文采用均方误差(MSE)标准来训练网络,给定一张彩色图像作为训练样本,将其转换为灰度和CIE L*a*b*颜色空间。模型的输入是灰度图像而目标输出是CIE L*a*b颜色空间的 a*b*分量,a*b*分量被全局归一化,因此它们在Sigmoid函数的[0,1]范围内,然后,我们将目标输出缩放至彩色化网络输出的大小,并计算输出与目标输出之间的MSE作为损失,最后将通过所有网络(全局特征、中层特征、底层特征)将此损失反向传播,更新模型中的参数。
该模型能处理任何大小的图像,当输入图像为 224×224像素时,效率最高,若输入图像具有不同的分辨率,底层特征的权重共享时,需要重新调节全局特征网络图像大小为224×224像素。这需要通过底层特征网络出了原始图像及重新缩放图像,增加了内存消耗与计算时间,在学习过程中必须多次处理数百上千张图像,尤其在训练阶段,节省时间变得至关重要。因此,本文仅仅采用尺寸为224×224像素的图像来训练模型。
本文在训练阶段对整个网络使用批量归一化处理,一旦网络被训练,批量标准化的平均值和标准偏差就可以被并入到每层的权重和偏置中。
车辆的颜色相对来说比较单一,在彩色化车辆图像时无须考虑太多颜色过渡区域的细节处理,但一般行人的着装具有多样性,衣服颜色比较复杂,在进行彩色化时需要处理很多颜色过渡区域,为了测试本文所提出的自动彩色化灰度图像模型的性能,采集各种不同类型的行人及其他图片,评估包括黑白图像及特写图像在内的大量不同图像,同时本文还阐述了如何通过利用在不同图像上计算的全局特征,直接使用模型进行样式转换。在训练阶段开始前,我们需要预先过滤一遍图像来滤除灰度图像及具有较小颜色差异的图像。对训练图像进行随机的分类并将其用于优化我们模型的参数。
本文的彩色化模型利用全局特征与局部特征的融合,使其能够正确地对行人、车辆等进行彩色化,所有这些结果均为自动生成,无须人为干预,具体彩色化结果如图2所示。
通常情况下,我们无法对图像的重点区域进行颜色处理,如图3缩放区域所示,尤其是在颜色变化区域,由于行人衣着以及环境颜色的多样化,我们在进行彩色化的时候要将行人和环境的颜色进行比较好的融合处理。本文采用一致的方式对所有图像进行彩色化,譬如在图3中,最左边为灰度图像,中间的为采用基准的方法彩色化的图片,最右边为采用本文的模型进行彩色化的图片。由图中对比可以看到,第一幅图斑马线处的蓝色线条,采用传统的基准的方法并没有将其彩色化,将其忽略;警察的制服颜色彩色化的程度也不太明显,还有后边车辆的车牌处也没有达到比较好的彩色化效果;同样,在第二幅图中,黄色的斑马线没有被彩色化,最前面女孩的衣服和背包也没有达到很好的彩色化效果。
图2 部分彩色化图像
由以上结果,我们可以看出,采用传统的彩色化方法不能很好的处理颜色过渡区域,只能较好的处理比较单一的颜色区域,而在我们现实生活中,行人的着装、发色、装饰以及所处的环境的颜色具有多样性,此时采用本文的自动彩色化模型可以达到较为理想的彩色化效果。
图3 彩色化模型对比
全局特征值是基于灰度像素值的描述,可以分为直方图特征、颜色特征及轮廓特征。由于采用基准的方法进行彩色化时不包含全局特征,(RGB为非均匀的颜色空间,而基准为L,a、b的均匀颜色空间)所以在采用基准彩色化灰度图像时,图片处理时会有误差,可能达不到理想的效果。而本文所提出的自动彩色化灰度图像的模型是将全局特征及局部特征进行融合,可以更好的提取图片的显著特征,经过统计计算,在真实场景的自然度为 97.7%时,采用基线与本模型的自然度分别为69.8%与92.6%。
表5 CPU与GPU运行时间对比
本文在不同分辨率的图像上运行自动彩色化灰度图像模型,并将其在CPU和GPU上平均运行时间做了对比,通过对比,可以得到使用 GPU,速率提高了接近 5倍,并且在GPU中能在短时间内处理大图像,详细内容见表5。
针对于车辆及行人图片,通过融合全局及局部特征,本文提出了一种新的彩色化灰度图像的模型。首先,该模型基于卷积神经网络的理论,无需任何干预,可以自动进行彩色化。其次,在训练模型阶段,本文采用端到端的方式训练网络,采用随机梯度下降法更新权值,能够处理任何分辨率的图像。最后在评估模型时,收集了大量室内与室外的图像,并产生了较好的实验结果,证明了此模型的可信性与优越性。
[1] 苏松志,李绍滋,陈淑媛,等.行人检测技术综述[J].电子学报,2012,40(4): 814-820.
[2] 刘威,段成伟,遇冰,等.基于后验 HOG 特征的多姿态行人检测[J].电子学报, 2015, 43(2): 217-224.
[3] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International journal of computer vision, 2010, 88(2): 303-338.
[4] Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision,2015, 115(3): 211-252.
[5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012: 1097-1105.
[6] He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[C]//European Con-ference on Computer Vision. Springer, Cham, 2014: 346-361.
[7] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv preprint arXiv:1409.1556,2014.
[8] Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[9] He K, Zhang X, Ren S, et al. Delving deep into rectifiers: Surpassing Human-Level Performance on Imagenet Classification[C]// Proceed-ings of the IEEE International Conference on Computer Vision.2015: 1026-1034.
[10] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Procee-dings of IEEE Conference on Computer Vision and Pattern Recog-nition, 2014: 580-587.
[11] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440-1448.