基于合成孔径聚焦图像信息的车载三维视觉导航方法

2016-09-26 02:16:39陈智陈广东程浩黄海行南京航空航天大学电子信息工程学院江苏南京006南京航空航天大学无人机研究院江苏南京006

电子设计工程 2016年11期

陈智，陈广东，程浩，黄海行（.南京航空航天大学电子信息工程学院，江苏南京　006；.南京航空航天大学无人机研究院，江苏南京　006）

陈智1，陈广东2，程浩1，黄海行1
（1.南京航空航天大学电子信息工程学院，江苏南京210016；2.南京航空航天大学无人机研究院，江苏南京210016）

合成孔径视觉测距是多目视觉测量与单目视觉测量相结合的产物。合成孔径聚焦测距方法是一种通用的图像视觉方法，对光照、色彩、纹理等变化稳定性好，能实时处理，适用于复杂的交通管理工程，为车辆自动驾驶找到了一种新导航方法。利用小孔成像模型摄像机共面阵列获取图像序列，根据图像序列获取各距离段所对应的桶型失真和像差校正叠加图像，计算基准图像中每个像素的邻域与每一幅校正叠加图像中相应区域的相似测度，并选取相似测度随像差校正叠加图像变化的范围大于一预设阈值的像素作为可测距像素，相似度最大的校正叠加图像所对应的距离段即为该可测距像素对应目标点所处的距离段。实测数据表明该测距方法具有鲁棒性好，算法简单的优点。

摄像机阵列；合成孔径；聚焦测距；单目视觉

车辆自主驾驶是目前的热门课题，对道路环境的探测是个难题，采用雷达、激光等多个传感器的探测系统造价高，却不能解决复杂环境下对道路环境的正确评估，成为车辆自主驾驶技术推广的瓶颈。立体视觉测距作为机器视觉领域内基础技术之一，广泛应用于机器视觉定位、目标跟踪、视觉避障等领域，尤其是作为视觉导航和伺服控制中不可或缺的基础技术受到广泛的关注。机器视觉测量主要分为：单目视觉测量、双目视觉测量、多目视觉测量、结视觉测量构光视觉测量等。合成孔径视觉测距是多目视觉测量与单目视觉测量相结合的产物。

多目立体视觉是同时利用多个采集设备对场景进行观测。根据观测视角之间的差异又可以分为宽基线和窄基线。宽基线观测视角差异较大，对场景有较全面的观测，但是遮挡、透视效应比较严重，所以在重建中只能恢复离散的空间点集。而窄基线和人眼的结构比较类似，观测点视角差和距离都比较小，对场景的大部分都能找到较好的对应关系，因此可以得到稠密的场景距离信息即深度图（Depth Map）。立体视觉在各个研究领域都有着重要的应用。在城市的规划和设计上，配合已有的全球定位系统（Global Positioning System，GPS）和惯性导航系统（Inertial Navigation System，INS）系统，利用视频序列中的深度信息提取，可以进行完整的街道或者建筑的重建。这对于地型检测、地图可视化以及虚拟现实都有重要的帮助［1］。在航拍和卫星图像中，数字高程模型（DigitalElevation Model，DEM）的获取相对比较困难。并且由于观测距离的限制，传统的双目立体视觉不能提供足够的观测角度差。基于窄基线的DEM数据提取也成为值得研究的关键技术［2］。在二维图像中，存在一些无法解决的问题，比如遮挡、颜色相似目标等。立体视觉可以将场景中感兴趣目标在三维空间中进行检测，辅助分割（Color Segmentation）、抠图（Matting）、修复（Inpaint）等技术［3］，实现多目标检测、识别和跟踪应用。另外在图像拼接中立体信息也有很重要的应用［4］。

单目视觉利用图像的聚散焦效应实现图像测距。单目视觉不存在特征点匹配等问题［5-11］，结构简单，运算速度快而具有广阔的应用前景。单目视觉距离的分辨率与光学镜头孔径正相关，要获得高的距离测量精度，就需用大孔径镜头成像。大孔径光学镜头除制造难度大外，成像面移动，镜头孔径（光圈）张缩等动作需做机械运动，使用不便。在光学镜头的生产制造技术实践中，人们很早就意识到光学镜头大孔径可看成由诸多子孔径合成而来。合成孔径原理早已被国内外业界知晓，但与信号处理相结合的应用却时间不长，在成像载体为胶片和模拟信号感光器的年代，人们主要在光学和机械系统中利用合成孔径方法改善光学镜头的性能，例如菲涅耳透镜［8］。数字化成像设备的普及给合成孔径处理带来了巨大便利，近年欧美日韩在这一领域进行了前沿性研究。本文根据合成孔径原理，将多机位小孔成像合成为大孔径图像，与单镜头成像效果一致，用数字图像处理方法实现成像面的灵活移动，镜头孔径（光圈）灵活张缩，应用单目聚焦原理得到距离信息。航拍图像序列处理，移动摄像机图像序列处理，都可采用合成孔径原理获得深度信息。

合成孔径聚焦测距方法是一种通用的图像视觉方法，对光照、色彩、纹理等变化稳定性好，适宜车辆自主驾驶工程应用。合成孔径测距与一般多目视觉的区别在于合成孔径聚焦形成的合成孔径增益，提高了信噪比，此外它对特定距离聚焦的同时，其他距离处的目标像散焦为均匀平滑的像斑，这些像斑对测距的干扰相对较小，也就是说合成孔径通过散焦滤除了其他距离处目标像干扰。

1　合成孔径聚焦成像原理

大孔径镜头成像时，通过镜头各部位的入射光线经镜头折射后，目标光线重新会聚，在成像面成二维像。若将入射光线按所通过的子孔径分离成像，再用信号处理方法叠加，就得到合成孔径像，成像结果与大孔径镜头成像一致。图1显示全孔径成像时，正确距离处点经大孔径光学镜头聚焦在成像面上，为一点；而另一距离处的目标点成像为一圆，它由各子孔径成像组成，因此我们能仿真大孔径镜头成像过程，将各子孔径像按一定规则叠加，得到合成孔径像，它具有大孔径镜头成像的特征，可以应用单目测距的方法测量合成孔径目标的距离。形成合成孔径像，并没有要求图1大孔径圈中所有子孔径像都参与计算，只需部分子孔径像参与叠加计算，就能形成合成孔径效应。合成孔径测距与一般多目视觉的区别在于合成孔径聚焦形成的合成孔径增益，提高了信噪比，此外它对特定距离聚焦的同时，其他距离处的目标像散焦为均匀平滑的像斑，这些像斑对测距的干扰相对较小，也就是说合成孔径通过散焦滤除了其他距离处目标像干扰。

图1　合成孔径聚焦成像

摄像机阵的各摄像机成像符合小孔成像模型，合成孔径聚焦立体视觉阵列的相同摄像机Cn平行放置，n=-N，…，0，…N，基准摄像机C0安装在阵列中心，以线阵为例，所有摄像机均匀固定在长度为2NB的横杆上，摄像机间距为B，基准摄像机C0在横杆中心。摄像机的镜头方向与横杆垂直。所有摄像机中轴线共面平行。这样一来，摄像机Cn与基准摄像机的基线为nB。

各摄像机坐标系的原点是各自镜头的光心，Z轴通过光心指向场景点方向，且垂直于图像平面，X轴通过光心沿着基线方向，Y轴通过光心垂直于另外两轴，这三者满足右手定则。xn为目标点P在各图像坐标系中横坐标，z为P到摄像机主平面的距离，nB为基线长度，f为焦距。由几何关系可以得出摄像机Cn与基准摄像机C0的像差为：

其中Lc为靶面像素距离，f为小孔镜头焦距。

若基准摄像机C0的图像为s0（x，y），则合成孔径叠加图像为：

其中：

为合成孔径像素扩散核，与光学孔径不同，合成孔径核扩散范围可以很大，扩散方式可以是离散的，扩散维和方向也可以人为设计。式（1）移位是亚像素级，可以使合成孔径像聚焦在任意距离处，即成像面可以任意移动。直接将所有图叠加所得合成像对无穷远处目标聚焦。摄像机线阵长度2NB为合成孔径长度，舍弃线阵两端摄像机图像可类比于缩小了合成镜头的光圈。由于线阵相邻摄像机基线很短，减轻了视点不同造成的遮挡图像变化。

2　合成孔径图像序列的超分辨率重建

合成孔径聚焦立体视觉要求获得同一目标不同机位的多个图像，对光照、摄像机差异、噪声等有较强的适应能力。图像序列可以来自摄像机阵列，也可以是同一摄像机移位分时拍摄。实际上航拍图像序列处理，移动摄像机图像序列处理，也可采用了合成孔径原理获得深度信息。

图2为不同机位拍摄合成孔径图像序列，拍摄用摄像机为超景深的小孔镜头，图像序列并非同时采集，各图像光照差异很大。

图2　合成孔径图像序列

图像的超分辨率重建是指从一系列退化的低分辨率观测图像中构造出一幅或多幅清晰的高分辨率图像，这种方法的核心思想是用时间带宽换取空间分辨率，即对一组相同场景下具有亚像素位移关系的低分辨率的图像序列，利用他们的相互补充的信息以及目标的先验信息，恢复出图像采集生成时丢失或降低的高频信息，从而重建出高分辨率的图像。自Tsai和Huang［12］于1984年第一次提出多帧图像的超分辨率重建技术的数学模型和可行解以来，超分辨率重建技术取得了长足的发展与进步。按照图像重建处理域的不同，超分辨率重建技术可以划分为频域法和空域法两类。相比较而言，空域法有更多的灵活性和更广的适用范围，它可以充分考虑更为一般的运动及退化模型，有效地利用多种图像的约束信息，如马尔柯夫随机场（Markov Random Field，MRF）、模糊和运动等各种先验知识，是当前乃至今后的研究重点，其代表性方法主要包括非均匀插值法（Non-uniform Interpolation）、迭代反投影法（Iterative Back Projection，IBP）、凸集投影法（Projection Onto Convex Set，POCS）、最大后验概率估计法（Maximum a Posteriori，MAP）、正则化方法、MAP/POCS混合法、自适应滤波法等。分辨率的提高实际是通过更高的空间采样率去除混叠实现的。是把在获取图像时丢失或退化的高频信息恢复出来，对一系列彼此间有亚像素位移的低分辨率图像通过增加传感器的空间采样率，恢复由混叠产生的高频成分，从而生成一个含有较少的模糊、噪声和混叠的高分辨率图像。图像复原3个过程逐步执行的实现流程，如图3所示。首先通过图像配准估计出低分辨率图像间的相对位移，并将采样数据映射到高分辨率网格上，从而形成一副由非均匀间隔采样网格点上的样本值组成的复合图像。然后通过内插和重采样可将这些低分辨率图像的像素点填入高分辨率图像网格上，获得一幅初步的重建图像。最后，对第二步中所得到的图像进行后处理，包括采用经典的维纳滤波将图像中的模糊和噪声去除，获得最终的重建图像。

图3　非均匀插值超分辨重建法基本步骤

在非均匀插值算法的研究方面，Keren［13］等人提出了一种包括整体平移和旋转的超分辨率重建模型，这一算法计算简单，但对于消除观测图像之间的频谱混叠效果并不明显。Aizawa［14］等提出了另一种基于内插的方法，对通过立体相机获取的低分辨率图像的超分辨率复原问题进行了分析，但这一算法同样没有考虑运动和光学模糊。Komatsu［15］等人利用块匹配技术实现低分辨率图像间的运动参数估计，并借助Landweber算法重建高分辨率图像。Nguyen［16］等提出了一种基于小波变换的非均匀采样插值算法，其基本思想是将低分辨率图像序列变换到不同尺度的小波空间，然后在小波域对图像进行重建，从而得到高分辨率的重建图像。不同机位拍摄合成孔径图像序列不但存在位移视差，还存在桶型失真，将桶型失真校正与高分辨率重建图像相结合，可提高计算效率，考虑到重建图像的分辨率和硬件计算能力，参与重建的图像序列数量不能太多，以达到重建图像最高分辨率极限作为标准。这种插值重建方法采用简单的观测模型，只能重建图像因摄像机靶面欠采样造成的分辨率损失，而不能恢复采样感光单元占面量化误差。通常参与重建的图像序列数量以4幅左右为宜。图4为桶型失真校正与高分辨率重建图像示意图，图中符号“×”和“△”代表的采样点分别来自图像序列中的两个图像，二者存在桶型失真和移位，符号“.”是插值结果，它的密度高于图像序列，达到高分辨率重建图像的目的。

这样全部图像序列需分组进行高分辨率重建，再将各组结果叠加形成合成像。图5为图像序列合成像，图5（a）聚焦在车辆前沿处，图5（b）聚焦在相对远景处，由于合成孔径直径比光学镜头大得多，所以微小的目标距离差异，也能造成明显的聚散焦效应。图像序列合成像对单个图像光照、摄像机抖动、噪声等差异有明显抑制能力。聚焦测距允许合成像因误差造成聚焦像清晰度有所下降。

图4　桶型失真校正与高分辨率重建图像

图5　图像序列合成像

3　合成孔径目标深度图像计算

合成孔径聚焦空域测距法能有效测量目标距离［6］，其基本原理是将合成像与基准像相比，相似性测度最大，说明该处聚焦，根据聚焦参数得到目标距离。合成孔径聚焦测距法只对特定距离目标聚焦，聚焦目标信号能量集中，受其他距离目标信号影响小，聚焦像能量集中在小区域，易于与其他距离目标区分，算法稳定，适于工程应用。

相比于用图像的锐度和梯度分割聚焦区和散焦区，用与基准图的相似度分割图像更为稳健。相似性测度是衡量两幅图像相似度的指标，相似性测度的选择是图像配准中最重要的步骤之一，在基于灰度信息的图像配准中，比较常用的配准测度有误差平方和，误差绝对和，归一化互相关，以及互信息等。Studholme［17］提出了归一化互信息（Normalized Mutual Information，NMI），表现形式如下：

式中（x，y）为像素坐标。H（R）和H（F）别是基准图像和合成图像在坐标（x，y）邻域图像块的信息熵，（R，F）联合熵。互信息作为图像配准的相似性测度，最重要的是需要估计两幅图像块的熵和联合熵，即计算概率和联合概率，最常用的直方图法计算简单［18］，从直观的角度突出了以频率代替概率来进行密度估计，本文即采用直方图法计算互信息。

取边长为5个像素的方滑块，作为滑块中心像素邻域，在画面中由左至右，由上向下依次滑遍整幅画面，计算滑块内图像与基准图相似测度Rz（x，y），以有序间隔改变z值计算Rz（x，y），重复上述过程，得到所有z值对应的Rz（x，y）。

应用聚焦效应测距时目标区图像熵不能太小，即目标区图像要有一定信息量，否则不会产生聚散焦差别，图6为基准图信息熵分布二值图像，其中白色区域表示该区图像有足够的目标信息量，可以测距，而零值区表示该区图像没有足够的目标信息量，不可以测距。

图6　基准图信息熵分布

以信息熵分割图像也是件复杂工作，且会困扰于各个图像采样条件差异。考察Rz（x，y）就可区分聚散焦差别，分割图像。熵小的图像其Rz（x，y）随z变化小，反之则动态范围大。给相似度Rz（x，y）动态范围设一门限，对基准图中各像素领域区，Rz（x，y）动态范围大于门限的目标测距才是有效测距，最大相似度对应的z值为该像素的距离。

系统框图如图7所示：

图7　合成孔径聚焦立体视觉算法

图8为合成孔径目标深度图像，图中亮度表示目标深度，左侧亮度与距离对照表的尺度单位为米。该图需与图6二值图比照，可得目标有效部位的深度。

图8　合成孔径视觉测得目标深度图像

由图8可测距点距离信息，加上街道模型和车辆模型先验信息，不难分析出道路上各车道占用情况，规划出自动驾驶车辆可用车道，为自动驾驶车辆导航。完整的立体视觉还包括三维建模的平滑和精细化工作，但在自动驾驶车辆导航中可省略。

4　测距精度和测距范围

由（1）式得：

其中的最小值为距离分辨量：

它符合单目视觉距离测量分辨量特征［5-19］，式中常数σ= Lc·d（x0-xn）是可区分靶面视差（在实孔径单目视觉中为与靶面最小分辨单元有关的常数），Lc由硬件定，d（x0-xn）是图像可区分像素视差，由算法决定，可达亚像素，即d（x0-xn）≤1，通常用1作为d（x0-xn）的评估值。（4）式表明距离分辨量与距离平方成正比，距离越远测距精度越差。由式（4）可见增加合成孔径长度NB或选用长焦距f可提高分辨率，但会带来测距范围变化。

测距最远距离理论值为无穷远，但测距分辨量为无穷大，没有实践意义，通常认为测距最远距离受目标可识别图像大小限制。

测距最近距离受测距死区限制，进入测距死区后，有部分线阵摄像机看不见目标，影响图像聚焦测距。摄像机分布密度，分布是否均匀影响非距离z处场景图像是否被均匀平滑。摄像机数量增加意味着计算量增加和系统误差增加。由于合成孔径可实现高分辨率重建，所以基准摄像机要选用高像素，以实现高精度测距。

5　结　论

合成孔径聚焦立体视觉作为一种视觉通用处理方法，适用于复杂的交通管理工程。能实时处理，三维测量像为车辆自动驾驶找到了一种新导航方法。

［1］Pollefeys M，Nister D，Frahm J，et al.Detailed real-time urban 3d reconstruction from video［J］.International Journal of Computer Vision，2008，78（2）:143-167.

［2］Morgan G，Liu J，Yan H.Sub-pixel stereo-matching for DEM generation from narrow baseline stereo imagery［C］//Proceedings of International Geoscience and Remote Sensing Symposium，volume 3.IEEE.1284-1287.

［3］Guofeng Z，Jiaya J，Wei H，et al.Robust bilayer segmentation and motion/depth estimation with a handheld camera［C］// Pattern Analysis and Machine Intelligence，IEEE Transactions on，2011，33（3）:603-617.

［4］Rav-Acha A，Engel G，Peleg S.Minimal aspect distortion（MAD）mosaicing of long scenes.International Journal of Computer Vision，2008，78（2）:187-206.

［5］黄桂平，李广云.单目视觉测量技术研究［J］.计量学报，2004，25（4）:314-317.

［6］Xiong Y，Shafer S.Depth from focusing and defocusing［C］// Proceedings CVPR'93.1993IEEEComputer Society conference on Computer Vision and Pattern Recognition，1993:967-976.

［7］Nayar S K.Shape from focus system［C］//Proceedings of the IEEE Computer Society conference on Computer Vision and Pattern Recognition，champaign，illinois，1992:302-308.

［8］Subbarao M，Tyan J K.The optimal focus measure for passive auto focusing and Depth-from-Focus［C］.Proceedings of SPIE conference on Video metrics IY，PhiladelPhia，1995 （2598）:89-99.

［9］Rajagopalan A N，Chaudhuri S.Space-Variant Approaches to Recovery of Depth from defocused Images［J］.Computer Vision and Image Understanding，1997，68（3）:309-329.

［10］Pentland.A new sense for depth of field［J］.IEEE Trans.on PAM，1987（19）:523-531.

［11］Subbarao M，Gurulnoorthy N.Depth recovery from blurred edges［J］.CVPR，1988（88）:498-503.

［12］Huang T S，Tsai R Y.Multi-frame image restoration and registration［C］//Advances in Computer Vision and Image Processing，1984（I）:317-339.

［13］Keren D，Peleg S，Brada R.Image sequence enhancement using subpixel displacements［J］.Proceedings of IEEE Computer Society Conference on Computer Visionand Pattern Recognition，1988，5（1）:742-746.

［14］Aizawa K，Komatsu T，Saito T.Acquisition of very high resolution images using stereo cameras［C］//In SPIE Visual Communications and Image Processing，1991（1）:318-328.

［15］Komatsu T，Aizawa K，Igarashi T，et al.Signal-processing based method for acquiring very high resolution image with multiple cameras and its theoretical analysis［J］.Proc.Inst. Elec.Eng.，1993（140）:19-25.

［16］Nguyen N，Milanfar P.An efficient wavelet-based algorithm for image super resolution［J］.IEEE International Conference on Image Processing，2000（2）:351-354.

［17］Studholme C，Hill D L G，Hawkes D J.An overlap invariant entropy measure of 3D medical image alignment［J］.Pattern Recognition，1999，32（1）:71-86.

［18］Maes F，CollignonA，VandermeulenD，et al.Multi-modality image registration by maximization of mutual information. IEEE Transactions on Medical Imaging，1997（2）:87-198.

［19］董杰.基于单目视觉的散焦测距算法的研究［D］.青岛：中国海洋大学，2010.

Vehicular three-dimensional visual navigation method based on synthetic aperture focusing image information

CHEN Zhi1，CHEN Guang-dong2，CHENG Hao1，HUANG Hai-xing1
（1.College of Electronic and Information Engineering，Nanjing University of Aeronautics and Astronautics，Nanjing 210016，China；2.Research Institute of Unmanned Aircraft，Nanjing University of Aeronautics and Astronautics，Nanjing 210016，China）

Synthetic aperture visual measurement is the combination object of multi-vision measurement and monocular vision measurement is.Synthetic aperture focusing measurement is a common image vision method.The method is stable when illumination，color，or texture changed and it's real-time processing.The technique is suitable for complicated transportation management project and it provides a novel navigation method for autonomous vehicle driving system.Using pinhole imaging model，a sequence of images is taken by coplanar camera arrays.For each segment，barrel distortion and parallax correction stack image is calculated.Then the regional similarity metric of the reference image and the stack image is got.The target distance is in the segment which has maximum similarity metric of the reference image and the stack image.Simulation results verify the efficacy of this scheme.Depth from synthetic aperture focus has good robustness and the algorithm is simple.

camera arrays；synthetic aperture；depth from focus；monocular vision

TN911.73

1674－6236（2016）11-0181-05

2015-06-27稿件编号：201506228

陈智（1990—），男，安徽安庆人，硕士研究生。研究方向：图像处理、合成孔径聚焦成像。

基于合成孔径聚焦图像信息的车载三维视觉导航方法

1 合成孔径聚焦成像原理

2 合成孔径图像序列的超分辨率重建

3 合成孔径目标深度图像计算

4 测距精度和测距范围

5 结 论

1　合成孔径聚焦成像原理

2　合成孔径图像序列的超分辨率重建

3　合成孔径目标深度图像计算

4　测距精度和测距范围

5　结　论