曹昭睿, 郝永平, 刘万成, 白帆, 孙颢洋, 张慧, 李宇海
(1.沈阳理工大学 装备工程学院, 辽宁 沈阳 110159; 2.光电信息控制和安全技术重点实验室, 天津 300308;3.沈阳理工大学 机械工程学院, 辽宁 沈阳 110159)
随着机器视觉技术与人工智能技术的不断发展,新一代智能武器系统对广域成像与快速探测的需求日趋增多。目前,常规视觉成像系统均为单镜组- 单光电探测器构型,受到光学成像关系制约,这类单孔径成像系统为实现大视场探测能力,只能以牺牲探测距离和扩大系统口径作为代价。但若想在扩大探测视域的前提下进一步实现系统小型化,这种构型则已经到达了优化极限。故对于无人机、导弹、智能弹药等平台而言,传统单孔径成像设备难以兼顾其对体积小、视场大、探测距离远的成像需求,无法从根本上提升上述武器的视觉感知能力。
为了能够还原真实环境中的高分辨率大视场图像信息,研究人员将技术较为成熟的独立相机组作为每个子眼通道构型,采用多通道相机组阵列的方式构建一种新型仿生复眼。文献[5]研究了一种3×3多相机阵列的仿生复眼及其图像拼接技术,在完成复眼探测器设计后,基于尺度不变特征变换(SIFT)与随机抽样一致性(RANSAC)算法,实现整体场景的无盲区拼接,能够满足轻型武器系统的视觉探测需求;文献[6]以柔性线路板(FPC)和现场可编程门阵列(FPGA)作为硬件基础,设计了19眼曲面阵列成型仿生复眼系统,其整体重量约为1 kg,能够在180°×120°的大视场内采集并拼接多路图像,具有较强的实用性。由于多相机阵列复眼的特殊成像结构,需要利用图像拼接算法将各通道所采集的图像还原成全局环境图像,以便后续观测和识别计算。故在该类型复眼基础上,文献[7]采用多相机球面阵列的方式,设计了一种全景立体成像复眼系统,并利用加速鲁棒特征(SURF)对多通道图像进行配准,实现多角度图像的同一视平面映射于全景图像重构;文献[8]在SIFT算子基础上,通过采用欧氏距离法和随机抽样一致性算法对特征点对进行筛选,配合加权平均法融合图像,完成了九目式复眼的图像拼接与目标定位;文献[9]以FPGA为处理核心,利用Harris角点检测算法进行图像配准,重建出复眼系统的全局高分辨率图像。
多相机阵列型复眼在成像清晰度与大视场探测能力上有良好表现,但其所携带的成像设备较多,其质量、体积与所产生的图像数据计算量较大。对于小型无人机、低速弹箭、智能弹药等载荷空间与计算能力受限的武器平台而言,多相机阵列复眼无法满足上述平台对探测系统体积小、质量轻、易搭载的需求。同时,传统基于单像素匹配与对准的图像拼接算法虽然能够较精准地对多视角图像进行拼合,但这些方法的图像计算量较大且计算耗时较长,在配合多相机阵列型复眼进行探测时,该类型拼接算法的开销将倍增,无法满足有实时探测需求的任务。因此,为了能够提升仿生复眼探测系统的泛用性,必须对其光学结构与图像处理算法进行优化设计,在确保广域清晰成像的前提下,实现复眼系统的紧凑化与图像拼接算法的高效化。
针对当前多相机阵列复眼在光学结构与算法开销方面存在的问题,为满足陆行、飞行小型无人机与低速视觉制导弹箭对紧凑型大视场视觉探测器的需求,本文开展了折叠反射式(以下简称折反式)仿生复眼的成像原理研究,并依托该光学结构设计了一种基于区域结构相似性的图像快速拼接算法。本文的主要工作与创新点为:1)开展了多视角光学系统的并行分区成像研究,通过光信道折叠反射实现多像面归一,解决复眼系统对多光电探测器的依赖,降低了复眼成像系统的体积、成本与图像数据生成量;2)提出一种基于区域结构相似性的折反式复眼图像快速拼接算法,在低尺寸特征图上进行递进快速拼合,完成相邻子眼重叠视域内的重复成像信息过滤;3)利用折反式复眼模拟样机成像系统,配合目标识别卷积神经网络,验证折反式复眼的图像快速拼接与目标识别能力。基于上述内容,所提出的折反式仿生复眼成像构型具有结构紧凑、探测视域广的特点,配合所设计的多通道图像拼合与目标识别网络,可实现大视场下全局图像快速重构与目标实时精确识别,满足了仿生复眼系统的轻量化、低成本化、高效化与智能化设计需求。
三目式光路折反成像结构如图1所示。折反式复眼同一成像层级由相邻通道下主光轴互相垂直、且位于同一平面的3个子眼镜组以及1个光电探测器构成。位于层级中心、光路垂直于光电探测器靶面且不需光路折反的为中心子眼;位于层级两端、需要进行光路折反的为左、右边缘子眼。各子眼系统在光学结构上相同,且等效光程保持一致。经过光路折反后,同一层级下的3个子眼像平面将与光电探测器靶面重合。考虑到复眼内部构件的易安装性、抗振动与过载能力,折反式复眼利用换向棱镜实现边缘子眼的光路反射与折叠。换向棱镜的一端将与光电探测器靶面进行耦合,另一端用于接收对应子眼通道的光信号。成像时同层级子眼将光电探测器靶面进行三等分分区,并同步对所对应的成像分区进行映射。对于多维度成像与探测需求,可对折反式复眼的成像层级进行扩充,构建多层级成像结构。由于各层级间光学结构与成像原理相同,且单层级结构能够满足本文面向的使用环境需求,故本文仅对单层级紧凑型折反式仿生复眼成像系统进行研究。图1中为子眼半视场角,为相邻子眼主光轴夹角,为换向棱镜与光电探测器靶面间距。
图1 三目式光路折反成像结构Fig.1 Trinocular catadioptric imaging structure
同层级内中心子眼与边缘子眼将对同一个光电探测器靶面进行分区成像,该过程中边缘子眼在利用换向棱镜进行光路折反时,需保证经棱镜折反后的像面与中心子眼像面共面,并与光电探测器靶面的对应区域重合。为避免同层级多路子眼同步映射时产生光路干涉,需要依照不同子眼所在位置与探测区域,对光电探测器靶面进行区域划分,使对应的子眼仅在该区域内成像。为最大化单光电探测器靶面利用率,同层级各子眼对应光电探测器的靶面分区方式如图2所示。图2中,、分别为光电探测器靶面宽与高。
图2 各通道对光电探测器靶面分区Fig.2 Segmentation of the photodetector’s area
为保持经换向棱镜偏折光路后的边缘子眼像面完整,且不损失边缘视场的成像信息,棱镜尺寸与光电探测器靶面尺寸满足以下关系:
(1)
式中:、分别为换向棱镜高与直角边长。由于中心子眼与左、右边缘子眼在光学结构上一致,为使中心子眼与左、右边缘子眼像面能够重合,中心子眼的后工作距离需要具有足够的空间,以使同结构的边缘子眼能够容纳换向棱镜进行光路折反,则子眼的光学结构存在以下约束:
(2)
式中:为子眼系统工作距离;为有效焦距。为防止复眼出现视角盲区,相邻子眼间需要具有一定的视域重叠。同时为确保系统整体光学性能的提升,视域重叠区域不能过大,则子眼全视场角2与相邻子眼主光轴夹角间应满足:
<2≤2
(3)
对于不同的探测环境,折反式复眼的光电探测器成像性能需要结合不同任务需求进行调整。复眼成像系统截止频率与光电探测器像元尺寸间关系表示为
=1 0002
(4)
考虑到小型无人设备在机器视觉探测任务中的需求与限制,根据光学系统设计原理与上述折反式复眼成像几何关系,解得如表1所示的单通道子眼光学设计参数与约束条件。
表1 单通道子眼光学设计参数与约束条件
表1将作为折反式复眼中子眼光学系统的初始设计条件与性能验证指标,以Zebase光学模型库中广角光学成像系统作为基础构型,利用ZEMAX软件对中心子眼与边缘子眼进行光学设计与优化。建立中心子眼与边缘子眼的光学成像模型后,本文将对同层级下各子眼的阵列位置进行确定,实现复眼系统整体光学结构的紧凑化与大视场化。对各子眼通道建立光学等效模型,得到如图3所示的同层级中心子眼与边缘子眼布局关系。
图3 中心子眼与边缘子眼布局关系Fig.3 Layout structure of the central and border sub-eyes
建立以中心子眼和边缘子眼主光轴构成的复眼阵列空间坐标系,其原点为各通道主光轴交点。中心子眼等效模型中心距点的阵列距离为,边缘子眼等效模型中心距棱镜入射面的阵列距离为。对于纵向主光轴单侧的布局关系,边缘子眼等效模型中心距点的阵列距离为
=+2
(5)
折反式复眼视域盲区存在最远盲点,该点位于相邻通道的视域边缘交点处。根据图3中所示的几何关系,最远盲点在复眼阵列空间坐标系中位置(,)可表示为
(6)
经整理,紧凑型折反式仿生复眼最远盲点位置为
(7)
根据不同探测任务中成像视场角、探测距离、识别目标尺寸、物方分辨率等成像需求,同时结合搭载平台对复眼系统质量、体积、功耗等约束条件,即可确定该环境下折反式复眼系统的子眼光学结构与各通道空间阵列方式,完成折反式复眼的光学成像模型构建。
传统复眼中各子眼主光轴不共面,需要进行像素级的多维度图像匹配拼接,这一过程将产生大量的计算开销,严重影响了复眼探测器的图像实时反馈能力。故本文针对这一问题,基于所提出的单层级折反式仿生复眼成像系统,提出一种利用区域结构相似性的快速图像拼接算法,同时配合含有残差层的深度卷积神经网络,以实现全局图像的快速拼接与目标精确识别。折反式仿生复眼图像拼接与目标识别网络(CMRNN)结构如图4所示。
图4 CMRNN结构示意Fig.4 Network structure of CMRNN
由于折反式复眼的特殊成像结构,各子眼主光轴已共面,故图像拼接时只需进行单方向匹配,降低了拼合时数字图像矩阵计算维度。本文在折反式复眼的光学成像结构基础上,设计了一种基于区域结构相似性的特征图快速拼接算法,其核心结构如图5所示。
图5 IPP结构示意Fig.5 IPP structure
在同一时刻下,折反式复眼系统将通过左侧边缘子眼、中心子眼和右侧边缘子眼,分别采集对应探测域内的原始图像、、。相邻子眼下的原始图像将同步输入至IPP中进行重编码,提取原始图像中的关键像素信息并降低图像尺寸,减少后续拼接过程的数据计算量。
折反式复眼各子眼均会生成尺寸为×的原始图像,在面对不同的探测任务时,折反式复眼中子眼光学结构与镜组参数需要进行调整,导致各通道成像尺寸与光电探测器靶面尺寸不固定,即单通道采集的原始图像尺寸×为变量。由于拼合过程中需保证每个待拼接特征图的尺寸一致,为了使IPP能够适配不同光学结构的子眼,本文将利用自适应池化层首先对任意×尺寸的原始成像进行整形,统一输出尺寸为×的特征图,自适应池化层各项参数计算方法如下:
(Kh,Kw)=(hin,win)(Sh,Sw)=(hin,win)(Ph,Pw)=Khn-hi+12,Kwn-wi+12
(8)
式中:、分别为自适应池化核高与宽;、分别为单通道输入原始图像的高与宽;、分别为自适应池化核在与方向上的移动步长;、分别为原始图像在与方向上的填充长度。则在确定的尺寸后,经自适应池化整形的输出图像高与宽分别为
(9)
本文将自适应池化输出尺寸设定为416,则经上述计算后,任意尺寸的单通道输入图像将均被整形为416×416的尺寸。原始图像经自适应池化层整形后,将继续经过图5中连续的最大池化与平均池化操作,进一步缩减图像尺寸并凝练特征。该过程中将依次输出、、、4张尺寸不同的特征图,相邻通道下同尺寸的特征图将进行区域结构相似性对比,以确定该尺寸下相邻通道特征图的拼接边界坐标。根据不同尺寸特征图下所采用的拼接策略,IPP的拼接过程可分为尺度的拼接定位、(=1,2,3)尺度的拼接定位与原始图像拼合。
IPP首先进行如图6所示尺度下的图像拼接定位。当原始图像经过多次连续池化后,IPP网络将首先对尺度最小的特征图沿方向进行区域切片,切片数量与特征图尺寸保持一致。同时,IPP网络将生成一个高度与特征图高度相同、初始宽度为1、扩展步长为1的特征提取框,特征提取框将不断截取特征图上的区域切片信息。特征提取框由滑动端和固定端构成,其中尺度下的固定端将锚定于特征图待拼接一侧,滑动端的初始长度为1,并在每一次提取切片信息后按照扩展步长进行放大,尺度下的特征提取框各参数约束条件与切片提取过程如(10)式和图7所示:
=×,=+≤,=,
=1,=(,0)
(10)
式中:为特征提取框所截取的区域;为初始值为0、自增幅度为1的整数;为尺度下特征图尺寸;为尺度下特征提取框左上角顶点坐标。
图6 P0尺度下特征图的结构相似性拼接过程Fig.6 Structural similarity splice process of P0 scale
IPP将依照步长调整特征提取框的大小,使滑动端延长,不断截取相邻通道内特征图中尺寸相同的对应区域,计算对应间的马氏距离并进行对比,相邻通道成像的待拼接特征区域间马氏距离()为
图7 P0尺度下特征区域提取过程Fig.7 Feature extraction process of P0 scale
(11)
式中:、为相邻通道下两组内部矩阵化的图像信息;为、的协方差矩阵。由图6与(11)式可知:随着滑动边的不断变化,特征提取框左上角顶点的位置不断靠近两子眼的视场重叠区域边界,所截取信息中的成像重叠区域与图像相似性增大,相邻通道下间的马氏距离将不断减小;当滑动边超过视域重叠区域边界时,特征提取框内部的图像信息将不断出现非重复内容,图像相似性将逐渐减少,间的马氏距离将开始增大,该过程如图8所示。
图8 马氏距离与视域重叠区域变化趋势Fig.8 The change trend of Mahalanobis distance and the overlapping area of FOV
图9 Pi尺度特征图的结构相似性拼接过程及循环方式Fig.9 Structural similarity splicing process and cycle of Pi scale
(12)
=×,=±1≤,=,=-1,=(,0)
(13)
图10 Pi尺度下特征区域提取过程Fig.10 Feature region extraction process of Pi scale
IPP网络经多次特征图级拼合后,尺度获得的拼接边界定位点将向对应通道下的原始图像进行映射,以获得可用于原始图像拼合的拼接边界定位点。根据(8)式可知,原始图像经过自适应池化层时进行了图像填充,故为还原真实图像的视域重叠边界,与的映射关系为
coi=(c3×wim3,0)
(14)
(15)
图11 原始图像下的图像拼合过程Fig.11 Image mosaic process of original scale
经过上述步骤后,IPP即可基于特征图级下的区域结构相似性,对多路图像进行快速拼接。对于目标识别算法而言,因该构型复眼的全局成像面积更大,所配合的目标识别网络需要具备一定的小目标检测能力。故在此基础上,本文将以YOLOv3卷积神经网络作为目标识别构架,并在其基础上进行网络轻量化处理,以验证紧凑折反式仿生复眼及图像快速拼接识别算法在目标探测任务中的可行性。至此,已完成针对折反式复眼的图像快速拼接与目标识别算法设计,使探测系统具有全局图像快速重构与目标识别的能力。
为验证折反式复眼的成像机理与探测能力,本文依照表1中光学设计约束,利用ZEMAX软件进行光学仿真,折反式复眼光学成像结构模型、各通道成像质量测试结果与光学性能指标如图12和表2所示。
图12 折反式复眼光学成像结构模型与各通道成像质量测试结果Fig.12 Optical imaging structure model of the catadioptric compound eye and imaging quality results of each channel
表2 折反式复眼光学性能参数
通过图12(a)与表2可知,折反式复眼已具备多角度大视场探测能力,通过光路折返与像面归一的方式,提升了复眼内部空间利用率并降低了光电探测器搭载数量,实现了仿生复眼成像系统的紧凑化设计。图12(b)、图12(c)中,中心子眼与边缘子眼在156线/mm处的全视场最小MTF值均大于0.3且曲线平滑,具有良好的成像品质;图12(d)、图12(e)中,艾里斑半径为3.00 μm,各通道子眼在0°≤≤45°范围内均方根(RMS)半径均小于艾里斑半径,满足折反式复眼的大视场清晰成像需求。部分子眼通道在45°<<70°视场范围内RMS半径略大于艾里斑半径,会产生一定的成像像差。但超出数值在允许畸变范围内,通过图像矫正算法可以降低镜组边缘像差,且位于该视场范围内的成像信息将仅作为后续拼接算法的对比参考,故不影响仿生复眼系统的探测效率。利用操作数PMAG计算出子眼系统放大率为-0.000 23,对于位于30 m处两个相距0.2 m的目标,其在光电探测器靶面上的成像间距为46 μm。结合瑞利判据与图12(d)、图12(e)中各视场内弥散斑尺寸可知,子眼镜组的物方分辨率已达到0.2 m,可以满足小型无人设备对车辆与人员目标进行清晰成像与分辨的需求。
完成折反式复眼成像性能验证后,以折反式复眼光学模型作为基础,制备紧凑型折反式复眼模拟样机成像平台。该平台内部光路与成像原理与折反式复眼相同,成像镜组与折反式复眼子眼等效,采用靶面为1/4″的CMOS作为光电探测器。对于运动状态拍摄与使用条件恶劣的环境,搭载平台晃动导与探测器内部振动将分别导致成像拖影与内部光学器件位移,进而影响图像拼接与成像质量。针对这些问题,可采用复眼光学全部件耦合连接与更换高帧率相机作为手段,降低复眼系统内部器件振动位移并提高光电探测器单帧拍摄速度,以解决光路错位与光电探测器响应速度不足产生的成像误差。紧凑型折反式复眼模拟样机成像平台如图13所示。
图13 紧凑型折反式复眼模拟样机成像平台Fig.13 Imaging platform of the compact catadioptric compound eye
紧凑型折反式复眼模拟样机成像平台机械尺寸为60 mm×40 mm×38 mm、总质量为230 g(不含圆盘底座)。在进行基于紧凑型折反式复眼模拟样机成像平台的多路图像采集拼合与目标检测前,需要对目标识别网络进行训练。本文以VOC 2012中车辆与人的数据作为训练集,训练平台为DELL Z840,CPU配置为Intel Xeon E5-2643 V3,主频3.4 GHz,GPU为Quadro P5000,运行内存32 GB,计算环境为Ubuntu 18.04,算法编写语言为Python,配合Tensorflow 2.0与Opencv 3.2作为辅助高级API。完成训练后,本文利用折反式复眼模拟平台进行真实环境下的多路图像采集与快速拼接识别测试,测试结果如图14所示。
图14 折反式复眼实景探测结果Fig.14 Live scene detection results of the catadioptric compound eye
图14(a)为复眼系统内部光电探测器采集的未拼接原始图像,其中阴影部分为视场交叉区域的成像重叠部分。折反式复眼通过子眼末端光阑与换向棱镜,对各通道子眼的传播光线进行空间约束,使相邻通道下入瞳与出瞳间均无光路干涉,避免了多光学系统- 单光电探测器分区成像时出现的光线串扰问题。经CMRNN处理后,复眼快速拼接与目标识别结果如图14(b)所示。从上述测试结果可以看出,本文所设计的CMRNN能够配合折反式复眼,将多通道图像拼接成大视场全局图像,并利用拼合结果对目标进行识别。由于折反式复眼各子眼主光轴方向不同,在立体视觉效应与不同光照角度的影响下,全局拼接图像将含有如图14(b)中拼接线附近物体变形与相邻通道成像亮度差异的少量误差。由于上述误差在CMRNN网络的特征提取过程中将被过滤,故并不会影响全局图像拼接与目标识别效果,仅会在全局图像观测上表现出来。本文中折反式复眼光学结构设计主要面向广视域多通路图像拼接与目标识别任务,适用于近距离、目标纵深梯度均衡的成像环境。对于远距离高质量探测任务,可在本文提出的子眼光学系统上进行进一步优化,采用高景深光学系统或非球面镜组降低透视误差,同时配合图对比度自适应调整、风格迁移生成对抗网络等算法,对各通道亮度、对比度、色度等成像参数进行归一化处理,进一步降低上述成像误差。
除针对CMRNN进行计算速度、识别精度等性能指标的测试外,本文通过不断调节待检测目标距离与位置,测试出CMRNN的真实探测能力。该实验测试结果如表3所示。
表3 CMRNN探测性能指标
通过表3的测试结果可知,基于折反式复眼成像机理验证平台下的CMRNN具有实时解算能力,其成像能力、识别能力、视场重叠率与理论计算值基本相同,可以对多通道图像进行快速拼接与全局目标精确识别。
在此基础上,本文对各类图像拼接算法进行了测试,以评判IPP算法的拼接速度与拼接精度。考虑到小型无人设备的搭载能力,图像快速拼接测试将以英伟达公司的Jetson TX2微型图像处理模块作为验证平台。拼接精度评判标准将参考文献[16]中的图像拼接信息率计算方法,通过计算拼接后全局图像信息量、拼接后图像尺寸、拼接图像冗余信息量、原始环境图像信息量等参数,判断各算法的拼接精度。将本文参考文献中涉及到的拼接算法与本文所设计的图像拼接算法IPP移植到Jetson TX2后,其测试结果如表4所示。
表4 各图像拼接算法测试结果
结合上述测试结果可知,本文所提出的拼接算法在保证了良好的拼接精度前提下具有更快的拼接速度。由于IPP采用了基于区域结构相似性的判断策略,仅在特征图级进行特征对比,故在完成特征图向原始图像拼合时存在一定的像素级信息丢失,导致该算法的拼接精度略低于其他基于像素级匹配的拼接算法,但总体精度仍满足大视场观察与后续检测任务需求。若需进一步提高拼接精度,可在确保拼接速度的前提下,降低滑动边的移动步长(本次实验中步长为1),使IPP算法拼接采样细粒化。同时,IPP减少了基于像素级特征匹配算法的后续特征点筛选与过滤环节,有效地降低了计算开销并提高了多通道图像拼接速度。在得到CUDA、Tensorflow等图像计算构架的支持下,IPP能够实现多角度图像的快速整合,对于算力有限的微型图像平台有良好的适用性,能够配合折反式复眼成像系统进行全局图像的快速重构。
同时,为验证基于特征图级结构相似性拼接策略面向背景信息重复率较高环境的图像拼接能力,本文以森林、草地环境下的无人机航拍图像作为测试样本,进行IPP网络的快速拼接测试。测试过程中待拼接的左、右通道图像将含有大量重复率较高、语义信息特征相近的信息,同时确保左、右通道待拼接区域面积及其切片分割序列一致,则IPP网络对高信息重复率图像拼接测试结果如图15所示。
从图15中结果可知,IPP网络能够有效地将高信息重复率图像进行正确拼接。其中相邻拼接图像内对应区域归一化马氏距离仅在语义信息完全一致的区域上获得了全局最小值(0号切片分割序列区域),其他非拼接区域内归一化马氏距离均存在较大差异。由于IPP网络采取了区域特征提取与结构一致性对比,能够对空间范围内像素间特征关系进行提取,避免了单点匹配策略在高重复率图像拼接上易出现的多拼接点候选的问题,证明了IPP网络具有面向高信息重复率图像的精确拼接能力。
图15 高信息重复率图像拼接测试Fig.15 Image splicing tests with high information repetition rate
综上,本文通过光学仿真与实景计算测试的方式,验证了折反式仿生复眼的成像机理与基于区域结构相似性的图像拼接目标识别网络的可行性,证明了所提出的折反式复眼及其图像拼合目标识别算法具有大视场清晰成像、多通道图像快速拼合与目标精确实时识别的能力。
本文提出了一种折反式仿生复眼成像原理及其图像快速拼接识别算法,通过光路折反与多角度子眼像面归一的方式,构建多孔径- 单探测器结构的紧凑型大视场仿生复眼成像光学系统。利用基于区域结构相似性对比的图像拼接算法,对多角度子眼成像进行特征图级的快速拼合。配合深度卷积神经网络,对目标进行全局图像下的识别与定位。实验结果表明,所提出的折反式复眼结构紧凑、探测视域广、成像清晰,配合所设计的图像拼接与目标识别算法,能够实现大视场成像下的目标快速精确识别,可以为小型无人机、低速弹箭等载荷与算力受限的智能武器提供良好的视觉成像与探测支持。