建筑工地高分辨率无人机全景图像关键帧选取与拼接

2019-09-13 07:38孙光灵朱庆生李茜茹
巢湖学院学报 2019年3期
关键词:全景图关键帧建筑工地

孙光灵 朱庆生 李茜茹

(安徽建筑大学 信息网络中心,安徽 合肥 230601)

0 引言

图像处理在各领域得到广泛应用,在建筑行业也不例外,广泛应用于生产力分析[1]、安全管理[2]、设备状况评估[3]和施工进度监测等方面[4]。相比较而言,大型施工现场设备的运动状态分析、进度监测或材料跟踪相对复杂,因此,需要一种方法来生成高分辨率的全景图像。通常情况下,自动生成一个大型建筑工地的全景图像,需要分批次捕获整个站点或其中的大部分重要建筑物的相对位置,如材料堆体、重型设备和各种临时结构,只有在获得整个工地或其中大部分场景图像情况下才能进行有效的全景图像拼接。

图像拼接在计算机视觉领域发展了几十年,产生了多种优秀成果,如图像合成编辑器(ICE),照片标题[5]和自动标题[6],自动创建个由用户输入多张图片的全景图。虽然这些软件可以方便地进行图像拼接与合成,但生成的全景图像质量有待提高。因全景图像的质量取决于图像之间的重叠率、镜头畸变以及输入图像的质量水平等,需要对原始图像进行多种处理,使其成为高质量的全景图。

无人驾驶飞行器(UAV)可以有效地收集建筑工地的图像信息[7]。与有线闭路摄像机不同,加装了摄像头的无人机可以从不同角度采集图像。图像获取虽然简单,但是利用无人机图像进行施工现场监测却相对困难,主要表现在三个方面:第一,必须及时处理建筑工地上大量的图像;第二,无人机因风向风速和飞机控制不稳定而产生的振动会导致所获取的图像质量下降,增加了图像处理的难度;第三,无人机的连续位移变化使相机的定标计算变得更加困难。

图1 无人机图像拼接方法的概要图

1 实施方案

1.1 方案概述

针对上述问题,文章提出了一种基于无人机视频的高分辨率全景图像自动生成方法,自动处理被无人机捕获的建筑工地的视频,生成高质量的全景图,展现整个施工场全貌。该方法主要由模糊滤波、关键帧选择和摄像机校正三个模块组成。第一个模块识别并移除相对帧模糊的帧。该方法参照Crete等的研究[8],滤除在某一特定阈值以上的帧。第二模块选择与相邻帧之间有一定的重叠比的关键帧。通过无人机的高度和速度参数,统一表达整个区域。第三个模块用于修正前一模块所选关键帧的镜头畸变,利用摄像机的固有参数和无人机的摄像机标定对关键帧的镜头畸变进行校正。预处理后的图像采用图像拼接程序来创建高质量的施工现场全景图。

1.2 模糊帧去除

无人机的振动和控制系统不稳定是导致模糊图像的产生的原因之一,拍摄过程中目标物体的运动同样会导致模糊图像的产生,造成图像拼接质量变差,因此在预处理环节对无人机视频中提取的帧间模糊图像进行判定和去除[9]。

Crete等提出的“无参模糊度量法”[8],在不参考其他图像的情况下,对每个图像的模糊程度进行量化。模糊度量法是基于模糊图像丢失了图像高频分量,因而采用低通滤波器对原始图像进行模糊操作,并比较滤波前后图像的强度变化。如原始图像和模糊图像之间的强度差别较大意味着原始图像是清晰的。如果偏差很小,则认为原始图像是模糊的。

然而,从同一个图像裁剪的子图像会因所裁剪对象不同而有不同的模糊度量值。图2(b)、(c)和(d)显示图像出现在同一分辨率201×201的原始图像显示在图 2(a)。 虽然图 2(b)、(c)和(d)都是相同的原始图像,但它们都有不同的模糊度量值(0.3147,0.4600,和 0.4871)。在此引入移动平均概念,计算并比较相邻帧的模糊度,确定模糊度比相邻帧大的图像为模糊图像。(a)原始图像,(b)裁剪图像为0.3147 BV,(c)裁剪图像为0.4600 BV,(d)裁剪图像为 0.4871 BV。

滤波方法如式(1)和式(2)所示。 式(1)表示每个帧的模糊度的计算过程。为了正确识别移动平均滤波器的帧,根据帧(k)的位置和滤波器(n)的长度之间的三种关系分别计算。

图2 裁剪位置对模糊度量值影响

式(1)中Xk是第k帧的模糊度,为第k帧图像模糊度均值,n为相邻帧数目,m为视频帧总数。式(1)计算得的模糊值以后,利用模糊度量值Xk减去所获得的移动平均模糊值,其差值如超过阈值(α),这个帧被认为是模糊帧。如式(2)所示。

1.3 关键帧选择

从视频中提取的帧直接进行拼接时间复杂度相对较大,特殊情况下还难以生成全景图。在无人机视频中,由于飞行速度和飞行高度不恒定,当对某一特定区域拍摄较多视频帧时,其它区域视频帧拍摄数量则相对减少,帧间的重叠率变化较大,图像拼接过程中可能出现偏差,为此必须选择具有重叠率恒定的关键帧进行拼接。

实验中利用三角剖分原理解决关键帧的选取过程。式(3)表示每单位时间选择的关键帧数,并利用瞬时水平速度、瞬时有效水平距离和无人机单位时间的概念。瞬时有效水平距离是无人机视距和交叠区域之差,因此相应的关键帧和它相邻的关键帧拥有恒的重叠率(图3)。在本研究中,假设瞬时有效水平距离是同一无人机在不同位置拍下了两个帧之间的差集,同时也是两个相邻关键帧中心点的实际距离。单位时间是指无人机记录的水平速度的具体时间间隔。

图3 无人机拍摄示意图

如图3所示,无人机移动所需单位时间是通过无人机的实时水平速度和无人机视离,得到无人机瞬时有效水平距离,然后将结果乘以转换因子(dt/1(s)),将时间秒的单位时间转换为无人机的单位时间。再适当地选择交叠率,则产生单位时间的关键帧数。

式(4)表明,f(t)是到时刻 t时所选的帧的数量,其中NKFUT是单位时间内的关键帧的数量。f函数的最大值是不超过f(T)最大的整数(T=视频的总时间),即关键帧的数目(N)。 实际求解时 f(t)的值根据t值的变化取多个实数,从所求实数中选择最接近自然数的值为关键帧。

图4显示了使用f(t)选择关键帧的过程的一个例子。纵轴NKF为关键帧,横轴为无人机飞行数据的时间(单位为0.1s),视频帧率为30。在视频播放时,捕获了37.6~37.7 s之间的帧数分别是9.075和9.335,取最接近的整数帧为第9帧。随着秒到帧的转换,第9个关键帧位于视频的1125和1129帧之间。

图4 关键帧选择例子

使用两个点1125和1129,对应的值为f(t)的9.075和9.335,根据插值方法选择最接近自然数字9的1125帧作为关键帧。如果第1125帧被确定为一个模糊的图像并被删除,第1126帧,这是第二个最接近自然数字9的帧,被选择为关键帧。算法1总结了选择关键帧的步骤。根据这一过程,无论无人机的位置如何变化,都可以从视频中选择保持恒定重叠率的帧。

1.4 相机校正

当一个三维目标通过摄像机拍摄成二维图像时,由于相机镜头原因会产生两种类型畸变[10]:凸透镜的折射率引起径向畸变,这种畸变在使用广角镜头拍摄宽幅图像时表现尤为突出;存在切线失真,主要原因是因为相机镜头偏离中心,或是因为镜头与图像传感器不平行造成的偏离。这两种畸变导致图像拼接过程中无法完整对齐,降低了全景图的质量[11]。为了校正摄像机的径向畸变和切线畸变,必须通过标定摄像机的固有参数(焦距、主点、倾斜系数、畸变系数)加以解决。

1.5 图像拼接

图像拼接过程包括特征提取、特征匹配、光束调整、图像融合等,根据输入图像构建全景图像。首先,根据相机的姿态,从每幅图像中提取特征点。在图像拼接中,基于特征的方法更优先于基于所有像素的直接法,因这种方法在尺度、方向和透视缩放有较强的鲁棒性[12]。第二,从每幅图像中提取的特征点与从其他图像中相同位置特征点相匹配。随后,利用随机绝对一致性(RANSAC)技术改进了特征点匹配的精度[13],因RANSAC能有效处理噪音和遮挡等问题。第三,束调整[14]估计相机的姿态和输入图像的三维点坐标,以便正确地将配准误差分配给图像连接处。L-M算法[15]是一种非线性优化方法,用于最小化两幅图像中匹配特征点位置之间的差值。近来的图像拼接技术,利用Lourakis和Argyros[16]提出的雅可比矩阵的稀疏结构,有效地进行束调整,以减少L-M算法的计算时间。通过这种方式,将输入图像合并到具有同一坐标系统的图像中。最后,图像融合平滑了两幅图像之间的边界。合并后的图像由于出现位置偏移、透镜失真和亮度差异,可能缺乏清晰的图像边界。如果用像素值的加权平均值来处理平滑处理,由于高频组件(例如边缘)的丢失,会造成模糊效果,从而降低了全景图的质量。文章借鉴LOURAKIS的图像拼接技术[17],将合并后的图像分解成不同频率尺度的图像。包含低频分量的图像在相对较宽的范围内平滑,而高频分量则在相对较小的范围内平滑。

2 实验

本方法在某地铁施工现场进行了测试,实验表明,由此方法产生的建筑工地可见光全景图像覆盖了大部分建筑工地,并提供了高质量的细节,完成了现场所需图片的有效拼接。

2.1 实验环境

提出的方法是用MATLAB编程语言实现的。本实验中使用的无人机是DJI公司的MavicPro高清专业航拍无人机。UAV摄像头的fps最大为30,视频最大分辨率为3840×2160。摄像机标定是使用MATLAB的摄像应用程序进行的。在一个地铁建筑工地测试地点。拍摄的视频时长84 s的播放时间。

2.2 结果

图5显示的视频所有帧的模糊测量过程,结果表明帧的模糊测量存在较大的变化。如前所述,每幅图像的模糊度与移动平均相比较。如果差异大于0.01的阈值,则确定该帧为模糊图像。在本研究中使用的2540帧中,总共有176帧被认为是模糊的,被删除,导致使用2364帧。

图5 所有帧的模糊性和移动平均滤波器

为了找到合适的重叠比,测试了一系列比率,包括50%、60%、70%、80%和90%。在以往的研究中[18-19],图像拼接的重叠比设置为50%,因此本研究的重叠率至少设置为50%。

图6显示了不同重叠率的全景图,以及所选关键帧的数量。由于重叠率较低[20-21],在结果全景图中出现了更多的缺失部分;图 6(c)、(d)和(e)显示了图 6(a)和(b)中不存在的部分,主要有几个方面原因。首先,UAV的实际FOV达不到标称的那样宽。在这个实验中,检测到一个小于94°视角的FOV。第二,与之前的研究不同,UAV在三维空间内不断发生了位置的变化,很难以静止不变的方式捕获目标对象。

图7显示了无人机在95米高度和相应全景图拍摄的航空照片。图7(a)和(b)的分辨率分别为 3840×2160 和 8345×10531。

综合考虑图像拼接的质量和效率后将重叠率设为70%,如果视频对象中有更高的关键帧数,重叠率就应设为80%或90%以上,因而图像拼接时需要消耗更多时间,产生更大偏差,所以重叠率的确定必须综合考虑各种因素。

图7(b)显示了由16个图像帧组成的全景图,重叠率为70%。与航拍照片比较表明,全景图中物体的错位或角位移并不显著,论文所提出的方法产生的全景具有足够的准确性,可以适用于施工现场监测。

3 总结

图6 不同重叠比率(OR)的全景图,以及选定的关键帧数(NKF)

图7 航空照片与生成全景图的比较

论文提出了一种快速提取关键帧的图像拼接方法,重点介绍了从无人机采集的图像预处理部分。预处理方法由模糊帧处理、关键帧选择和相机校正三个模块组成;模糊帧处理模块采用相邻图像模糊值的移动平均,选取了清晰图像,消除模糊图像;而关键帧选择模块在相邻帧之间保持了恒定的重叠率,利用无人机高度信息和水平速度信息来选择关键帧;相机校正模块,处理相机透镜和飞行器运动等因素产生的镜头畸变。经三个模块处理后,最后拼接为高质量的建筑工地全景,实验表明该方法得到的合影图像满足建筑工地施工现场监控需求。

猜你喜欢
全景图关键帧建筑工地
基于计算机视觉的视频图像关键帧提取及修复方法
建筑工地更需“硬核防疫”
如何做好建筑工地规范化安全管理
建筑工地坠楼案
自适应无监督聚类算法的运动图像关键帧跟踪
嫦娥四号月背之旅全景图
基于改进关键帧选择的RGB-D SLAM算法
基于聚散熵及运动目标检测的监控视频关键帧提取
环保概念股全景图
奇妙岛全景图