基于无人机视频流的实时拼接方法研究

2024-11-30 00:00:00刘彬梁攀攀卢迪靳冉
现代电子技术 2024年23期
关键词:视频流关键帧线程

摘" 要: 针对无人机视频流的实时拼接方法进行深入研究,提出一种多线程并行处理的无人机视频实时拼接方法,主要解决无人机视频流实时拼接问题。该方法充分利用计算机并行运算的特点,将视频实时拼接工作分解成多线程工作模式,主要由图像配准线程、非线性优化线程、闭环检测线程、图像拼接线程组成,其中图像配准线程实现对视频关键帧的自适应提取和配准,包括特征点检测、特征点匹配、图像粗配准;非线性优化线程完成对拼接参数模型的动态优化以最小化配准误差,及时修正实时配准引入的误差;闭环检测线程检测当前帧与历史帧存在的闭环图像对,通过闭环图像对进行非线性全局优化以最小化全局配准误差;图像拼接线程则根据优化后的配准参数动态生成拼接影像。通过4组实验数据验证了该方法的有效性和实用性,能有效消除多帧拼接的累积误差,实现对无人机视频流的实时拼接。

关键词: 无人机视频; 多线程; 并行处理; 图像配准; 非线性优化; 闭环检测; 累积误差; 实时拼接

中图分类号: TN911.73⁃34; TP231" " " " " " " " " " 文献标识码: A" " " " " " " " "文章编号: 1004⁃373X(2024)23⁃0049⁃06

Research on real⁃time stitching based on UAV video streaming

LIU Bin1, LIANG Panpan1, LU Di2, JIN Ran1

(1. The Aviation Military Deputy Office of Army in Luoyang, Luoyang 471000, China;

2. The Aviation Military Deputy Office of Army in Zhuzhou, Zhuzhou 412000, China)

Abstract: The real⁃time stitching method of UAV video stream is studied in depth, and a UAV video stream real⁃time stitching method based on multi⁃threaded parallel processing is proposed, which aims to cope with the difficulties of real⁃time stitching of UAV video stream. This method decomposes the real⁃time video stitching into a multi⁃threaded working mode by using the characteristic of computer parallel computing fully. The multi⁃threaded working mode is mainly composed of image registration thread, nonlinear optimization thread, closed⁃loop detection thread and image stitching thread. The image registration thread realizes the adaptive extraction and registration of video key frame, including feature point detection, feature point matching and image rough registration. The nonlinear optimization thread completes the dynamic optimization of the stitching parameter model to minimize the registration error and correct the error generated by real⁃time registration timely. The closed⁃loop detection thread detects the closed image pairs existing in the current frame and the historical frame, and performs nonlinear global optimization on the closed image pairs to minimize the global registration error. The image stitching thread generates the stitched image dynamically according to the optimized registration parameters. The validity and practicability of the method are verified by four groups of experimental data. It can be seen that the proposed method can eliminate the cumulative error of multi⁃frame stitching effectively and realize the real⁃time stitching of UAV video stream.

Keywords: UAV video; multithreading; parallel processing; image registration; nonlinear optimization; closed⁃loop detection; accumulated error; real⁃time stitching

0" 引" 言

近年来,随着无人机技术的不断发展,无人机已广泛地应用到战场侦察[1]、灾害评估[2]、应急测绘[3]、交通监管等方面。在军事上,大场景的拼接影像能够为指挥员提供大范围区域的战场态势[4],帮助指挥员更好地掌握战场的整体与局部细节情况,及时作出快速反应,为目标打击提供准确的情报信息;在民用领域,通过影像拼接可以得到地表的整体信息,实现对某一地区的整体监测,或动态监控灾害预警情况,使之在环境监测、灾害评估等多个应用领域发挥重要作用。

传统基于无人机航拍影像的拼接系统[5]能够较好地完成影像的拼接,常作为测绘级别地图生产来采用,能提供较为完整的拼图成果,不足是生产周期较长,并不适应于应急响应或者情报侦查的快速成图需求。文献[6⁃7]提出了无人机实时拼接方法,但该方法高度依赖成像时刻的位置信息或外部硬件设备,并不能对任何航拍视频进行拼接,具有较大的应用局限性。

为满足一般情况下的无人机视频实时拼接需求,本文提出一种无人机视频的实时拼接方法,主要包括:视频帧特征检测与匹配、关键帧选取、非线性配准参数优化、闭环图像对检测、图像拼接与地图更新五个部分。系统首先对无人机视频帧进行特征点检测与匹配,运用关键帧选取机制提取关键帧图像,将关键帧配准到二维地图以创建当前环境的配准参数模型,进行局部的非线性优化消除拼接误差,并通过闭环检测实时检测闭环图像对,利用闭环图像对进行全局非线性优化,优化后的参数及时更新拼接图像。

1" 算法的基本框架

本文提出的无人机视频流实时拼接系统流程图如图1所示,输入为无人机实时视频流,通过以下四个任务线程处理,全自动实现无人机视频流的实时拼接。

1) 视频帧配准线程,完成视频流关键帧的提取与跟踪。实时跟踪当前帧与参考帧的跟踪强度,当检测到当前帧与参考帧跟踪强度较弱时,则新增关键帧为新的参考帧并启动优化线程局部优化模式,否则继续获取下一帧视频图像进行处理。

2) 非线性优化线程。当输入为局部优化模式时,则建立新增关键帧与关键帧序列关联的特征匹配对,优化新增关键帧配准参数,消除局部配准误差,待局部优化结束后启动图像拼接线程和闭环图像对检测线程;当输入为全局优化模式时,建立所有关键帧序列的特征匹配对,对所有关键帧序列和特征匹配对进行全局优化以消除累积误差,待全局优化结束后启动图像拼接线程。

3) 闭环图像对检测线程。当完成配准参数局部非线性优化后,则启动闭环图像对检测线程,当发现当前新增帧与历史关键帧存在闭环图像对时,则启动优化线程全局优化模式,否则退出当前线程。

4) 图像拼接线程。获取将所有关键帧序列配准参数,生成拼接图像并刷新显示,当拼接图像大小超过一定上限后,则将拼接图像保存在硬盘并重置拼接跟踪线程,开始下一个视频帧跟踪,否则,继续下一个视频帧跟踪。

2" 关键技术

无人机视频流实时拼接关键技术主要包括关键帧提取算法、非线性优化消除累积误差、闭环图像对检测与优化、拼接图像输出显示等技术,对于一个实时运行的系统,采用多线程并行优化也是系统实现的一个关键步骤,同时计算机硬件技术的发展也是支持无人机视频实时处理的关键。

2.1" 关键帧提取

一个完整的关键帧提取过程包括特征点检测、特征点匹配、图像重叠度计算,通过图像重叠度和匹配点连接强度来判断当前帧是否为一个关键帧。

2.1.1" 视频帧特征点检测与匹配

特征点检测与匹配是建立影像间几何连接关系的关键环节,在众多的特征点检测算子中,为达到视频处理的实时性,本文采用ORB算子[8]作为视频帧的特征提取算子,采用BEBLID算子[9]作为特征描述符,使用汉明距离进行特征描述符距离计算,可有效提升匹配效率和匹配精度,进一步采用RANSAC算法[10]过滤匹配的外点。

2.1.2" 视频关键帧提取

本文采用当前帧与参考帧重叠率[FOverlap]和匹配点跟踪强度[TrackR]来判断是否新增关键帧。假设当前帧与参考帧仅发生平移操作,其重叠率可以用平移参数表达,假设视频帧在地图投影区域为Rect,则重叠率[FOverlap]的计算公式如下:

[FOverlap=Recti⋂RectnRecti⋃Rectn," " " FOverlap≥0.1] (1)

式中:[Recti]表示当前帧在地图投影区域;[Rectn]表示参考帧在地图投影区域;[⋂]表示投影重叠区域;[⋃]表示投影合并区域。

设参考帧的两视图最大匹配点数作为基数[N1],当前帧与参考帧的匹配点为[N2],则匹配点跟踪强度的计算公式如下:

[TrackR=N2N1," " "100≤N2≤400] (2)

当满足以下条件之一时,则注册当前视频帧为新增的一帧关键帧图像。

条件1:[FOverlap≤0.2,N2≤400]

条件2:[TrackR≤0.2,N2≤400]

条件3:[N2≤100]

2.2" 非线性优化

2.2.1" 影像配准模型

无人机对地拍摄图像以地面为参考平面,所有待拼接图像通过一个图像几何变换配准到参考地平面。常见的图像几何变换有刚性变换、仿射变换、透视变换以及多项式变换等,考虑系统实时性和鲁棒性要求,本文选择刚性变换作为图像配准变换模型。设图像点[Xx,y,1]和地图图像点[Xx,y,1],则经刚性变换[T]后的变换公式为:

[X=xy1=cosθsinθtxsinθcosθty001xy1=TX] (3)

式中:[θ]为旋转角;[tx]和[ty]为水平平移量和垂直平移量。点与点之间的欧氏距离保持不变,线与线之间的几何关系不变。

2.2.2" 非线性最小化误差优化

对于[n]幅待配准影像,[mi]是影像[i]的匹配点数量,[Ti]和[Xij]为对应影像的变换矩阵及匹配点,[X]是拼接后的地图像素点,建立如下代价函数:

[argmin=i=1nj=1mid(TiXij,X)2] (4)

求解以上最小代价函数属于非线性最小二乘问题,假设第[j]个地图图像点在第[i]张待拼接影像上的观测点坐标为[(i, j)],求解以上最小化投影误差对应的矩阵是图像拼接的最优矩阵。求解以上最小代价函数属于非线性最小二乘问题,利用Levenberg⁃Marquardt算法[11]对式(4)进行参数化后迭代求解即可得到影像配准的变换矩阵,参数的初始化值由DLT算法[12]直接提供,当所有单元合并成一个整体时,将整个全区的误差分散给参与运算的各个点,消除了累积误差,从而保证了影像拼接的顺利进行。本文采用Google公司发布的开源库Ceres⁃Solver[13]完成非线性最小化优化运算。

2.3" 闭环图像对检测与优化

闭环检测及优化主要用于消除拼接系统的累积误差,消除漂移以提升图像拼接的配准精度,主要由创建关键帧词袋模型、相似度计算、非线性全局优化组成。

2.3.1" 构建关键帧视觉字典

通过K⁃means聚类算法[14]对提取的BEBLID特征描述向量进行聚类生成视觉单词,单词集合便是一个视觉字典,可以用视觉字典来表征关键帧图像。

对于关键帧图像集[I=i1,i2,…,im],每帧图像提取的特征向量集合[D=d1,d2,…,dn],K⁃means聚类簇数为[K],构建的视觉词典为[C=c1,c2,…,cm]。具体步骤如下:

步骤1:从[D]中随机选择[K]个向量作为初始聚类中心[C=c1,c2,…,cK]。

步骤2:计算所有特征向量[D]与每个初始聚类中心[ci1≤i≤K]之间的欧氏距离,取最小值作为它们的归类。

步骤3:重新计算每个簇的聚类中心。

步骤4:如果每个聚类中心变化小于设定的阈值,则算法收敛,否则,返回步骤2。

2.3.2nbsp; 相似性计算

在得到关键帧的视觉字典后,对每帧图像构建图像描述向量,采用文本检索的TF⁃IDF方法[15]构建词袋模型中的图像描述向量。TF是指某单词在一幅图像中经常出现的频率,频率越高区分度越高;IDF是指某单词在字典中出现的频率,越低区分度越高。

对于特征数量为[n],单词[ωi]在图像中出现了[ni]次,则[TFi]和[IDFi]分别为:

[TFi=nni] (5)

[IDFi=lognni] (6)

单词[ωi]的权重[μi]为[TFi]与[IDFi]之积:

[μi=IDFi×TFi] (7)

一幅图像的特征点对应多个单词,组成向量[VA],则有:

[VA=ω1, μ1,ω2, μ2,…,ωN, μN] (8)

图像[A]与图像[B]的差异为[s],则:

[sVA-VB=2i=1NVAi+VBi-VAi-VBi] (9)

给定[s]的阈值,当[s]的绝对值小于阈值时即形成闭环,阈值的大小取决于训练的数据集。

2.3.3" 闭环全局优化

当检测到可能的闭环图像对后,进一步利用RANSAC算法[10]进行闭环图像对特征匹配,并利用DLT算法[12]求解该关键帧与闭环处关键帧间的配准参数,从而完成对闭环信息的获取,对所有影像配准参数按照式(4)最小化配准累积误差,实现对配准参数的全局优化,将整个全区的误差分散给参与运算的每个点,从而消除累积拼接的系统误差。

2.4" 多线程并行优化

本文提出的无人机视频实时拼接系统主要包括六个环节:数据获取与预处理、图像特征提取与匹配、关键帧提取、配准参数非线性优化、闭环检测与优化、拼接图像更新显示组成。系统主要时间消耗发生在图像特征提取与匹配、关键帧提取、非线性优化以及地图更新过程中。由于各处理模块算法复杂度较高,采用串行任务结构在实时性和执行效率上存在很大的不足,存在的延时丢帧会造成关键帧提取失败,从而导致拼接任务失败。

为了有效提高算法的实时性和计算机资源的利用率,如图2所示,本文采用多线程技术[16]将任务划分为图像配准线程、非线性优化线程、闭环检测线程、图像拼接4个独立线程。其中图像配准线程实现对视频关键帧的自适应提取,包括实时图像获取、图像特征的提取及其匹配、关键帧选取;非线性优化线程完成对关键帧配准参数的动态优化及更新,该任务结束后触发图像拼接线程;闭环检测优化线程主要完成闭环图像对的检测与全局优化和修正;图像拼接线程主要完成二维地图的生成、更新与显示,他们在主内存进行资源共享,同时采用互斥标志来防止资源共享时的线程冲突,对公共数据区采用加锁保护机制以确保数据更新一致。

3" 实验验证

本文采用4组数据对提出的无人机视频实时拼接方法进行测试验证,算法运行在图像处理工作站CoreTM i7⁃12700K 3.60 GHz,显卡NVIDIA GTX1080,内存64 GB的WIN10 64位操作系统,其中前3组数据采用FFmpeg库[17]实现对视频文件实时解码,第4组数据采用视频图传模块实时获取视频流。

3.1" 实验一

第一组数据是对某段河道的垂直拍摄,航拍时间10 min,采用大疆Phantom航拍系统拍摄,视频分辨率为1 920×1 080,帧率为25 f/s,加载到系统进行实时拼接,共提取107 f关键帧,最终生成了像素大小为9 328×6 392的拼接图像,拼接效果如图3、图4所示。

3.2" 实验二

第二组数据是高空无人机对某片沙漠区域的航拍测试视频,视频分辨率为1 260×900,视频帧率为10 f/s,整个拍摄过程存在剧烈的抖动,还存在丢帧、视频拉花、屏幕字体干扰等问题,视频时长90 s,加载到系统进行实时拼接,共提取了64 f关键帧,生成像素大小为10 668×7 032的拼接图像,拼接效果如图5所示。

3.3" 实验三

数据取自悬停无人机对山地背景空中移动目标的追踪拍摄视频,视频分辨率为640×360,视频帧率为25 f/s,整个拍摄过程中直升机目标高速运动,摄像头随着目标快速转动,视频时长15 s,加载到系统进行拼接,提取了44 f关键帧,生成了像素大小为6 196×1 812的拼接图像,拼接效果如图6所示。

3.4" 实验四

第4组数据是对某工业园区进行航拍,采用无人机视频图传模块实时回传航拍视频,该系统实时接收视频流,分辨率为1 920×1 080,帧率为25 f/s,无人机围绕工业园区航拍一圈用时4 min31 s,提取了91 f关键帧,生成了像素大小为4 020×8 260的拼接图像,拼接效果如图7所示。

实验一和实验四验证了无人机低空对地拍摄视频的实时拼接;实验二验证了无人机高空对地拍摄视频的实时拼接,其中成像过程存在剧烈的抖动和干扰、图像特征较弱等问题;实验三验证了无人机摄像头对快速目标视频的实时拼接,其中存在特征弱、关键帧容易丢帧的问题。实验结果表明,本文提出的方法均能够实现稳定的视频拼接。

4" 结" 语

针对无人机视频实时拼接需求,本文提出了一种基于多线程并行优化的实时视频拼接方法,算法能够在保证效率和效果的前提下完成无人机视频流的实时拼接,及时消除了实时拼图的累积误差,并支持长航时视频的拼接。通过四组实验验证了本文提出算法的可行性、正确性和鲁棒性,可应用到战场的实时侦查、环境动态监测、灾害评估等多个领域。

参考文献

[1] 吴蔚,李晓冬,许莺.无人机侦察图像情报处理与运用关键技术研究[C]//第四届中国指挥控制大会论文集.北京:电子工业出版社,2016:604⁃607.

[2] 路尧,丁小牛.无人机遥感在地震灾害损失预评估中的应用[J].测绘通报,2021(z1):170⁃172.

[3] 张楠楠.无人机影像获取和数据处理在应急测绘中的应用[J].中国航班,2020(8):33.

[4] 张明义,赵泉朴,吴中华.无人机机载光电平台侦察图像拼接技术[J].舰船电子工程,2016,36(12):113⁃115.

[5] 陈涛,王烽,万阿芳,等.基于无人机航摄的真正射影像图制作方法与实践[J].测绘科学技术,2024,12(2):159⁃166.

[6] 尹中义,姜梁,高伟,等.基于多无人机实时视频图像的地图拼接构建的系统及方法:CN112767245B[P].2024⁃03⁃29.

[7] 李民录,王宇翔,钟函笑,等.带有位置信息的无人机视频拼接方法、装置、设备及介质:CN117201708B[P].2024⁃02⁃02.

[8] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: An efficient alternative to SIFT or SURF [C]// IEEE International Conference on Computer Vision. New York: IEEE, 2011: 2564⁃2571.

[9] SUAREZ I, SFEIR G, BUENAPOSADA J M, et al. BEBLID: Boosted efficient binary local image descriptor [J]. Pattern recognition letters, 2020, 133: 366⁃372.

[10] 周剑军,欧阳宁,张彤,等.基于RANSAC的图像拼接方法[J].计算机工程与设计,2009,30(24):5692⁃5694.

[11] CHEN L, MA Y F. A new modified Levenberg⁃Marquardt method for systems of nonlinear equations [EB/OL]. [2023⁃02⁃10]. https://onlinelibrary.wiley.com/doi/10.1155/2023/6043780.

[12] HARTLEY R, ZISSERMAN A. Multiple view geometry in computer vision [M]. 2nd ed. Cambridge: Cambridge University Press, 2003.

[13] AGARWAL S, MIERLE K. Ceres solver 1.0α tutorial amp; re⁃ference [EB/OL]. [2024⁃06⁃15]. https://www.researchgate.net/publication/268063780.

[14] COATES A, NG A Y. Learning feature representations with K⁃means [J]. Lecture notes in computer science, 2012, 7700: 561⁃580.

[15] 胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报,2016,36(3):36⁃41.

[16] PACHECO P S, MALENSEK M. Shared⁃memory programming with Pthreads [EB/OL]. [2015⁃12⁃11]. https://www.doc88.com/p⁃9495207288694.html.

[17] LI L G. FFmpeg: A complete, cross⁃platform solution to handle, capture, and stream audio and video [C]// Proceedings of the 2004 ACM SIGCOMM Conference on Communication. New York: ACM, 2004: 1⁃6.

作者简介:刘" 彬(1981—),男,四川邛崃人,博士研究生,工程师,主要研究领域为基于图像的三维重建、图像匹配、相机标定、图像测量等。

梁攀攀(1992—),男,河南洛阳人,硕士研究生,助理工程师,主要研究领域为基于深度的学习目标检测与识别、模式识别等。

卢" 迪(1993—),男,江苏徐州人,硕士研究生,助理工程师,主要研究领域为航空发动机、自动控制等。

靳" 冉(1985—),男,河南尉氏人,助理工程师,主要研究领域为光电侦察、火控任务系统等。

猜你喜欢
视频流关键帧线程
边缘实时视频流分析系统配置动态调整算法研究
基于视频流传输中的拥塞控制研究
基于改进关键帧选择的RGB-D SLAM算法
浅谈linux多线程协作
环球市场(2017年36期)2017-03-09 15:48:21
美国视频流市场首现饱和征兆
基于相关系数的道路监控视频关键帧提取算法
基于聚散熵及运动目标检测的监控视频关键帧提取
论“关键帧”在动画制作中的作用
Linux线程实现技术研究
视频网格中流媒体业务的流量模型