姜哲颖,周华兵,刘姣
武汉工程大学计算机科学与工程学院,湖北 武汉 430205
SIFT特征匹配和VFC算法的电子稳像技术
姜哲颖,周华兵*,刘姣
武汉工程大学计算机科学与工程学院,湖北 武汉 430205
为了处理较为模糊的抖动视频,提出了一种基于尺度不变特征转换(SIFT)的特征匹配和向量场一致(VFC)优化算法的电子稳像技术.该技术着重于研究视频的运动估计阶段,利用SIFT提取高独特性的特征点,根据特征点进行帧间匹配,结合VFC,通过向量场的学习将外点从内点区分开来,得到两帧图像中特征序列的平移轨迹,然后估算出运动补偿向量并校正每一帧图像的相对位置,从而输出稳定视频.实验表明,该电子稳像技术处理抖动视频时精度高和耗时短.
运动估计;向量场一致性;电子稳像
近年来,稳像技术得到广泛的应用,无论是航空、车载、船舰上,为了获得清晰不晃动的视频,稳像技术都可以用来消除载体不稳定所引起的视频抖动[1].稳像技术一般分为三种:机械稳像、光学稳像和电子稳像,从各方面的考虑,包括体积小、操作方便、可移植性强、实时性等,电子稳像技术得到更多的普及.电子稳像技术大体分为三步:运动估计,运动滤波和运动补偿.本文大部分的工作集中于运动估计中.处理运动估计有基于灰度和基于特征的方法[2]:基于灰度的方法可以得到精确的结果,但要处理所有的像素点而耗时太多;提取图像特征的方法处理速度快,然而精度又得不到保证.对于特征匹配,可以查阅到丰富的文献资料,角点匹配,边缘模型匹配,SIFT点匹配,MSER特征匹配,KLT特征追踪等[3],在处理较为模糊的图片时,SIFT点匹配的优势就更为明显.在匹配的过程中,消除产生的误匹配,很多用到最小二乘法,然而当数据里有很多外点的情况,该方法处理得并不好.在此,就用到向量场优化算法,向量场一致性是在希尔伯特空间中基于吉洪诺夫正则化,保持向量场的平滑性.在贝叶斯框架下,将每个样点与潜在变量相结合来判断是否为内点,然后构建成后验概率问题,通过EM算法求解.运动估计过程由局部向量估计得到全局运动向量,就可以进行运动滤波和运动补偿,从而得到稳定清晰的输出图像[4].
尺度不变特征转换能够从图像中提取高度独特的不变特征,这些特征被用在不同的图像里针对相同对象进行匹配.最初提取这些特征是为了对象识别:将样例图片中检测到的特征与由众多不同视角中提取的特征而组成的数据库进行匹配.
SIFT算法需要获得全方位的大量特征,主要阶段是对一系列的图像特征的计算:尺度空间极值检测、关键点的精确定位、方向赋值、描述算子的计算[5].
图像处理中,避免不稳定的特征非常重要,运动估计算法需要高度独特的特征,而误匹配往往会影响算法的准确性.对于去除误匹配,这里用到向量场一致性算法[6](VFC).
最小二乘法经常被用来处理去除特征的外点,但是当外点过多时,处理效果不甚明显.VFC算法有很强的鲁棒性,能够处理含90%外点的特征图像.
2.1 问题公式化
式(1)中θ={f,σ2,γ}是含未知参数的集合,XN×P=(x1,…,xN)T,YN×D=(y1,…,yN)T,Vn=f(xn).
考虑到平滑性的约束,先验f可写为:
结合式(1)和式(2),其后的分布p(θ|X,Y)∝p(X|Y,θ)p(f)估算出来.
为了得到最佳的θ,假设一个θ*为
θ*对应真正的θ,从而得到f.然后运用EM方法来讨论f减少对外点的影响.
2.2 EM方法
EM算法分为两步,一是期望步骤,另一个是最大化步骤.
首先,将样点n赋予一个变量Zn∈{0,1},当Zn=1,代表高斯分布;当Zn=0,代表平均分布.根据EM算法的标准步骤,并且忽略与θ独立的项,得到:
可以通过把Zn视为混合模型中缺失的数据来实现最大化.
期望步骤:P=diag(P1,…,Pn),其中Pn=P(zn= 1|xn,yn,θold)可以通过贝叶斯法则来计算:
最大化步骤:定义修正的参数估计为θnew,θnew=arg maxθQ(θ,θold).考虑到P是对角矩阵,将Q(θ)对σ2求导并置为零,得到:
其中tr(·)是矩阵的迹.将Q(θ)对γ求导并置为零,得到:
高斯部分的混合系数γ通过后验概率的均值得到.
EM算法收敛后,应该对样点是否为内点做一个判断.设定阈值τ,可以得到内点集T={n|Pn>τ,n=1,…,N},这个集合T就是随机采样一致性中的一致性.
2.3 向量场正则化
考虑到式(4)中Q与f相关的项,并把它们乘以-1,得到一个能量函数:
这个能量函数是一个吉洪诺夫正则化的向量值的推广,其中第一项可以看成是权值经验误差.
使用向量值表现定理,对f的最优化有如下形式:
利用SIFT算法计算帧间图像的关键点,以及匹配点对.
结合VFC优化算法,去除误匹配,根据准确的帧间匹配关系估算出全局运动向量.
由全局运动向量估算出运动补偿向量并校正每一帧图像的相对位置,从而输出稳定视频.
从一段较为抖动的视频图像中,选取了4张连续帧图像进行特征匹配实验.
图1是平直公路上汽车行驶,由于后方拍摄工具的不稳定而引起的视频抖动,从视频中提取前4帧图像,分别对图像帧进行SIFT特征提取后和VFC的优化算法去除误匹配,能够得到如图2所示两两之间较为准确的匹配关系.
图1 抖动视频中4张连帧图Fig.1 Four successive frames of the shaky video
图2中的4帧图像里,分别对1&2、1&3、1&4进行了匹配,从而可以得到帧间运动向量,即可获知两帧图像之间的相对运动,然后就可以估计出运动补偿图像.图3中可以看出,由局部到整体,多张运动补偿图像帧即可输出稳定视频图像.
图2 图像帧之间的匹配关系Fig.2 The matching relationship between image frames
图3 处理合成后的稳定帧Fig.3 Composite steady frame
基于SIFT特征匹配与VFC优化算法的稳像技术,主要针对运动估计过程,将帧间图像的匹配达到高精度而得到清晰的输出视频.在实时性与高精度两者间取得了较为合适的搭配,各取所长、不失偏颇,也是处理视频抖动研究中一个小的进步.当然,不足之处在于还未与其他方法作直观的对比,和未对实验结果进行更为客观的评价,如帧间保真度、峰值信噪比,并且时间复杂度相对较大,这些问题将在之后作进一步研究.
致谢
感谢湖北省教育厅对本研究的支持!
[1]张跃飞.车载摄像机数字稳像技术研究[M].成都:电子科技大学,2011.
ZHANG Yue-fei.The research of the digital image stabilizationtechnologyfortheIn-Carcameras[M].Chengdu:University of Electronic Science and Technology of China,2011.(in Chinese)
[2]KUMAR S,AZARTASH H,BISWAS M,et al.Realtime affine global motion estimation using phase corre-lation and its application for digital image stabilization[J].IEEE Trans Image Process,2011,20(12):3406-3418.
[3]OKADE M,BISWAS P K.Video stabilization using maximally stable extremal region features[J].Multimedia Tools Appl,2014,68(3):947-968.
[4]王海晖,卢培磊,吴云韬,等.无参考视频平滑度的评价方法[J].武汉工程大学学报,2015,37(6):56-62.
WANG Hai-hui,LU Pei-lei,WU Yun-tao,et al.Evaluation method of no-reference video smoothness[J]. Journal of Wuhan Institute of Technology,2015,37(6):56-62.(in Chinese)
[5]BATTIATO S,GALLO G,PUGLISI G,et al.SIFT features tracking for video stabilization[J].IEEE Computer Society,2007,27(5):825-830.
[6]ZHAO Ji,MA Jiayi,JIN Wen et al.A robust method for vector field learning with application to mismatch removing[J].Computer Vision and Pattern Recognition(CVPR)2011 IEEE Conference on,2011,30(6):2977-2984.
Electronic Image Stabilization Based on SIFT Matching and VFC
JIANG Zhe-ying,ZHOU Hua-bing,LIU Jiao
School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430205,China
To process the blurry shaky video,electronic image stabilization based on scale invariant feature transform(SIFT)matching and vector field consensus(VFC)was proposed,which is mainly applied to video motion estimation.First,SIFT was used for extracting highly distinctive invariant feature and setting up the initial feature matching.Then,by the vector field consensus algorithm,we distinguished inliers from outliers and obtained the characteristics of translational trajectory in sequence of two video frames.Finally,we estimated the motion compensation to correct the relative position of every video frame by trajectory.Experiment results show the advantages of the method in precision and efficiency.
motion estimation;vector field consensus;electronic image stabilization
TP391
A
10.3969/j.issn.1674-2869.2015.09.008
1674-2869(2015)09-0045-05
本文编辑:陈小平
2015-08-28
湖北省教育厅科学技术研究项目(Q20151503)
姜哲颖(1991-),男,湖北武汉人,硕士研究生.研究方向:数字图像处理.*通信联系人.