王 宾,韩群勇
(漳州职业技术学院 电子工程学院, 福建 漳州 363000)
人机交互在生活的各个方面起到重要作用,如医疗、军事、交通等,近些年专家们对无人机操作方面的应用进行了广泛研究.无人机进行作业时,有赖于对目标人体姿势的有效识别.而实现该主动视觉交互功能的基础是准确操作无人机面向人体,即对人体朝向进行准确估计[1-2].仅仅依靠无人机中的移动相机并不能很好地实现该目标,因为人体可能会进行出乎意料的移动,并且场景范围广,环境变化大,如光照、视觉角度等.因此,如何准确估计人体朝向是无人机研究的热点.
为了克服环境的影响,目前常用的方法为先提取相关低级特征描述符,如尺度不变特征转换[3]、梯度方向直方图[4]等表示人体朝向特征,然后利用支持向量机[5]、神经网络[6]等方法对提取特征进行分类,得到人体朝向标签.同时一些研究者考虑头部与身体的关系,将两者进行有机结合,利用身体形状的先验信息提高人体朝向评估性能[7].由于航拍图像的局限性,容易受外界环境影响,所以仅仅利用低级的视觉外观特征不足以实现理想的评估结果.
为了获得鲁棒性更好的视觉外观模型特征,很多研究者对提取的低级特征进行再训练,然后进行反馈,使得在目标跟踪过程中可以持续对外观模型进行更新[8].由于无人机需要针对每个场景中的所有可能人体朝向进行评价,导致数据量很大.
本文将目标人体朝向体位分为8种:后左、左、前左、前、前右、右、后右、后,标签y和对应的图像s,其训练过程如图1所示.输入为图像分块的集合s,对应已知的表示身体朝向的标签y∈{y1,...,y8},用遥测数据集x对每个图像分块进行标注.训练具体步骤为:首先为每个标签采集一组遥测数据集,得到每个传感器度数的隐性状态特征,然后使用隐条件随机域方法选择重要程度最高的特征,最后输出参数集Λ*={λ1,...,λ5},其中λn为第n阶交互的最优参数.
本文算法的目标是计算测试数据与训练存储的外观视觉模型相关性最大化,如式(1)所示.
(1)
式中μst为已知标签y的外观模型;函数N(·)用于对已知模型和图像分块的窗口尺寸进行归一化.在实际应用中,每隔几帧便会生成视觉外观模型,这将导致庞大的选择模型集,计算困难.由于每个模型均对应与其相关联的遥测数据,所以,模型的选择可以投影到遥测数据上.对于指定场景观测到的遥测数据,在训练集中找到与该场景特征相似度最高的实例.在模型选择过程中,所有遥测数据特征元素的贡献并不相同,且对于一个标签,这些特征元素也不是相互独立.针对该问题,本文基于隐动态条件随机域,对遥测数据中的隐相关性进行建模,从而快速实现视觉外观模型子集的选择.
图1 训练过程示意图
图2 测试过程流程图
条件随机域[10](Condition Random Fields,CRF)是对非定向图形模型中相关性进行编码的较为简便的模型.CRF模型的能力依赖于特征函数的数量和质量.本文通过向每个局部观测xi中添加隐变量hi来提高CRF模型的性能,使可能状态的范围显著缩减.同时,对判别特征函数进行动态选择,并使用Akaike信息准则[11]对视觉外观模型进行关联.
考虑一个图形模型G= (V,E),其中V是M个节点的集合,每个节点对应于一个特定的遥测测量信息xi;同时定义遥感测量值xi的任意组合为信息组,E是不同信息组之间边缘的集合.本文研究包括5个传感器遥感测量信息:高度x1、万向角x2、时刻x3、磁航向x4和GPS定位x5.5个传感器信息上的隐性条件随机域的结构如图3所示.
图3 在5个传感器信息上的隐性条件随机域结构
本文目标是对于已知标签,利用{xi}的交互信息表示任何人体朝向模型,如公式(2)所示.
在现行的多版本教材中,都将“用字母表示数”作为“方程”这一课时的前提知识来编排。从知识结构来讲,有其合理性。因为方程中必然涉及未知数的表达和运算,因此,提前学习“用字母表示数”会有助于学生更快掌握方程内容。
(2)
(3)
每个参数θk的值受数据x的稀疏性影响,提高稀疏性可优化条件随机域结构的表达能力,对于隐马尔科夫模型[14](Hidden Markov Models,HMM)和动态贝叶斯网络(Dynamic Bayesian Networks,DBN)[15]的研究说明,增加隐变量的集合可以提高数据稀疏性.
条件随机域模型的主要优势在于特征函数的灵活性,隐性状态的任何可能形态均可用于测量.如果观测到的信息分布密集,那么特征函数的区分价值就会变小.对于遥感测量数据,每个局部观测范围较大,如GPS节点获得的经纬度信息x5的分辨率小于1米,对如此密集的分布构建关联模型效率很低.因此,对每个节点xi引入相应隐变量hi,使得hi=Ω(xi),其中映射函数Ω(·)为增加稀疏性的任意映射函数,如聚类等.本文使用一个预定义数量的集群对每个局部测量值进行聚类.定义隐变量集合h={h1,...,hM},其中每个隐变量hi均是对测量值xi的稀疏映射获得.通过引入隐变量,对公式(2)的标准条件随机域进行转变,如公式(4)所示.
(4)
(5)
(6)
(7)
式中,kcn是n个节点交互参数的特征指标集合.相关性分析的主要缺点是条件随机域模型不易扩展.如果决策边界过于复杂,区别标签的有效方法是将问题投影到更高维,该维度考虑到更远范围的相关性.下面将对训练过程中所有可能的特征进行选择和评价,以获得高辨识度特征.
通过使用隐条件随机域增加测量数据的稀疏性,提高特征描述能力,但并不是所有的特征均同样重要,所以需要对重要特征进行选择.本文使用改进的Akaike信息准则,选择提高数据条件对数似然性的特征,抑制过拟合的特征,Akaike信息准则的定义如公式(8)所示.
(8)
式中,k表示每个相关性范围所含的参数数量;L表示相应特征函数的似然最大值.Akaike信息准则认为:如果已知隐性条件随机域模型的真实分布,则能够利用度量方法准确计算信息丢失情况,如Kullback-Leibler距离.本文在特征选择之前和之后,利用Akaike信息准则的得分A对相关信息进行度量.
为了最大化条件似然项,在已知第t个训练样本的似然项时,本文利用使用BFGS梯度上升方法,如公式(9)所示.
(9)
其中,取Lt(Λ)相对于一元参数的导数,如公式(10)所示.
(10)
本实验的数据来自100次的无人机飞行采集.在每次飞行过程中,无人机在目标人体周围以八边形轨迹,采用不同的离地高度、万向角、磁航向、定位和时刻来飞行.在数据采集时,目标人类定位于一个预定义的八边形中心,无人机从八边形各个角落得到目标人体的8个视觉外观模型.本实验对遥测数据的特征组合进行评价,并与传统的条件随机域和支持向量机方法进行比较.
表1 8种朝向标签的混淆矩阵
本文的主要目标是使用从场景获得的非视觉信息对视觉外观特征进行表征,实质是观察到的遥测数据和可用的遥测模型之间的匹配,需要利用有效的距离度量方法.为了描述阶数更高交互的重要性,将本文隐动态条件随机域方法与仅使用遥测数据和视觉外观模型之间的支持向量机方法和条件随机域方法的识别结果进行比较,具体数据如图4所示.可以看出,本文方法的性能最好,其剔除了冗余无效甚至会产生负作用的特征,充分利用具有高度辨识性的特征,能够快速高效选择正确模型.条件随机域性能差一些,因为其冗余特征的数量过大,特征分布过于密集,使决策标签边界过于复杂.支持向量机表现最差,主要原因是未充分利用决策标签边界的高辨识特征.
本文提出一种新的无人机识别人体朝向的方法,将非视觉场景特征与8种人体朝向的模型相结合.本文方法能够对目标人体朝向进行准确估计,然后通过自动操控面向人体正面.该方法利用遥测数据特征间的交互信息,使用隐性动态条件随机域解决视觉外观模型分类问题.根据所有特征范围的相关性,使用Akaike信息准则对交互信息进行评价,并选择高识别性能特征,提高人体朝向的精度和速度.实验结果表明,本文方法的人体朝向识别准确率可以到达90%左右.
图4 不同方法的朝向标签识别结果