基于多核属性学习的视频多概念检测研究

2017-07-12 17:33惠开发皋军
软件导刊 2017年6期

惠开发+皋军

摘要:视频概念检测领域一直存在语义鸿沟难以跨越的问题。针对该问题,提出了基于多核属性学习方法,将属性概念引入视频概念分类中,利用属性的高级语义表达能力,降低语义鸿沟影响,同时结合多核学习,提高多特征下属性分类器性能。在公有数据集上进行对比实验表明,该方法可以有效提高视频概念检测正确率。

关键词:视频语义;概念检测;多核学习;属性学习

DOIDOI:10.11907/rjdk.171831

中图分类号:TP306

文献标识码:A 文章编号:1672-7800(2017)006-0001-04

0 引言

随着物联网的发展,视频监控设备应用到诸多场景中,为维护城市和谐安宁,提高人们生活质量发挥了显著作用。大量的视频监控设备产生了海量视频文件,视频的查阅、存储、传输、归档和检索问题显现,研究者提出了视频语义分析[1]概念,希望利用机器自动地检测视频内容,从而减轻甚至代替人工检测工作。

监控视频序列包含前景对象和背景对象,通常情况下,人们感兴趣的内容集中在运动的前景对象上。而前景通常包含多种概念,如人、车、物,这些语义概念又可以进一步细化。比如人按年龄分有小孩、成人、老人,按性别分有男人和女人,按照体型分有高矮胖瘦,还可以按穿着或肤色等分类。视频中的语义概念包含大量的高级语义特征,而目前如颜色、形状、纹理等底层特征还停留在低级语义描述上。为跨越视频检测的语义鸿沟[2],本文引入属性学习[3]方法来关联底层视觉特征与属性的关系。为更好地利用提取出的多种特征,引入了多核学习[4]生成合成核,并将其运用到属性预测模型训练中去。

1 多核属性学习模型

1.1 多核学习模型

在利用属性分类器进行预测分类之前,首先需要对训练样本提取的特征进行学习和训练。由于属性的多样性,若仅提取单一特征则不能满足属性学习需求,通常情况下会对训练样本提取多组特征。目前的方法是将特征向量直接拼接形成新的特征向量,也有学者将特征送入视觉词袋,通过统计词频得到新的词袋特征,再对新获取的特征向量进行训练。这两种融合方法属于前期融合,思路简单,忽视了特征之间的差异性。因此,提出了特征后期融合方法,即多核融合学习。通过对不同特征分别产生核空间矩阵,计算多個核矩阵的权重系数,加权求得融合后的核空间矩阵,将其送入分类器或回归函数进行训练,采用加权相加的线性求和方式获取最终的融合核。多核融合如图1所示。

1.3 基于多核属性学习模型的迁移学习

迁移学习[6]一词意指在信息大爆炸时代,新的概念不断出现,无法像传统的机器学习那样分类或检测某类事物,搜集大量的训练样本,并对样本数据进行标注。传统的学习方法是建立在训练数据和测试数据服从相同的分布假定基础上的,而实际情况是不同分布的概念之间存在共通的特征或属性,通过学习现有的有限样本迁移到未知领域。监控视频场景下的概念检测属于异构空间场景的学习任务,且监控视频中各个场景出现的概念对象具有多样性特点,具有使用迁移学习的需求。直接属性预测模型(DAP)可以解决训练样本和测试数据分布不同的问题。监控场景下语义概念具多样性和可变性,因此可以利用给定的训练样本和不可预见的测试数据之间的共有属性进行迁移学习,实现零样本学习目标。学习过程如图3所示。

2 实验与结果分析

为了验证方法的有效性,本文设置了3组实验:①通过迭代求解加权系数,并验证求解算法的有效性;②设立对比实验,以评价基于多核属性学习的迁移学习框架性能;③评价基于多核属性模型的视频多概念检测有效性。

2.1 加权系数优化求解算法验证实验

在数据集Flower Category Database[7]上进行加权系数求解实验,对样本提取3种特征,分别是1 500维的SIFT_BoW特征,140维的HOG特征,128维的HSV特征。这里需要说明的是,由于样本图像SIFT特征的维数不能确定,故对原始特征进行Kmeans聚类,生成K个聚类中心,然后利用视觉词袋模型对特征词频进行统计,最后得到K维的SIFT_BoW特征。

在核函数方面选取了高斯核:k(x,y)=exp(‖x-y‖)2[]2σ2,直方图交叉核:k(x,y)=∑n[]i=1min(xi,yi),以及多项式核:k(x,y)=(x y+c)d,分别对实验数据集合中的样本进行测试。本文设计了对比实验,将3种特征分别在3种核函数下进行训练与测试,ROC曲线如图5所示。对ROC曲线进行分析可以发现,相对而言Hog特征在多项式核中效果最佳;SIFT-BoW和HSV特征在交叉直方图核中有不错的分类表现。分析这两类均属于直方图性质,因此和交叉直方图核有较好的融洽性;而SIFT-BoW的维数较高,在高斯核分类效果最佳,交叉直方图核次之。因此将对Hog特征采用多项式核、SIFT-BoW采用高斯核、HSV采用交叉直方图核进行多核学习。

对核函数权重系数进行优化求解,迭代求解过程如图6所示,在迭代120次后,算法开始收敛,最终得到的权重系数为[0.31,0.08,0.11]。

在求解出权重系数后,继续设计实验验证求解过程的正确性。对权重向量做随机向量变换,通过设计实验,将变换向量和原向量作为权重向量,统计不同向量所对应的识别率,结果如表1所示。由表1中数据可以发现,通过迭代求得的最优解对比随机产生的权重向量,分类准确率达到86.15%,相较于随机产生的10组权重向量训练模型,本方法模型识别率最高。

2.2 性能评价实验

为了验证基于多核属性学习模型的迁移学习性能,本文选择与迁移学习框架TradaBoost[7]和直接属性模型在相同数据集上对应不同的训练样本占比错误率进行对比实验。在数据集方面,选取AWA[8]和Attributes of People Dataset [9]作为实验样本数据。为避免实验过程中的偶然性,本文通过随机分配训练测试样本,并进行10次重复实验取平均,最终得出实验结果如图7所示。

分析实验结果可以发现,属性学习模型在对分类目标的共享属性描述上,先天具有良好的迁移学习能力。结合实验结果图可以发现,直接属性模型和基于多核属性学习模型在样本占比较少的情况下,比Tradaboost具有更好的迁移学习表现,且在数据占比上升之后依然有较高的分类准确率。此外,对比直接属性模型和基于多核属性学习模型结果可以发现,融入了合成核空间之后,属性学习的分类性能得到了进一步提高,从而更好地挖掘训练样本和测试样本之间的公用属性关联关系,完成迁移学习任务。

2.3 有效性实验

验证基于多核属性模型的视频多概念检测有效性需要考虑实际应用场景为监控视频,因此选取VIRAT Video Dataset[10]数据集。该数据集为实际监控摄像头数据,前景对象包含行人、车辆、物体。参考大量的文献资料,对行人对象选取 “性别肤色”、“戴眼镜”、“戴帽子”、“帽子颜色”、“帶包”、“包颜色”、“手提包”、“背包”、“上衣颜色”、“下衣颜色”、“鞋子颜色”等12个属性;针对车辆检测选择 “车辆颜色”、“车辆形状”、“车辆大小”、“车辆轮胎数”、“有无车窗”、“车窗数量”等6个属性;针对物体检测,选择 “形状”、“颜色”、“材质”、“纹理”、“大小”等5个属性。

实验中利用背景建模算法批量提取出前景对象,而后人工建立属性类别关联表,随机选取训练样本,且使训练测试样本比例为6:4,对两种算法进行对比实验,如图8所示。分析实验结果可发现,多核学习和直接属性预测模型相结合,相比单纯的直接属性预测模型对视频前景概念检测准确率更高。

3 结语

本文介绍了将多核学习与直接属性模型结合的视频概念检测方法。首先建立多核学习思想,给出了不同的核函数权重系数的优化求解方法,然后将其应用到属性模型分类器训练过程中。多核学习的引入可以更好地利用提取出的多种特征,提高模型的分类性能,并将方法运用到视频概念检测中。通过实验分别对加权系数的优化求解算法、基于多核属性学习的迁移学习性能、基于多核属性模型的视频多概念检测有效性进行验证。实验表明,本文提出的方法对视频中多概念检测有效。

参考文献:

[1] 王敏超,詹永照,苟建平,等.面向视频语义分析的局部敏感的可鉴别稀疏表示[J].计算机科学,2015,42(9):313-318.

[2] 谢毓湘,栾悉道,吴玲达.多媒体数据语义鸿沟问题分析[J].武汉理工大学学报:信息与管理工程版,2011,33(6):859-863.

[3] QIAN B,WANG X,CAO N,et al.Learning multiple relative attributes with humans in the loop[J].IEEE Transactions on Image Processing,2014,23(12):5573-5585.

[4] 胡湘萍.基于多核学习的多特征融合图像分类研究[J].计算机工程与应用,2016,52(5):194-198.

[5] RAKOTOMAMONJY A,BACH F R,CANU S,et al.Simplemkl[J].Journal of Machine Learning Research,2008,9(3):2491-2521.

[6] 庄福振,罗平,何清,等.迁移学习研究进展[J].软件学报,2015,26(1):26-39.

[7] CHENG,YUHU,WANG,et al.Weighted multi-source trAdaboost[J].Chinese Journal of Electronics,2013(3):505-510.

[8] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.

[9] CHENG,YUHU,WANG,et al.Weighted multi-source trAdaboost[J].Chinese Journal of Electronics,2013(3):505-510.

[10] BOURDEV L,MAJI S,MALIK J.Describing people:a poselet-based approach to attribute classification[C].IEEE International Conference on Computer Vision.IEEE,2011:1543-1550.

(责任编辑:杜能钢)