基于随机森林的天气场景判别算法*

2017-12-29 06:25:21史静，朱虹

网络安全与数据管理 2017年24期

关键词：特征描述金字塔字典

史静，朱虹

(西安理工大学自动化与信息工程学院，陕西西安 710048)

基于随机森林的天气场景判别算法*

史静，朱虹

(西安理工大学自动化与信息工程学院，陕西西安710048)

传统的天气状态识别往往利用许多传感器收集数据判别天气状态。然而利用图像进行天气状态识别的研究却少之又少。利用词袋模型和空间金字塔匹配对室外图像的天气状态进行识别，该方法通过分析晴天与阴天两类天气状态对图像的影响，将两类天气状态看成两种场景，对图像提取SIFT(旋转不变描述子)特征，利用词袋模型和空间金字塔匹配得到金字塔特征，然后利用金字塔特征训练分类器进而识别待测样本。在分类器构造方面，利用支持向量机(SVM)构造一级分类器，利用随机森林构造二级分类器，对测试样本经过一级分类器其介于两个支持向量之间的样本输入到二级分类器进行识别。通过对两类天气图像集的一万张图像进行测试，其识别率可以达到82%左右。

图像分类；SIFT特征；空间金字塔；支持向量机(SVM)

0 引言

天气状态的问题常常伴随着人们每天的生活，是晴天还是雨天常常影响着每天的日常安排，比如该穿什么衣服，该不该去户外运动等。随着图像场景分类技术的迅速发展，基于图像做天气状态的识别变为可能。传统的天气状态识别由于需要大量的传感器进行数据采集，同时在气象检测领域，仍然需要大量的人工进行观测，这样就显得尤为耗时耗力。如果随时随地仅仅通过照相机的照片进行天气状态的判断，那么其对天气状态的识别将是一场重大的革命。基于以上原因，图像的天气状态识别就变得尤为重要，同时也引起众多学者的关注。

尽管基于图像的天气状态识别有着不可估量的价值，但是基于图像的天气识别问题并没有得到彻底的解决。文献[1]通过提取图像的天空、阴影、反光、对比度、雾五个特征作为图像的特征，然后利用一种投票机制对特征进行分类；文献[2]针对同一传感器从不同视角拍摄图像的匹配，提出一种Harris-SIFT算法。文献[3]利用HSI颜色直方图等特征，识别辅助驾驶系统中图像的晴天和雨天的天气状态。文献[4] 介绍了一种在固定的单摄像头拍摄的交通图像序列中检测、跟踪、分类车辆的方法。这些方法有些应用在有限的应用领域，有些在特征建模方面较为复杂，因此，影响了其应用的价值。鉴于此本文利用词袋模型和空间金字塔匹配对图像的天气状态进行判别。

首先，词袋模型通过提取图像的SIFT特征描述子，聚类形成字典，再用字典对形成统计直方图。通过空间金子塔匹配模型，分层统计直方图，最后将模型生成的特征作为图像的训练和测试特征。

1 改进的空间金字塔模型

本文采用的BOF模型[5]和金字塔匹配[6]主要由5个步骤构成：特征提取，视觉词典的构造，利用词典对图像的量化，空间金字塔的匹配，训练和测试分类器。

1.1 特征提取

在特征提取方面本文采用的是SIFT特征，文献[7]总结了已有基于不变量技术的特征检测方法，提出了一种基于尺度空间的，对图像平移、旋转、缩放、甚至仿射变换保持不变性的图像局部特征，即SIFT特征。对于图像场景分类问题，其图像常常因为图像之间存在光照、旋转、平移、缩放等问题而导致错分，但SIFT特征在平移、旋转、光照方面的鲁棒性使得它成为BOF模型中常用的特征之一。SIFT描述子的生成可分为以下4个步骤：

(1)尺度空间极值检测

①生成尺度空间，定义如下式：

L(x,y,σ)=G(x,y,σ)*I(x,y)

(1)

②构造高斯差分尺度空间(DOG):

D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y,σ)

(2)

③在DOG空间上寻找相邻的26个点进行比较得到最大或最小值。

(2)精确定位特征点的位置

通过拟合三维二次函数以精确确定关键点的位置和尺度。

(3)确定特征点的主方向

利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。

m(x,y)=

(3)

θ(x,y)=actan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))

(4)

(4)生成特征描述符。

1.2 视觉词典的构造

视觉词典的构造过程中将每一个SIFT特征描述子看做词汇，借助K-Means聚类算法将词义相近的词汇进行合并。首先，从训练样本中挑出一部分图像，然后，提取这些图像的SIFT特征描述子，将这些SIFT特征描述子进行聚类，其聚类中心就是所谓的字典原子，而这些字典原子便组成了视觉词典。

1.3 利用视觉词典对图像量化

词典对图像的量化通俗讲就是求取字典原子的统计直方图。传统的词袋模型利用字典原子与图像的每一个SIFT特征描述子求欧式距离，距离近的则在该字典原子对应的直方图bin上加1。这种量化的方式只保留了影响最大的字典原子的影响而忽略的其他字典原子的影响。针对这一问题本文提出了一种基于最小二乘的方法进行表示，即D={d1,d2,…，dm}，其中D表示字典原子的集合，dm表示第m个字典原子。一幅图像的SIFT特征描述子的聚合S={s1,s2,…，sm}，其中sm为该图像的第m个SIFT特征描述子。利用最小二乘对一个SIFT特征量化如下：

Dxj=sj,(j=1,2，…，m)

(5)

其中D为字典，其为128×n矩阵，128为字典原子的维度，n为字典原子的个数。xj为字典原子的系数，其为n×1的向量，即每一个字典原子对该SIFT特征描述子的影响。

经过上述过程得到了m个xj，其该幅图像的量化直方图向量用X表示：

X=x1+x2+…+xj

(6)

2 空间金字塔匹配

(7)

(8)

其在图像匹配中的应用如图1所示。

图1 空间金字塔匹配

如图1所示，将level(i)的图像划分为2i-1×2i-1个bin，然后在每一个bin上统计直方图特征，最后将所有level的直方图特征连起来组成一个向量，这个向量称为该图像的特征，即金字塔特征。对于字典原子数目为M,层数为L其特征维数表示如下：

(9)

3 分类器的设计

落在两个支持向量之间的样本因为其易于分错，本文利用随机森林进行二次分类。利用训练样本训练随机森林的分类器，然后将落在两类支持向量之间的测试样本拿出来进行二次分类。

4 实验结果及分析

本文采用由文献[1]提供的图像数据集进行实验。该数据集图像分为阴天与晴天两类，每类样本有5 000幅，共10 000张图像。图2与图3为该数据集的部分图像。

图2 晴天图像

图3 阴天图像

表1中选择文献[1]中的图像集，利用80%的图像作为训练样本训练SVM分类器和随机森林分类器，20%用于测试。执行5次实验均值和方差作为分类的准确率。为了更好地表达实验的准确率，本文采用文献[1]提出的归一化识别率。

表1 文献[1]图像库的实验结果对比

5 结论

本文利用图像场景分类的方法对于基于图像的天气场景分类方法进行分类。其创新之出在于：(1)利用BOF模型和空间金字塔匹配解决当前热门的基于图像的天气状态识别问题，在图像量化环节本文利用最小二乘刻画每一个字典原子的影响。(2)在分类方面利用支持向量机和随机森林进行二次分类，将那些利用SVM[11]分类时落在两类支持向量之间的样本利用随机森林[12]进行二次分类。

[1] Lu Cewu,Lin Di,Jia Jiaya,et al.Two-class weather classification[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014: 3718-3725.

[2] 梁栋. 一种复杂场景下景物图像的匹配算法[J]. 微型机与应用,2015,34(10): 48-50.

[3] ROSER M,MOOSMANN F. Classification of weather situations on single color images[C].Intelligent Vehicles Symposium,2008 IEEE. IEEE,2008: 798-803.

[4] 曹治锦,唐慧明. 视频图像中的车辆检测跟踪和分类[J]. 电视技术,2004 (3): 85-87.

[5] Cao Liangliang,Li Feifei. Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes[C].IEEE 11th International Conference on Computer Vision,2007. ICCV 2007. IEEE,2007: 1-8.

[6] LAZEBNIK S,SCHMID C,PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,IEEE,2006: 2169-2178.

[7] LOWE D G. Object recognition from local scale-invariant features[C]. The Proceedings of the Seventh IEEE International Conference on Computer Vision,1999.IEEE,1999,2: 1150-1157.

[8] GRAUMAN K,DARRELL T. The pyramid match kernel: Discriminative classification with sets of image features[C]. Tenth IEEE International Conference on Computer Vision,2005. ICCV 2005. IEEE,2005,2: 1458-1465.

[9] LALONDE J F,EFROS A A,NARASIMHAN S G. Estimating the natural illumination conditions from a single outdoor image[J]. International Journal of Computer Vision,2012,98(2): 123-145.

[10] YAN X,LUO Y,ZHENG X. Weather recognition based on images captured by vision system in vehicle[J]. Advances in Neural Networks-ISNN 2009,2009: 390-398.

[11] CHANG C C,LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3): 27.

[12] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1): 5-32.

Weather scene recognition algorithm based on random forest

Shi Jing,Zhu Hong

(The Faculty of Automation and Information Engineering,Xi’an University of Technology,Xi’an 710048,China)

Traditional weather state recognition often uses a lot of data collected by the sensors to determine the state of the weather. However,research conducted by the image recognition of the state of the weather are rare. In this paper we use bag of words model and spatial pyramid matching outdoor images to identify the state of the weather. The method which analyzes the influence of sunny and cloudy weather conditions for the two types of images,takes two types of weather conditions as the two scenarios,extracts the image SIFT (rotation invariant descriptors) feature of image,uses bag of words model and spatial characteristics of pyramid to get matching pyramid,and then uses the features of the training pyramid classifier to identify the test sample. Classifier construction aspects described herein we use Support Vector Machine (SVM) to construct a classifier,and uses random forest classifier to constructe two of the test sample through a sample input classifier interposed between two support vectors to two class classifier for recognition. Testing results show that its recognition rate can reach 82%.

image classification; SIFT features; spacial pyramid ; SVM

国家自然科学基金(61502385)；国家自然科学基金(61673318)；西安市科技计划项目(CXY1509(13))；西安理工大学教学研究重点项目(xjy1670)

TP391

10.19358/j.issn.1674-7720.2017.24.015

史静，朱虹.基于随机森林的天气场景判别算法J.微型机与应用，2017,36(24)：51-53.

2017-06-30)

史静(1983-)，女，博士研究生，讲师，主要研究方向：数字图像处理、场景分类。

朱虹(1963-)，女，博士，教授，主要研究方向：数字图像处理、智能视频监控、模式识别等。