无限最大间隔线性判别投影模型

2017-12-16 06:48曹雪菲张学峰王鹏辉刘宏伟

电子与信息学报 2017年12期

文伟曹雪菲陈渤韩勋张学峰王鹏辉刘宏伟

无限最大间隔线性判别投影模型

文伟①②曹雪菲③陈渤*①②韩勋①张学峰①②王鹏辉①刘宏伟①②

①(西安电子科技大学雷达信号处理国家重点实验室西安 710071)②(西安电子科技大学信息感知技术协同创新中心西安 710071)③(西安电子科技大学网络与信息安全学院西安 710071)

针对具有多模分布结构的高维数据的分类问题，该文提出一种无限最大间隔线性判别投影(iMMLDP)模型。与现有全局投影方法不同，模型通过联合Dirichlet过程及最大间隔线性判别投影(MMLDP)模型将数据划分为若干个局部区域，并在每一个局部学习一个最大边界线性判别投影分类器。组合各局部分类器，实现全局非线性的投影与分类。iMMLDP模型利用贝叶斯框架联合建模，将聚类、投影及分类器进行联合学习，可以有效发掘数据的隐含结构信息，因而，可以较好地对非线性可分数据，尤其是具有多模分布特性数据进行分类。得益于非参数贝叶斯先验技术，可以有效避免模型选择问题，即局部区域划分数量。基于仿真数据集、公共数据集及雷达实测数据集验证了所提方法的有效性。

最大间隔线性判别投影；非参数贝叶斯；Dirichlet过程混合模型

1 引言

在机器学习中，数据通常具有较高的维度。而对于高维度数据的分类问题，对应的分类器通常具有较高的复杂度，为了学习得到较好的分类器，往往需要较大训练样本集合[1]。而在实际应用中，带标号的训练样本的获取通常具有较高的代价。为了解决这一个矛盾，数据降维是一种有效的处理方法，一方面可以有效降低特征维度，减小运算复杂度，另一方面，特征降维可以对噪声进行抑制并减小特征冗余[2]。

根据是否利用了类别信息，降维方法可以分为非监督特征降维和监督特征降维两类。在非监督特征降维方法中，PCA是具有代表性的一种方法，但该类方法缺乏类别信息的引导，提取的特征并不能较好地适应分类任务。

上述方法中，无论分阶段的方法还是联合的方法均存在一个共同的缺陷：均是全局的特征提取方法，即期望经过一个全局的投影矩阵进行特征降维，使得数据在隐空间中线性可分。然而，对于非线性可分的数据，尤其是具有多模分布结构的数据，全局线性投影方法由于忽略了数据隐含的结构信息，容易导致性能的损失。

针对多模数据的分类，混合专家模型是一种常用的方法。文献[11,12]中的模型均为无限混合专家模型，其在利用Dirichlet过程(Dirichlet Process, DP)混合模型将数据划分为“无限”个子集的同时，在每个子集上训练一个简单的线性分类器，以解决全局非线性分类问题。与传统方法相比，混合专家模型不用预先确定子集个数，另外，其将子集划分与分类任务相结合，保证了各子集的可分性，提高了全局分类性能。

基于以上分析，本文将无限混合专家模型的思想引入到MMLDP模型中，提出了一种无限最大边界线性判别投影模型(infinite Max-Margin Linear Discriminant Projection, iMMLDP)。具体地，iMMLDP模型利用DP混合模型将数据空间划分为“无限”个子集并且在每个子集上学习一个局部MMLDP分类器，组合各个局部MMLDP分类器，实现全局非线性的投影与分类。另外，iMMLDP模型将子集划分、投影子空间学习及分类器学习统一在贝叶斯框架下，利用分类误差指导子集的划分及投影子空间的学习，较好地保证了各个局部区域的线性可分性。由于iMMLDP模型采用隐变量SVM作为分类器，整个模型是全共轭的，可以利用Bayes估计方法对参数进行简单有效地估计。基于仿真数据集、公共数据集和实测数据的实验结果表明本文模型可以在避免模型选择问题的同时有效提高分类性能。

2 最大边界线性判别投影(MMLDP)模型

MMLDP模型是一种线性监督降维方法，该方法通过线性投影获得观测数据的低维表示，并将其作为Bayes SVM的输入，在Bayes框架下进行建模，对投影子空间及分类器进行联合学习。

MMLDP模型将式(1)中最小化分类损失的问题转化为对式(2)求最大化后验问题。该模型在贝叶斯框架下对投影子空间及分类器进行联合求解，利用分类误差指导投影矩阵的学习，从而较好地保障了隐空间的分类性能。另外，该模型采用的分布均为共轭先验分布，因而可以采用Gibbs采样方法高效求解。

3 无限混合最大边界线性判别投影(iMMLDP)模型

3.1 模型构建

MMLDP是一种全局的线性投影方法，能够较好地应对线性可分数据，然而，对于非线性可分数据类型，尤其是具有多模结构数据，全局投影方法忽略了数据的隐含结构，会带来性能的损失。iMMLDP模型将DP混合模型与MMLDP相结合，在原始数据空间对数据进行聚类，并在每一聚类中构建一个局部MMLDP分类器，组合各个子分类器，实现全局的非线性投影与分类。

DP是一种应用于非参数贝叶斯中的随机过程[14]。假设服从参数为的先验分布，记为，若参数服从DP，记为，其中为基分布，为聚集参数，则称服从DP混合分布。基于Stick-breaking构造[14]的DP混合模型有如式(3)所示的结构：

(3)

可以看到，DP混合模型中，整个参数空间被划分为无限可数(通常用较大值进行截断)个离散点集合，共享同一个分布参数的样本具有相同的分布，自动地划归为一个聚类。若假设每个聚类的样本服从高斯分布[11,15]，则设定，其中表示均值，表示协方差矩阵，此时基分布采用Normal-Wishart分布[5]。由式(2)和式(3)，可以得到iMMLDP模型的联合伪后验分布为

3.2 模型推理

由所有参数的联合伪后验分布(式(4))可知，iMMLDP模型参数均采用共轭先验，因而可以利用Gibbs采样技术对参数进行估计。根据Gibbs采样方法原理，只需对各隐变量的后验分布进行推理，并根据后验分布进行循环采样，直至采平稳即可得模型参数的解。根据式(4)，可以得到所有参数的后验分布形式，其中：

4 识别框架

如图1，本文构建了一个基于iMMLDP的识别系统。整个系统包括两部分：实线框内的训练阶段和虚线框内的测试阶段。接下来对这两个阶段进行介绍。

训练阶段：训练阶段先对模型进行一定次数的采样，直至采样稳定，该过程被称为模型预热阶段。待模型稳定后，采样一定数量的模型参数作为模型最终的参数估计样本，为了保证的抽样满足独立性，每隔一定间隔保留一次采样。训练阶段具体步骤如下：

图1 基于iMMLDP模型目标识别系统框图

测试阶段：根据训练获得的模型参数，对测试样本进行分类。由于测试样本的类别标号是未知的，因而，测试阶段与训练阶段有一定差异。测试阶段具体步骤如下：

则模型最终的类别输出为

5 实验

5.1实验设置

本文分别在人工数据集、Benchmark数据集以及实测雷达高分辨距离像(HRRP)数据上对iMMLDP模型的有效性进行验证。实验采用线性SVM作为基准，并将本文模型与3种全局线性投影模型：LDA+SVM, BSDR及MMLDP进行了比较。在非线性方法中，采用非线性SVM(高斯核SVM，记为KSVM)作为基准，另外选用K-means+ MMLDP(Km+MMLDP)和DPMNL模型两个混合专家模型进行了性能对比，其中Km+MMLDP是聚类与分类解耦的方法，即先在原始空间中对数据进行聚类，再对每一个聚类单独学习一个MMLDP模型。

5.2 人工数据集

为了对比本文所提方法相较于全局投影方法的优势，本节先采用具有多模分布的人工数据集如图2所示，该数据集为2维3聚类局部线性可分数据，其中不同颜色表示不同类别的样本。

在图3中，全局投影方法获得的分类性能在图中采用蓝色线条表示，从图3中可以看出，最优全局投影方法获得的分类精度仅为0.63，在图中采用蓝色星形表示，在这个数据集上，该值是全局方法能获得的最佳性能，因而，LDA及其变体，不能获得比这更为优越的性能，LDA对应的分类性能在图中采用红色星形标示。与全局投影方法不同，iMMLDP将数据空间划分为若干个局部区域，因而可以摆脱全局投影方法的局限。从图3可以看出，在该数据集上，iMMLDP的性能相比于全局投影方法高出30%多。

iMMLDP模型采用贝叶斯非参的方法将数据聚成有限个聚类，每一个聚类中，学习一个独立的MMLDP模型。由于聚类和分类是联合学习的，因而，可以有效挖掘数据中隐藏的线性结构。在本实验中，最大聚类数量设置为10。iMMLDP获得的有效聚类为4个，对应的聚类效果如图4，其中，不同颜色代表不同的聚类，类别1和类别2分别采用“●”和“○”进行区分。在这种聚类划分下，每一个局部分类器的分类精度如表1所示。从表中可以看出，每一个聚类都能被一个线性分类器进行有效划分，因而，通过组合各个局部分类器，全局分类性能也有较好的保证。

5.3 Benchmark数据集

本节实验采用的数据集为从UCI Machine Learning Repository中获取的Benchmark数据集，并从中选取了Heart, Splice, Twonorm, Waveform, Monk1, MDD-fou 6个分布较复杂的数据集。实验中采用原始数据作为模型输入，共重复10次，每次实验中随机抽取50%样本作为训练样本，剩余样本作为测试。在不同隐空间维度下，取10次的平均识别性能作为最终的识别率，并将各方法在不同隐空间维度下的最优识别性能列于表2。

图2 人工数据集合

图3 不同投影方法分类性能比较

图4 iMMLDP模型聚类-分类结果

表1 iMMLDP模型在仿真数据集上聚类及性能分析

在表2中，不同数据集对应的分类性能前三采用黑体进行标记，最优分类性能采用(*)进行标记。从表中可以看出，在实验所采用的6个数据集上，联合的投影方法(MMLDP, BSDR)优于解耦的投影方法(LDA+SVM); Km+MMLDP, DPMNL, iSVM, IMMBPFA[18]及本文所提模型等几个线性混合专家模型优于全局线性分类模型，其中，本文所提方法在大部分数据集(5/7)上获得了最优的分类性能。对比Km+MMLDP与iMMLDP模型可以发现，iMMLDP模型将聚类和分类、投影联合在一起学习，可以有效发掘数据的隐含线性结构，因而性能获得了显著提升。相比DPMNL模型和iSVM模型，本文所提方法通过进行特征降维，可以有效提取线性判别子空间，可以对噪声进行抑制，从而性能获得了较大提升。特别地，在本文所提模型中，若令投影矩阵为单位矩阵，即不进行投影操作，则本文所提模型退化为iSVM模型。相比IMMBPFA，本文方法与其相似，均为无限混合专家模型并将聚类、子空间及分类器学习在贝叶斯框架下进行联合学习，不同的是，IMMBPFA模型在每一个局部学习一个最大间隔因子分析模型，而本文方法则采用投影方法进行特征提取。两个方法在不同的数据集上性能差异表现不同。得益于联合学习，两个模型在大部分数据集上分类性能都较好。

5.4 HRRP数据集

在雷达目标识别中，尤其是基于HRRP的雷达目标识别中，通常样本具有较高的维度，数据降维一方面可以降低模型对训练样本数量的需求，另一方面可以有效降低运算复杂度，因而，有效的降维方法具有重要的意义。

在本节，采用Ｃ波段雷达对3类飞机目标的实测HRRP数据。数据具体介绍见文献[17~20]。类似于文献[17~20]，实验中采用模2范数归一的方法消除HRRP的幅度敏感性，并提取功率谱特征消除其平移敏感性。为了检验模型的推广性能，本文采用与文献[17~20]相同的训练样本集与测试样本集，并从中选择600个训练样本和2400个测试样本。

实验中截棍上限设置为10, iMMLDP获得的有效聚类数为3。在这种聚类划分下，每一个局部分类器的分类精度如表3所示。从表中可以看出，每一个局部聚类都能获得较好的分类，这得益于将分类，聚类联合在一起学习，能够较好地保证各个局部的分类性能，从而获得全局较好的分类。相较于iSVM和DPMNL模型，本文所提方法通过局部线性投影，能够对噪声进行抑制，同时可以有效降低特征冗余，因而性能获得了较大提高。

6 结束语

针对目标识别中具有多模分布特性的复杂数据，本文提出了一种iMMLDP模型。该模型将贝叶斯非参数化方法及MMLDP模型相结合，在统一的贝叶斯框架下进行建模。不同于全局的线性降维方法，iMMLDP将数据降维、聚类以及分类器学习统一在概率框架下联合学习，不仅可以充分挖掘数据内在的分布结构，而且保证了各个聚类中样本的可分性。通过在仿真数据集、公共数据集以及雷达实测数据上的实验表明了所提模型的有效性。

[1] DUDA R, HART P, and STORK D. Pattern Classification (2nd ed.)[M]. New York, Wiley Interscience, 2000: 106-113.

[2] 郁道银, 王悦行, 陈晓冬, 等. 基于随机投影和稀疏表示的追踪算法[J]. 电子与信息学报, 2016, 38(7): 1602-1608. doi: 10.11999/JEIT151064.

YU Daoyin, WANG Yuexing, CHEN Xiaodong,. Visual tracking based on random projection and sparse representation[J].&, 2016, 38(7): 1602-1608. doi: 10.11999/JEIT 151064.

[3] SWETS D and WENG J. Using discriminant eigenfeatures for image retrieval[J]., 1996, 18(8): 831-836. doi:10.1109/34.531802.

[4] ETEMAD K and CHELLAPA R. Discriminant analysis for recognition of human face images[J]., 1997, 14(8): 1724-1733. doi:10.1364 /JOSAA.14.001724.

[5] FISHER R. The use of multiple measurements in taxonomic problems [J]., 1936, 7(2): 179–188 doi:10.1111/j.1469-1809.1936.tb02137.

[6] CHEN B, ZHANG H, ZHANG X,Max-margin discriminant projection via data augmentation[J]., 2015, 27(7): 1964-1976. doi:10.1109/TKDE.2015.2397444.

[7] NIKOLAOS G, VASILEIOS M, and IOANNIS K. Mixture Subclass discriminant analysis[J]., 2011, 18(5): 319-322. doi:10.1109/LSP.2011. 2127474.

[8] NIKOLAOS G, VASILEIOS M, and IOANNIS K. Mixture subclass discriminant analysis link to restricted Gaussian model and other generalizations[J]., 2013, 24(1): 8-21. doi:10.1109/TNNLS.2012.2216545.

[9] 郭继昌, 张帆, 王楠. 基于Fisher约束和字典对的图像分类 [J] 电子与信息学报, 2017, 39(2): 270-277. doi: 10.11999/ JEIT160329.

GUO Jichang, ZHANG Fan, and WANG Nan. Image classification based on Fisher constraint and dictionary pair [J].&, 2017, 39(2): 270-277. doi: 10.11999/JEIT160329.

[10] GONEN M. Bayesian supervised dimensionality reduction [J]., 2013, 4(6): 2179-2189. doi:10.1109/TCYB.2013.2245321.

[11] SHAHBABA B and NEAL R. Nonlinear models using Dirichlet process mixtures[J]., 2009, 10(4): 1829-1850.

[12] 文伟, 曹雪菲, 张学峰, 等. 一种基于多极化散射机理的极化SAR图像舰船目标检测方法[J]. 电子与信息学报, 2017, 39(1): 103-109. doi: 10.11999/JEIT160204.

WEN Wei, CAO Xuefei, ZHANG Xuefeng,. PolSAR ship detection method based on multiple polarimetric scattering mechanisms[J].&, 2017, 39(1): 103-109. doi: 10.11999 /JEIT160204.

[13] POLSON N G and SCOTT S L. Data augmentation for support vector machines[J]., 2011, 6(1): 1-24. doi:10.1214/11-BA601.

[14] SETHURAMAN J. A constructive definition of Dirichlet priors[J]., 1994, 4(2): 639-650.

[15] HANNAH L A, BLEI D M, and POWELL W B. Dirichlet process mixtures of generalized linear models[J]., 2011, 12: 1923-1953.

[16] RIFKIN R and KLAUTAU A. In defense of one-vs-all classification[J]., 2004, 5(1): 101-141.

[17] DU L, LIU H W, BO Z,. Radar HRRP statistical recognition: Parametric model and model selection[J]., 2008, 56 (5): 1931-1943. doi:10.1109/TSP.2007.912283.

[18] 张学峰, 陈渤, 王鹏辉, 等. 无限最大间隔Beta过程因子分析模型[J]. 西安电子科技大学学报(自然科学版), 2016, 43(3): 13-18. doi: 10.3969/j.issn.1001-2400.2016.03.003.

ZHANG Xuefeng, CHEN BO, WANG Penghui,Infinite max-margin Beta process factor analysis model[J]., 2016, 43(3): 13-18. doi: 10.3969/j.issn.1001-2400.2016.03.003.

[19] DU L, LIU H W, WANG P H,Noise robust radar HRRP target recognition based on multitask factor analysis with small training data size[J]., 2012, 60(7): 3546-3559. doi:10.1109/TSP. 2012.2191965.

[20] 张学峰, 陈渤, 王鹏辉, 等. 一种基于Dirichlet过程隐变量支撑向量机模型的目标识别方法[J]. 电子与信息学报, 2015, 37(1): 29-36. doi: 10.11999/JEIT140129.

ZHANG Xuefeng, CHEN Bo, WANG Penghui,Atarget recognition method based on Dirichlet process latent variable support vector machine model[J].&, 2015, 37(1): 29-36. doi: 10.11999/JEIT140129.

文伟：男，1987年生，博士，研究方向为复杂背景下的SAR图像目标检测与识别.

曹雪菲：女，1980年生，博士，研究方向为网络与信息安全.

陈渤：男，1979年生，博士，教授，博士生导师，研究方向为雷达目标识别、统计信号处理、统计机器学习、深度学习网以及大规模数据处理.

韩勋：男，1990年生，博士，研究方向为雷达目标识别、空间目标参数估计.

张学峰：男，1987年生，博士，研究方向为雷达自动目标识别.

王鹏辉：男，1984 年生，博士，副教授，研究方向为雷达自动目标、识别以及统计机器学习理论等.

刘宏伟：男，1971年生，博士，教授，博士生导师，研究方向为雷达信号处理、雷达自动目标识别、认知雷达、协同探测.

Infinite Max-margin Linear Discriminant Projection Model

WEN Wei①②CAO Xuefei③CHEN Bo①②HAN Xun①ZHANG Xuefeng①②WANG Penghui①LIU Hongwei①②

①(,,’710071,)②(,’710071,)③(,,’710071,)

An infinite Max-Margin Linear Discriminant Projection (iMMLDP) model is developed to deal with the classification problem on multimodal distributed high-dimensional data. Different from global projection, iMMLDP divides the data into a set of local regions via Dirichlet Process (DP) mixture model and meanwhile learns a linear Max-Margin Linear Discriminant Projection (MMLDP) classifier in each local region. By assembling these local classifiers, a flexible nonlinear classifier is constructed. Under this framework, iMMLDP combines dimensionality reduction, clustering and supervised classification in a principled way, therefore, an underlying structure of the data could be uncovered. As a result, the model can handle the classification of data with global nonlinear structure, especially the data with multi-modally distributed structure. With the help of Bayesian nonparametric prior, the model selection problem (e.g. the number of local regions) can be avoided. The proposed model is implemented on synthesized and real-world data, including multi-modally distributed datasets and measured radar high range resolution profile (HRRP) data, to validate its efficiency and effectiveness.

Max-Margin Linear Discriminant Projection (MMLDP); Bayesian nonparametric; Dirichlet Process Mixture (DPM) model

TN957.51

1009-5896(2017)12-2795-08

10.11999/JEIT170256

2017-03-29；

2017-09-21；

2017-10-27

通信作者：陈渤 bchen@mail.xidian.edu.cn

国家杰出青年科学基金(61525105)，国家自然科学基金(61201292, 61322103, 61372132)，全国优秀博士学位论文作者专项资金(FANEDD-201156)，陕西省自然科学基础研究计划(2016JQ6048)，航空科学基金(20142081009)，上海航天科技创新基金(SAST2015009)，航空电子系统射频综合仿真航空科技重点实验室基金

: The National Science Fund for Distinguished Young Scholars (61525105), The National Natural Science Foundation of China (61201292, 61322103, 61372132), The Program for New Century Excellent Talents in University (FANEDD-201156), The Natural Science Basic Research Plan in Shaanxi Province (2016JQ6048), The Avaation Science Fund (20142081009), Shanghai Aerospca Science, Technology Innovation Fund (SAST2015009), The Key Laboratory Fund of RF Integrated Laboratory in Avionics System