杨 勃,邵泉铭
(湖南理工学院 信息与通信工程学院,湖南 岳阳 414006)
负熵最小化加权最小二乘支持向量机及其应用
杨 勃,邵泉铭
(湖南理工学院 信息与通信工程学院,湖南 岳阳 414006)
提出了一种负熵最小化加权最小二乘支持向量机分类模型,并应用于水下底质识别任务.该模型在原始最小二乘支持向量机(Least Square Support Vector Machine,LSSVM)基础上引入权重,通过权重分布的负熵最小化调节和控制权重的稀疏度,然后使用该稀疏分布权重进一步进行加权LSSVM再学习,从而实现对原始LSSVM分类边界的调整优化.将负熵最小化加权LSSVM应用于水下钴结壳底质识别,实验结果表明,该负熵最小化加权LSSVM能显著减小钴结壳错判率和识别正确率,有效提高底质识别效果.
加权最小二乘支持向量机; 负熵;稀疏权重; 钴结壳识别; 底质识别
Abstract: A weighted least squares support vector machine based on negative entropy minimization is proposed,which is used on the task of underwater bottom material recognition.The proposed classifier model is learned on the results of original Least Squares Support Vector Machine (LSSVM).Through negative entropy minimization of distribution of weights,it controls and adjusts sparseness of sampling weights effectively.And then,by using these sparse weights,a weighted LSSVM is retrained to adjust the original classification border of LSSVM.Finally,the proposed model is used on underwater cobalt-rich crusts recognition.Experiment results show that using the proposed weighted LSSVM based on negative entropy minimization can decrease the misclassification rate and recognition correct rates significantly and improve the effectiveness of bottom material recognition.
Key words: weighted LSSVM,negative entropy,sparse weights,cobalt-rich crusts recognition,bottom material recognition
深海钴结壳是一种重要的海洋多金属战略矿产资源[1].因海底环境恶劣,采用水下自治机器人自动完成矿物开采、收集和输送,是目前水下钴结壳开采技术研究的主流方案[2].其中水下钴结壳自动识别则是高效开采钴结壳的前提.水下钴结壳识别可归于水下目标探测与识别一类,目前水下目标探测常用手段是声学探测,而主流水下目标识别方法则主要基于统计模式识别技术实现[3~5]: 通过声学探测,获取目标回波,在分析和提取目标回波统计特性的基础上,设计合适的统计分类器,最终实现水下目标自动识别.
国家海洋科考调查结果表明,钴结壳矿区底质类型多样.除钴结壳外,还有海底沉积物和玄武岩、火山角砾岩、礁灰岩、火山凝灰岩、碳酸盐岩等多种类型基岩类底质[6].设计出合适的统计分类器,将钴结壳从如此众多的底质中识别出来,具有相当难度.此外,底质表面不平整,导致回波样本散布程度大,分类决策边界复杂,这也增加了钴结壳识别难度.
LSSVM是一种分类效果较好的分类器[7~9].与支持向量机(support vector machine,SVM)相比,LSSVM不仅在分类效果上与之相当,而且求解快速[7].因此,本文选择和改进LSSVM用于钴结壳识别.
模式识别理论指出,在最小均方误差意义上LSSVM最优逼近bayes分类器[10].然而在小样本情况下,LSSVM易受粗差样本影响.为提高鲁棒性,消除粗差样本的干扰,Suykens[11]提出了加权LSSVM模型.基于Suykens加权LSSVM模型,许多研究者进行了进一步改进和应用研究,提出了一些改进加权LSSVM模型,并在化工、机电等行业取得了一定应用成果[12~15].
本文首先介绍LSSVM模型和Suykens加权LSSVM模型.在此基础上,通过人工数据实验分析了Suykens加权LSSVM模型应用于分类问题上的不足,提出了具有鲁棒性同时稀疏度可调的负熵最小化加权LSSVM分类模型.最后,将负熵最小化加权LSSVM分类模型应用于水下钴结壳识别任务,实验结果表明,负熵最小化加权LSSVM分类模型能够有效改善LSSVM分类的鲁棒性,进一步提高了水下钴结壳识别效果.
LSSVM由Suykens[7]于1999年首次提出.设有训练数据集,所求的回归模型为f(x)=wTx+b,LSSVM通过以下优化模型,寻求最优投影矢量w和偏置b:
为消除粗差样本的不良影响,提高鲁棒性,Suykens提出了加权LSSVM模型[11]:
其中qi为样本xi的权值,且
权值qi描述了样本xi对模型学习的重要程度,样本xi的误差越大,则说明其重要程度越低,应当赋予小权值抑制该样本; 反之亦然.加权函数(3)为分段线性函数,它将样本定性区分为重要样本区,过渡区和粗差样本区3个区间.其中,满足条件的样本即为粗差点,赋予其10-4的微小权值以去除粗差点对LSSVM模型的干扰,从而增强学习的鲁棒性.
然而,采用Suykens加权LSSVM实现分类存在以下两个主要缺陷(实验1进行了详细分析):
(1)权值主要计算依据: 样本xi到回归面的误差i不能准确描述xi对分类决策面形成的重要性;
(2)Suykens加权LSSVM模型不具稀疏性,不能有效解决不同类别样本分布不同导致的决策偏差.
Suykens也发现了其加权LSSVM模型不具稀疏性这一缺点.为此,他又提出了一个加权LSSVM剪枝方案,该方案将加权学习、稀疏化剪枝分为多阶段依次完成,过程相对繁琐.为解决以上问题,同时将稀疏化、加权学习简化成单一阶段一次性完成,本文提出了负熵最小化加权LSSVM分类模型.
SVM模型揭示,在样本分布未知情况下,重点考虑分类边界处样本能获取较好的分类效果[10].因此要有效解决不同类别样本分布不同带来的学习偏差,一种可行方案就是仿照SVM,提高加权方法稀疏度.通过加大权值分布稀疏度,不仅可去除粗差样本,还能有效压制非边界样本对学习模型的干扰.
此外,对分类问题,其分类决策面可表示为wTx+b=0.通常认为越靠近分类决策面的样本,其重要性越高,应赋予更大的权值.因此,本文采用有向距离来取代Suykens加权LSSVM中的误差,用于描述样本xi对分类决策的重要性,作为权值计算的依据.
进一步,基于负熵最小化,本文提出如下权值优化模型:
其中di为样本xi到LSSVM决策面的有向距离,c1为正则化负熵项参数,且c1≥0.
式(4)中,权值qi具有概率意义.主优化项可解释为在概率分布{qi}下对训练样本集的距离平方d2的期望E(d2).
假设不同样本到决策边界距离平方d2各不相同.在不考虑正则化负熵项(即c1=0)情形下,最小化期望E(d2),将得到最稀疏的权值分布,对应于一个确定性事件.此时离决策面最近的样本权值为1,其余样本权值为0,即
当c1→+∞时,权值分布则趋向于均匀分布,即,所有权值相等.此时加权LSSVM将退化为LSSVM.
因此,通过调节模型(4)中参数c1可调整加权LSSVM的稀疏度,有效控制权值分布的稀疏性.
模型(4)可转换为如下等价的Lagrange模型:
对模型(5)中的qi,求导,求最优解得
进一步整理得
式(9)表明,归一化权值qi大小不仅仅取决与自身有向距离di,还与其他样本的有向距离有关.其中,由自身有向距离di决定的量是,该函数关于是一个严格单调递减的函数.简单推导可知,权值qi也是关于的严格单调递减的函数.距离|di|越大,则越小,导致权值qi越小,此时该样本对模型学习的作用也就越小.
事实上,式(9)表达的权值分布是一个具有热力学意义的统计分布: Gibbs分布.从热力学角度看,具有能量意义,参数c1则具有温度意义.当温度c1越小,则在热平衡下可选低能状态就越少,大部分高能状态不再出现,即出现的概率qi为0.因此从热力学角度看,调节温度参数c1,可有效控制样本权值稀疏度.
调节参数c1,可控制加权学习模型的样本权值稀疏度.但需要指出的是,边界区两类样本稀疏程度不一,会导致分类不平衡问题突出.为此,我们单独对每一类样本进行负熵最小化最优权值计算,进一步修正模型(4),得到如下模型:
其中N+为正类样本数.
仿照模型(4)求解可得: 对于正类样本xi,其权值为
简单推导可知,当c1→+∞时,正类样本xi权值; 负类样本xj权值.其中,N-为负类样本数,NN+N-=+.此时的权值取值,正是采用LSSVM学习时,处理非平衡样本情况的常用做法.
与Suykens加权LSSVM算法类似,基于负熵最小化加权LSSVM也采用二阶段优化方法,算法描述如下:
(a)预置c,求得LSSVM最优解w0,b0;
(b)由最优解w0,b0计算所有样本到决策边界的距离di,依据式(10)优化求得归一化权值qi;
(c)设置c1,将权值qi代入式(2)的加权LSSVM优化模型中,最终求得加权LSSVM优化解w*,b*.
本实验人工生成二维样本数据10个.其中生成第1类“*”样本5个: 所有样本横坐标为1,纵坐标0.1~0.9,间隔0.2;生成第2类“+”样本5个: 所有样本纵坐标为0.5,横坐标1.2~2,间隔也为0.2.
设置参数c=106,c1=0.25,最终的学习结果如图1所示.
图1 人工数据集上的学习结果
图1中有3根LSSVM对应的黑实线,从左至右分别为:wTx+b=-1,wTx+b=0和wTx+b=+1.由于两类样本分布不同,决策线wTx+b=0出现偏差,1个“+”样本被误分.依式(3)计算权值得,图中唯一误分样本权值为0.604,其余权值均为1.采用上述权值结果训练Suykens加权LSSVM,最终得图1中的虚决策线:w'Tx+b'=0,该决策线比原决策线表现更差.从权值计算结果看,Suykens加权LSSVM错误地估计了对分类决策有重要作用的误分样本权值,说明回归误差不适宜作为分类决策的权值计算依据.
此外,我们仍采用Suykens加权LSSVM权值计算式(3),将δi置换成随机有向距离变量di,再次进行权值计算得,所有样本权值均为1.加权LSSVM退化为LSSVM,学习偏差仍不能得到改善.从权值计算结果看,这是因为Suykens加权LSSVM不具稀疏性.
图1中点划线对应的是基于模型(10)的学习结果:w*Tx+b*=0.在本例中,通过最小化负熵优化权值,将图1中最右边两个最偏离分类决策面的样本成功抑制,得到了正确的学习结果,这表明该方法具有稀疏性,能够解决样本分布不同带来的分类偏差问题.
在本例中,采用模型(5)的基于负熵最小化加权LSSVM同样得到了正确的学习结果.但是,我们重新调整参数c1=0.04时,使决策边界区变窄,此时边界样本过于稀疏化,其中“*”类样本权值过小,被全部排除在边界之外,两类样本极度不平衡,采用模型(5)出现了极大偏差.与之对应的是,采用模型(10)始终没出现偏差,这说明模型(10)能够有效解决稀疏边界样本两类样本不平衡问题.
进一步,我们将负熵最小化加权LSSVM应用到基于超声探测的水下钴结壳识别任务中.实验底质材料主要来自我国钴结壳调查区内的深海拖网样品,除钴结壳外,还有玄武岩、火山角砾岩、礁灰岩、火山凝灰岩4种基岩.此外,我们还将泥、砂、砾石依不同比例混合,制作了模拟海底沉积物.
将以上底质材料随机铺设在实验水池底部,由500KHz窄带超声探测实验系统采集底质回波(超声探测实验系统如图2所示).
图2 超声探测实验系统
实验重复4次,每次采集钴结壳回波80个,其他类型底质每类80个组成非钴结壳回波共400个.对采集到的回波信号,先后通过数据预处理、特征提取过程,最终得到32维回波小波模极大值特征样本集[16].分别使用线性核和高斯核下的LSSVM,Suykens加权LSSVM,本文的加权LSSVM模型(10)在特征样本集上进行钴结壳识别实验.实验中,高斯核参数取值范围为2-5~210,正则化参数c取值范围为2-12~25,负熵最小化加权LSSVM参数c1取值范围为2-7~210.
钴结壳采集率和废石混入率是钴结壳高效开采的两个关键指标,分别与钴结壳识别的正确识别率和非钴结壳错判为钴结壳的错判率直接相关[6].因此本实验采用10重交叉验证来估计钴结壳正确识别率和错判率,实验结果见表1和表2.
表1 线性核下钴结壳识别结果
表2 高斯核下钴结壳识别结果
从表1和表2可看出,在线性和高斯核非线性分类情形下,Sunkens加权 LSSVM与LSSVM在钴结壳正确识别率指标上彼此差异并不明显,在钴结壳错判率指标上Sunkens加权 LSSVM表现甚至更差.而本文提出的负熵最小化加权LSSVM在钴结壳错判率指标上,错判率减少了约7%;在钴结壳正确识别率指标上,正确识别率提高了约2%.这表明,本文提出的负熵最小化加权LSSVM有效改善了钴结壳识别效果.
由于非钴结壳底质类型多样,其回波样本在特征空间中分布情况更为分散,与钴结壳底质回波样本分布特性差异明显.用LSSVM学习易受非钴结壳样本分布的影响,分类决策出现偏差,导致钴结壳错判率较高.Sunkens加权 LSSVM则因不恰当的权值计算依据以及稀疏性不足的问题,导致其对LSSVM学习结果无明显改善,甚至分类决策偏差变得更大,在错判率上表现得比LSSVM还要更差.而负熵最小化加权LSSVM通过引入恰当的权值计算依据和稀疏性,消除了非钴结壳样本分布对分类决策的影响,减小了分类决策偏差,显著减小了钴结壳错判率.
本文在Suykens加权LSSVM基础上,提出了一种基于负熵最小化的加权LSSVM模型.与Suykens加权LSSVM不同,负熵最小化加权LSSVM主要适用于分类问题.该加权LSSVM采用样本到LSSVM决策边界的有向距离度量样本对决策面形成的贡献程度,并用于计算样本权值.通过引入负熵最小化,该加权LSSVM能够有效控制权值的稀疏度,从而有效地降低大方差类别样本对LSSVM学习的影响,减小分类决策偏差.通过水下钴结壳识别实验,最后验证了该加权LSSVM分类模型的有效性.实验表明,该加权LSSVM能显著减小钴结壳错判率,并在一定程度上提高了钴结壳识别率.
[1]PeterA.Rona.Resources of the Sea Floor[J].Science,2003,299: 673~674
[2]Chung J S.Deep-ocean mining: Technologies for manganese nodules and crusts[J].International Journal of Offshore and polar Engineering,1996,6(4):244~254
[3]杨 勃,卜英勇,黄剑飞.多核信息融合模型及其应用[J].仪器仪表学报,2010,31(2): 248~252
[4]Azimi-Sadjadi M.R,De Y,Qiang H,etc.Underwater target classification using wavelet packets and neuralnetworks[J].IEEE Transaction on Neural Networks,2000,11(3): 784~794
[5]AKari E.Ellingsen.Acoustic classification of seabed habitats using the QTC VIEWsystem[J].ICES Journal of Marine Science,2002(59): 825~835
[6]周木荣.基于声学分形特征的深海钴结壳识别研究[D].长沙: 中南大学硕士学位论文,2009:12~13,73
[7]Suykens J A K,Vandewalle J.Least square support vector machine classifier[J].Neural Processing Letters,1999,9(3): 293~300
[8]吴一全,尹丹艳,吴诗婳.基于NSCT、KFCM和多模型LS-SVM的红外小目标检测[J].仪器仪表学报,2011,32(8): 1704~1709
[9]陈法法,汤宝平,董绍江.基于粒子群优化LS-WSVM的旋转机械故障诊断[J].仪器仪表学报,2011,32(12): 2747~2753
[10]Duda R O,Hart P E,Stork D G.Pattern Classification(Second Edition)[M].Newyork: Wiley-Interscience,2000: 239~245
[11]Suykens J A K,et al.Weighted least squares support vector machine:Robustness and sparse approximation[J].NeuroComputing,2002,48(1): 85~105
[12]邢永忠,吴晓蓓,徐志良.基于柯西分布加权的最小二乘支持向量机[J].控制与决策,2009,24(6): 937~940
[13]吕剑峰,戴连奎.加权最小二乘支持向量机改进算法及其在光谱定量分析中的应用[J].分析化学,2005,35(3): 340~344
[14]范玉刚,李 平.动态加权最小二乘支持向量机[J].控制与决策,2006,21(10): 1129~1132
[15]LIU J L,LI J,XU W X,etc.A weighted Lq adaptive least squares support vector machine classifiers-Robust and sparse approximation[J].Expert Systems with Applications,2011,38: 2253~2259
[16]张静远,张 冰,蒋兴舟.基于小波变换的特征提取方法分析[J].信号处理,2000 ,16(2): 156~162
Weighted Least Squares Support Vector Machine based on Negative Entropy Minimization and Its Application
YANG Bo,SHAO Quanming
(College of Information and Communication Engineering,Hunan Institute of Science and Technology,Yueyang 414006,China)
TP391.4
A
1672-5298(2017)03-0027-06
2017-07-15
湖南省教育厅科学研究重点资助项目(17A089)
杨 勃(1974− ),男,湖南岳阳人,博士,湖南理工学院信息与通信工程学院副教授.主要研究方向: 模式识别技术,水声信号处理