夏志敏 张大发 陈永红 张 耀
(海军工程大学核能科学与工程系 武汉 430033)
核动力装置管系繁多,且长年运行于高温、高压、高湿度、强辐照的恶劣环境中,管道腐蚀不可避免[1].本文根据核动力管道腐蚀环境复杂,检测样本少的实际情况,提出了一种基于支持向量机(support vector machine,SVM)的核动力管道腐蚀状态评估方法.支持向量机是Vapnik与其领导的贝尔实验室的研究小组根据统计学理论提出的一种新的通用机器学习方法[2-3],它是建立在统计学理论的VC维理论基础上的,采用结构风险最小化(SRM)原理,兼顾训练误差和泛化能力,在解决小样本、非线性、高维数、局部极小值等工程实际问题中具有独特的优势.因而在许多领域得到了广泛的应用,如人脸识别、手写字体识别、文本分类、医疗诊断等[4-5].
支持向量机理论是从线性分类发展而来,核心就是构建最优分类面.其基本思想可用图1的两维平面的情况来说明.
图1 两类线性分划的最优超平面
图1 中,空心圆点和实心圆点代表两类样本,中间的粗实线H为分类线,其附近的2条虚线H1和H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离就是分类间隔(margin).所谓最优分类线就是要求分类线不但能将两类正确分开,即训练错误率为零,而且使分类间隔最大.
对于线性可分的样本集(xi,yi),i=1,2,…,l.x∈Rn,y∈{-1,+1},l为样本数,n为输入维数,有分类线方程
式中:w为权值向量;b为分类阈值.对其进行归一化处理,使得样本集(xi,yi)满足下面的不等式
此时分类间隔等于2/‖w‖,使分类间隔最大等价于使‖w‖/2最小.训练样本正确可分,且使‖w‖/2最小的分类面就是最优分类面,位于两条虚线上的训练样本点就称作支持向量.
对于非线性SVM问题,基本思想是:根据泛函的有关理论,通过非线性映射φ:Rn→H,其中H是高维内积空间称为特征空间,引入一种内积核函数K(xi,xj)=φ(xi)·φ(xj)满足 Mercer条件,将训练样本x转化为某个高维空间中,而高维空间中的内积可以通过核函数用低维空间中的输入向量直接计算得到,从而使得计算量不会呈指数增长,避免了一般扩维方法中的维数灾难,然后在变换空间中求最优分类面.此时的对偶问题变为
其最优分类函数为
对于非线性不可分的情况或者训练样本集中出现“野点子”,可以在条件中增加一个松弛ξi≥0,将约束放宽为
相应地,目标函数为
选择不同的核函数就可以构造不同的支持向量机,从而可以形成各种不同的分类曲面,但目前还没有一个对特定问题选择最佳核函数的有效方法,常用的主要有以下几种.
1)线性核函数K(xi,xj)=xi·xj.
2)多项式核函数K(xi,xj)=[xi·xj+1]q.式中:q是由用户决定的参数.
3)径向基核函数(RBF)
4)2层神经网络核函数(Sigmoid)
由于核动力管道腐蚀的普遍性,而且更换其被腐蚀的部分是非常困难的,需要耗费相当多的人力、物力和时间,因此不能一发现有腐蚀的存在就将其拆除更换或停止运行.经验表明,有些腐蚀虽然存在,但并不影响装置的运行安全性和可靠性,为了避免造成过修,各国都制定了金属管道腐蚀等级标准,为腐蚀等级评估提供依据.前苏联根据金属的腐蚀速率把金属的耐蚀性划分为十级标准,本文运用SVM分类方法,建立结构相对比较简单的样本评估模型,对某管道腐蚀状态进行评估.
1)评估数据表 计算分析数据采用某管道腐蚀状况检测数据[6-7],并对数据进行分类预处理,建立评估数据表的关键在于选择评估数据的泛化性和代表性.评估数据表包括评估的影响参数和待评估参数.评估的影响参数分别为是s1,s2,s3,s4,s5,s6,s7;参照前苏联的金属耐蚀性等级划分标准,结果如表1所列.
2)测试数据表 从建模样本中随机选取一定量的样本作为测试数据,通过交叉比对测试,检验所建模型的准确率和可靠性,以调整模型评估参数的数值.测试数据表中不包括腐蚀状态等级.
3)待评估数据表 将没有测量腐蚀速率的样本作为待评估数据进行分类评估.待评估数据表中不包括腐蚀状态等级.
根据目标函数
及其约束条件
可构建最优超平面的问题转化为下面的对偶二次规划问题:
表1 某管道腐蚀状态等级表
由上式可知,对评估结果影响较大的支持向量机参数主要是核函数和惩罚因子,它们的合理确定直接影响评估模型的准确性和推广能力.一般地,RBF核函数应用最为广泛,无论是低维、高维、小样本、大样本等情况,RBF核函数均适用,它具有较宽的收敛域,具体原因主要有以下3点[8-9]:(1)RBF核函数可以将线性不可分或非线性复杂样本映射到某个高维内积空间中,从而解决类标签和属性间的非线性的复杂关系问题,这是目前线性核函数无法解决的.从线性函数的惩罚因子和RBF核函数性能的相互关系可以得到,线性核函数其实是RBF核函数的特例;(2)分类评估模型建立的复杂性很大程度上受核函数参数数目的影响.多项式核函数参数数目比RBF核函数多,模型建立更为复杂.因此,利用RBF核函数建立的分类评估模型结构相对比较简单;(3)RBF核函数中惟一需要人为设定的参数即为径向基宽度 ,且一般不会太大,否则核函数对指数的变化不敏感,根据实际数据一般不难确定;而Sigmoid核函数存在函数的宽度和偏移问题,在取某些参数值时则可能无效.
应用Libsvm2.86软件分别对不同核函数的支持向量机的分类评估模型进行测试验证,并对惩罚因子C和径向基宽度γ进行反复交叉比对测试,最终确定,C=512,γ=0.000 122 07.
通过采用不同的核函数和最终确定的惩罚因子C和径向基宽度γ对预测数据表进行了分类评估,所得结果如表2.
表2 评估数据表
通过采用不同核函数的支持向量机对所建分类评估模型进行测试验证表明,采用线性核函数需进行5 729次迭代,多项式核函数需5 067次迭代,RBF核函数需200次迭代,Sigmoid核函数虽只需5次迭代,但准确率却只有66.67%,从而验证了采用RBF核函数的支持向量机的适用性.
所得结果与实际测量后的腐蚀状态等级进行对比,可以看出,采用RBF核函数评估的准确率达到100%,限于样本数据不多,但在一定程度上表明支持向量机方法得到的评估结果与实际测量值十分吻合,同时也表明其在小样本情况下有较高的评估准确率和较好的稳定性,而且其结构相对比较简单.因此,运用支持向量机方法进行核动力管道腐蚀状态评估具有广阔的应用前景,而且在其它工程应用领域也将有较强的优势.
1)SVM是建立在结构风险最小化基础上的机器学习方法,它将函数估计最终转化为二次规划问题,本文运用此方法建立了样本腐蚀评估模型,通过最后的评估准确率可知,当训练样本数目有限时,它具有很强的泛化和分类评估能力.
2)通过SVM分类评估模型的参数选取对评估准确率的影响,表明不同的参数选择其支持向量机模型的评估效果是不同的,尤其在具有复杂映射关系的高维小样本情况,RBF核函数作为SVM分类评估模型核函数是较好的选择,能够兼顾运算速度和准确率.
3)本文根据某管道腐蚀状态评估的具体问题,利用Libsvm2.86软件对该评估模型的主要相关参数进行了交叉比对优化,从而得到了满意的结果.分析表明,运用支持向量机方法进行核动力管道腐蚀状态评估具有广阔的应用前景.
[1]陈永红,张大发,王悦民,等.基于灰色马尔科夫组合模型的管道腐蚀速率预测方法[J].原子能科学技术,2009,30(2):95-98.
[2]杨志民,刘广利.不确定性支持向量机原理及应用[M].北京:科学出版社,2007.
[3]Vapnik V N.统计学习理论许建华[M].张学工,译.北京:电子工业出版社,2009.
[4]李祚泳,汪嘉杨,熊建秋,等.可持续发展评价模型与应用[M].北京:科学出版社,2007.
[5]肖小玲,李腊元.基于概率支持向量机方法的人脸识别[J].武汉理工大学学报:交通科学与工程版,2009,33(2):345-348.
[6]王凤平,康万利,敬和民.腐蚀电化学原理、方法及应用[M].北京:化学工业出版社,2008.
[7]刘 洪,喻西崇,吴国云,等.基于支持向量机算法的注水管道剩余寿命预测[J].石油机械,2005,33(3):17-20.
[8]喻西崇,赵金洲,邬亚玲,等.利用灰色理论预测管道腐蚀速率的变化趋势[J].腐蚀与防护,2003,24(2):51-54.
[9]Lee Youngchan.Application of support vector machines to corporate credit rating prediction[J].Expert Systems with Applications,2007,33:67-74.