徐运海,李道远,黄昌金,王庆友
(广州汇智通信技术有限公司,广东 广州 510630)
信息化技术的日新月异,使实时感知、获取、存储和分析大量多维度现实数据和虚拟数据成为可能,也为研究热点的意图研判工作提供了强有力的数据基础[1],可以给新型互联网犯罪、智能社区安防、互联网推荐系统等领域提供技术应用支撑,带动基于已知专家模型和经验知识的社会服务二次升级。传统的意图研判方法需知道大量的正、负样本,由于行业局限性,仅能获取较多的正样本,负样本难以获取,导致无法进行对等数据样本的平衡训练,无法进行有效的研判训练工作。为了为了更好地实现意图研判,将研判结果简化为“正常”、“异常”,研判工作转化为一类划分问题。简化的划分问题能够充分发挥大量正常样本的作用,解决由于异常样本采集难导致的研判困难问题。因此,本文采用一类划分方法开展意图研判工作。
支持向量数据描述(support vector data dscription,SVDD)[2]作为机器学习领域被验证的高效可靠的一类划分方法,首先,通过非线性映射将原始数据映射到高维的内积空间或特征空间;然后,构造有限空间的高维最小结构体(最优结构体);最后,将测试样本同样映射到相同维度,按照样本掉落空间位置情况确定归属性。在SVDD的应用研究中,通常是将一个样本类视为异常样本类,而所有其他的样本类被视为目标数据集(或目标集)。
SVDD能够区分目标样本和非目标样本,通常应用于异常检测和故障检测等领域。能够面向非线性、非高斯等特殊的数据形态,通过非线性变换将训练数据映射到高维,基于空间阈值的判别实现知识描述和数据分类,具有较高的准确性。然而,当数据集内容、维度都具备高度复杂性的时,潜在的边界不规则性、时变性、特殊性使得传统的SVDD方法难以进行有效的研判工作,因此,迫切需要进一步研究具有特征分析能力、微小边界识别区分能力的研判分析方法,提高意图研判工作的精度及有效性,助力行业领域的良性发展。
SVDD是文献[3]提出的一种一类划分方法,在高维中训练生成数据集的最小结构体。假定训练数据集X={x1,x2,…,xn},基于非线性函数φ(·)生成满足以下约束结构体:
(1)
其中,
(2)
式中:a和R分别为结构体的球心和半径;惩罚因子ε和松弛因子ξi为强化模型鲁棒性的重要参数(调节模型内外奇异点的数量),ξi≥0;ρ为SVDD模型的置信区间,ρ=0.01表示允许有百分之一的训练数据为奇异点。
L(R,a,ξi,α,β)=
(3)
式(3)关于R、a和ξi的偏导为
(4)
根据式(4)的结果转化为对偶形式:
(5)
其中,K(x,x)=φ(x),φ(x)为核函数,常用的高斯核函数[4]为
(6)
式中:σ为高斯核函数的核宽参数。
通过求解式(5),计算结构体的平均边缘作为分类控制限,且每个数据点xo对应的结构体边缘Ro(1≤o≤n)和球心a为
(7)
构建SVDD模型可得结构体半径集合R=[R1,R2,…,Rn],判别边界需要计算用于异常研判,SVDD领域内可行的划分边界计算方法为[5]
1)平均边界[6]
(8)
2)最大边界[7]
Rmax=maxR
(9)
3)调整值边界[8]
(10)
通过计算xtest其到结构边缘的距离进行类别判断
(11)
数据分类通常是为了区分具有较大差异的正常数据,而意图研判通常是为了区分差异较小的意图。传统SVDD的决策边界存在算法并没有考虑结构体的崎岖性,无法对意图研判进行有效判别的问题,如图1所示。
图1 SVDD判别结果的对比
基于特征结构变化SVDD的意图异常研判方法,主要由意图数据采集及预处理模块、基于特征结构变化SVDD的意图异常研判模型组成。其中,前者根据意图知识网络提供可供训练模型的结构化数据,后者构建意图异常研判模型实现意图的研判工作。
在意图异常研判工作中,正常行为的数据远远超过异常的意图行为,假设意图xi被定性为正常,意图yi被定性为未知,由于意图涉及多重行为,经过知识转化网络后,输出以结构化数据形式表征的数据,将正常意图的结构化数据集表示为X={x1,x2,…,xn},将未知意图的结构化数据集表示为Y={y1,y2,…,yn}。
意图网络往往具有高度的复杂性,其训练的判别结构体往往具有高度不规则性,传统基于SVDD均值结构体边界无法进行有效的判别规则调整,制约了意图异常研判的准确性的提高。因此,本文给出基于特征结构变化的SVDD方法进行有效的意图异常研判。
2.2.1SVDD结构变化
s.t.αz+αq=ζ,0≤αz,αq≤ε
(12)
为了简化式(12),设
(13)
根据式(13),将式(12)简化为
L=const-ζ2K(xz,xz)+2ζαqK(xz,xz)-
2[ζK(xz,xz)-ζK(xz,xq)+νz-νq]αq+const
(14)
式(14)中
ζK(xz,xz)-ζK(xz,xq)+νz-νq=
(15)
因此,式(14)简化为
(16)
对αq求偏导可得
(17)
由式(17)可得,进行测试数据xq和xz的关系计算,可以多次循环迭代更新所有拉个朗日乘子。
2.2.2基于特征结构变化SVDD方法
在传统的SVDD算法中,由式(7)可知,拉格朗日乘子的变化,会导致结构体边界发生改变。假设当前存在两个正常意图xz、xq,xz相比于测试数据xq更靠近结构体中心,可得
(18)
根据式(5),式(18)可转化为
(19)
当xz≠xq,当根据式(19)可得
K(xz,xz)=K(xq,xq)=1
2K(xz,xq)-K(xz,xz)-K(xq,xq)<0
(20)
根据式(19)~式(20),结合拉格朗日乘子更新规则可简化为
(21)
因此,离结构体中心越近的数据点具有较小的乘子。
2.2.3意图异常研判模型
基于特征结构变化SVDD方法的结论可得:基于正常意图的数据集X={x1,x2,…,xn}训练得出的结构体HX,及基于掺杂某个异常意图数据的数据集Xtrain={x1,x2,…,xn,yi}训练而得的结构体HXtrian,会具有较大的差异,因此,可以对结构体变化进行量化,作为意图异常研判模型的判别条件。
(22)
根据掺杂某个意图数据的数据集,获得结构体的关键架构,可以从结构体的变化程度,判断该意图是否为正常意图。
基于前文的理论基础,本章给出基于特征结构变化SVDD的意图异常研判实现流程,主要分为以下两个步骤:1)结构体重要架构的获得;2)待研判意图的检测判断。
(23)
采用具有广泛认可度的UCI测试数据库进行方法验证,选择3个标准测试数据集进行方法有效性验证,标准数据库情况如表1所示。
表1 测试数据集情况
考虑到为提高测试准确性,在一批次测试训练阶段,选择70%数据作为训练集,其余30%作为测试集,测试算法均采用交叉验证方法设定参数值。分类结果如表2所示。
表2 分类结果
从表2可得,本文方法在机器学习标准数据集上,具有较好的精度表现,针对较小的数据崎岖情况,SVDD传统的三种研判边界很难进行有效判别,而本文方法通过以特征结构变化为最小判别单元,能够很好地分析发掘不同差异。
本研究从SVDD方法入手,通过量化高维结构体重要架构,根据正常、异常意图对架构的影响程度,判断模型训练数据集中是否存在异常意图,有效地提高了意图研判的准确性。后续可进一步对支持向量其他方法进行原理更新与研究。