范艺璇,阚 秀,曹 乐,王夏霖
(上海工程技术大学 电子电气工程学院,上海 201620)
随着互联网时代的来临,人们的生活得到了极大便利,但信息的安全性也面临着新的挑战.网络攻击者利用系统的漏洞,旷日持久地对组织内部系统发动攻击,试图窃取组织机密或破坏组织正常运转.而内部用户拥有更高的权限,能够绕开安全机制进行不易察觉的威胁活动[1-3].因此,由内部用户引起的威胁行为对企业更容易造成不可估量的损失,对内部威胁的检测与发现具有重要性意义.从内部人员产生的多域日志数据中提取与威胁活动有关的特征,是建立异常行为检测模型面临的首要困难.一些学者利用一段时间内用户的行为状态变化,通过设定不同类型的事件活动,按照时间顺序形成每个用户的行为序列[4-7].为了实现异常检测,选取了前5周内用户的行为数据训练正常行为基线.此外,在文献[8,9]中,同样假定用户前一段时间的每日异构事件序列正常,通过对正常数据训练模型,从而进一步检测后续行为序列是否属于正常.
另一方面,内部威胁用户在工作上的显著特征是高频反常信息.大多数学者以一天为单位,从活动日志中提取用户每日行为信息,记录每种预定义的行为特征发生次数[10-12].特别地,在文献[13]中,不仅提取了用户每日行为频次作为用户的属性.而且将每个用户视作图的顶点,由组织内部关系和邮件通信关系作为边连接每个用户.通过图聚类的方法,对未聚集或者稀疏的异常用户进行可靠识别.此外,通过将用户每天的行为频次特征向量转换成灰度图像,利用深度学习模型也能成功地预测恶意和非恶意用户[14].由此可见,不管是从机器学习的检测算法还是图聚类算法,都能够有效地检测异常.在异常检测模型训练中,不同的参数也会对模型最终的检测精度造成影响.但是,大多数研究集中在用户行为模式的构建而忽略了参数的寻优.为了提高机器学习模型的性能,可以利用生物启发式算法,通过种群的迭代过程寻找最优参数,如粒子群算法、蚁群算法、遗传算法等[15-17].此外,对直接提取的大量行为数据进行处理会对具体的威胁活动识别造成难度和计算效率的降低.
本文提出了两步用户威胁活动识别策略.利用具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法,实现了离群点的初步检测.同时,基于粒子群优化(Particle Swarm Optimization,PSO)算法优化DBSCAN(PSO-DBSCAN)缩小了离群点的范围.进一步地,对离群点实施了特征约简后的具体威胁活动识别.本文的主要贡献可以概括为以下两个方面:
1)在训练集上实施DBSCAN算法时,引入PSO对模型参数进行寻优.将初步检测的离群点中实际威胁活动数量和剩余正常行为数量联合考虑作为适应度函数,评估粒子质量.通过粒子群的不断迭代更新,得到最优参数组合;
2)在第2步具体威胁活动识别时,引入特征权重评估算法,选择出更优的特征子集.通过特征约简,提高模型的威胁活动识别率.
CERT-IT数据集是由卡耐基梅隆大学(CMU)与ExactData公司合作,从真实企业环境中模拟的内部威胁测试集[18].该数据集是由大量的正常背景数据与内部人员实施的恶意数据构成,提供了包括信息窃取等典型恶意场景信息,符合当前企业中的用户行为模式.近年来,仍然有最新的研究[19-21]对当中的CERT4.2数据集中包含的完整用户行为进行研究和分析,包括异常人员的检测和用户行为状态的预测.CERT4.2数据集是由1000名用户从2010年1月2日~2011年5月17日产生的日志数据,如文件访问、邮件收发、设备使用、http访问以及系统登录等行为.此外,还提供了一个威胁场景文件和岗位信息表.
用户多域的日志数据中蕴含了日常行为信息,一个反常的人会在某个域上出现异常或高频行为.基于以上考虑,根据用户id和日期,将多域的行为数据融合,可以提取每个用户每天的多个行为特征.在本文中,设置上下班时间,以用户登录次数最多的设备作为个人电脑.进一步地,获取用户分别在上下班时间以及个人电脑和他人电脑的多个行为特征.具体的行为特征提取结果如图1所示.
图1 行为特征提取结果
图1中的Work1指上班时间段,Off2指下班时间段.此外,还提取了用户每天登录数据泄露网站的次数wikiweb,和每天下载键盘记录程序的次数keyweb.根据威胁场景文件中提供的用户和时间信息,可以定位到恶意行为数据记录,其中,正常背景、威胁场景1、2、3涉及到的行为数据标签分别标注为0,1,2和3.因此,总共获得了1000名用户的501天行为数据,共501000条,特征维度为40.生产线工人作为一种人事变化频繁的岗位,对他们的行为理解有利于企业更好地制定信息安全保护策略.进一步地,选取生产线工人数据建立行为模型.数据中包含了第1类和第2类内部攻击,分别为系统破坏和信息窃取.此时,剔除掉生产线工人全为0的特征列和所有特征值为0的活动记录,共剩余特征维度为29的60060条行为数据.为了对所构建的行为模型训练和测试,区分正常行为和两类具体攻击行为,将整个数据集划分为60%的训练集D和40%的测试集T.其中,训练集和测试集中正常和异常数据的数量如表1所示.
表1 训练集和测试集中各类行为数据的数量
在实际生产生活中,对企业产生危害行为的内部人员只占极少数,如表1中也可以看出异常行为数据所占的比例较小.因此,本文提出了对用户行为数据进行两步威胁检测识别的策略,包括初步离群点检测算法和第2步威胁活动识别算法.整体设计思想如执行策略所示.
两步内部用户威胁活动识别和分析的执行策略
1)首先采用初步离群点检测算法.基于2.1节采集处理后的用户行为数据,根据异常行为点具有低密度、远离大量正常行为点的特点,采用密度聚类的方法初步识别离群点;
2)对离群点采用第2步威胁活动识别算法,建立多特征权重联合评估策略,与分类算法结合识别具体威胁行为和正常行为.
一般来说,正常用户的工作模式相对固定,异常用户的行为往往会远离正常用户,是比较容易识别出来的离群点.因此,本文采用初步离群点检测算法首先排除一些正常行为数据,提高下一步异常识别的计算效率.通过初步检测的工作,能够有效找出所有离群点,包含了一部分不易区分的正常数据.
通过DBSCAN算法,能够按照指定的距离和近邻样本的数量有效地把所有数据划分为不同组的紧密相连数据,并得到离群点.假设训练集为D=(x1,x2,…,xm),一组参数(eps,min_samples)用来描述每个核心样本邻域的样本分布紧密程度.如果样本xi邻域中的样本集合为Neps(xi)并且len(Neps(xi))>=min_samples,则该样本xi为核心对象.因此,DBSCAN算法对离群点的识别过程如算法1所示.
算法1.Outlier recognition algorithm based on the DBSCAN
输入:Training set:D=(x1,x2.…,xm),Neighborhood parameters(eps,min_samples)
初始化:Core point set:Xc=∅,Border point set:Xbd=φ,Outlier point set:Xo=φ,Number of neighborhood samples:Neps(xi)=∅,i=1,2,…,m
Fori=1 tomdo:
Forj=1 tomdo:
Calculate the Euclidean distancedist(xi,xj) between samplexiandxj
Ifdist(xi,xj)<=epsdo:
Neps(xi)={xj}∪Neps(xi)
Endif
Endfor
Iflen(Neps(xi))>=min_samplesdo:
SetXc=Xc∪{xi}
Endif
Endfor
Fori=1 tomdo:
Ifxi∉Xcdo:
Ifxi∈Neps(xi)∩Xcdo:
Xbd=Xbd∪{xi}
Endif
Endif
Endfor
Fori=1 tomdo:
Ifxi∉Xbd∪Xodo:
Xo=Xo∩{xi}
Endif
Endfor
输出:Outlier point setXo
从算法1中可以看出,对明显离群点的检测主要分为3个步骤,分别为核心点识别、边界点识别和离群点识别.
Step 1.计算训练集中每个样本点xi与其他所有样本点的欧式距离,计算方式如公式(1)所示:
(1)
距离xi小于等于eps的样本为邻域样本,统计每个样本点xi的邻域样本数量len(Neps(xi)).如果len(Neps(xi))大于等于最小设置的样本数量min_samples,将样本点xi加入核心点集合Xc中.
Step 2.遍历核心点集合外的样本点.如果样本点xi的邻域样本集合Neps(xi)中存在核心点集合Xc中的样本,则将样本点xi加入边界点集合Xbd中.
Step 3.遍历原始训练集中每个样本.如果该样本点既不属于核心点集合Xc也不属于边界点集合Xbd,为最终检测的离群点.
粒子群算法基于自然界中鸟群觅食现象,是由Eberhart和Kennedy提出的一种生物启发式优化算法[22].种群中的每个个体都会受全局最优值和局部最优值引导,朝着更好的方向调整自身的位置.通过不断地迭代更新,种群逐渐收敛到较优的结果.算法的参数结构简单,易于实现.
假设在M维的搜索空间中,粒子i第t+1代的速度更新公式如公式(2)所示:
(2)
进一步地,粒子i第t+1代的位置更新公式如公式(3)所示:
(3)
通过公式(2)和公式(3),种群中的粒子得到不断更新.
从3.1节中DBSCAN算法的工作机制可以看出,参数(eps,min_samples)是用来描述样本间的紧密程度,剔除离群点的重要依据.如果样本点的邻域距离eps设置过大,那些远离正常模式的部分点会被包含到核心样本点的邻域范围内.如果最小样本数量min_samples设置过大,样本被判断为核心点的要求更高,会使得部分样本点误判为离群点或边界点.因此,参数(eps,min_samples)的组合调节,对算法的性能产生重要影响.
为了使得在初步异常检测后,剩余的样本点范围大大缩小并包含所有的威胁行为数据,需要选择一种合理的参数调节方式.PSO算法作为一种生物启发式优化算法,能够在优质粒子的引导下,逐渐收敛最优的参数组合.如表2所示,PSO算法设置每个粒子为两个维度.
表2 PSO-DBSCAN中待寻优的参数
粒子质量的判断是基于不同参数组合下,训练集的初步检测结果中包含的离群点数量.与训练集中行为数据实际所属类别相比,离群点是为了第2次进一步区分.因此,第一步所获得的离群点必须包括原有的所有威胁行为数据,并且正常行为数据尽可能少.将两个要求转化为粒子群中粒子质量的评价准则,进而提出了新的适应度函数.第t代的粒子i适应度值计算方式如公式(4)~公式(6)所示:
(4)
Xmal1={xi|xi∈Xo,yi=1}∪{xi|xi∈Xo,yi=2}
(5)
Xmal2={xi|xi∈D,yi=1}∪{xi|xi∈D,yi=2}
(6)
其中,Xmal1表示初步检测得到的离群点中实际威胁样本集;Xmal2表示原始训练集中实际威胁样本集;len(Xo)表示表示初步检测得到的离群点样本数;len(Xmal1)表示表示初步检测得到的离群点中实际威胁样本数;len(Xmal1)表示表示初步检测得到的离群点中实际威胁样本数;len(Xmal2)表示原始训练集中实际威胁样本数.
因此,基于PSO优化DBSCAN算法的运行过程如算法2所示.
算法2.Procedure for firstly outlier detection by PSO-DBSCAN algorithm
输入:Training set:D=(x1,x2.…,xm),Number of particlesNp,Maximum number of iterationsmax_iter,inertia weightw,Individual learning factorc1,Social learning factorc2
导入算法1:Outlier recognition algorithm based on the DBSCAN
Whilet t=t+1 Endwhile Getthe optimal parameter combination (eps,min_samples) of DBSCAN obtained by PSO Put the optimal parameters into DBSCAN Achieve outliers containing less normal behavior dataXoaccording to Algorithm 1 输出:OutliersXoafter the first anomaly detection 从算法2中可以看出,基于PSO-DBSCAN的初步离群点检测算法主要由粒子位置参数初始化,粒子位置参数朝着种群中最优的方向迭代更新以及最优粒子参数设定下的DBSCAN算法的离群点检测组成. Step 2.判断当前迭代次数是否满足最大迭代次数,满足则执行Step 5,否则执行Step 3. Step 5.输出PSO当前寻优得到的最优位置参数(eps,min_samples).进一步地,用该参数组合设定DBSCAN算法.运行算法1,最终获得了包含更少的正常行为数据的初步离群点. 初步离群点检测算法实现了对大部分正常数据的筛除,有效地识别出了偏离正常模式的行为数据.由于部分人的行为由于其自身特性,可能偏离类簇,需要进一步对剩余行为模式识别.在原始特征空间中,部分特征对两类威胁行为和正常行为区分度不高.基于以上考虑,本文结合特征重要性和分类算法组成第2步威胁活动识别算法,对剩余行为数据可靠区分. 对已知的内部人员行为数据进行学习训练时,不相关的特征会造成分类器学习的负担并且会降低检测率.因此,特征重要性计算能够更好地帮助选择与区分威胁行为相关的特征.通过评估训练集中特征和特征以及类别之间的相关性等方式,得到每个特征的权重大小和排序.进一步地,选取权重为正的特征组成特征子集,用于最后的两类威胁和正常类识别区分. 4.1.1 基于ReliefF评估的特征权重 ReliefF算法由二分类Relief延伸而来,根据每个特征和类别之间的相关性计算特征权重[23].在训练集D中随机抽取一个样本R,在与R同类别和不同类别的样本集合中选取K个最近邻样本.第j个特征Aj的权重更新公式如式(7)所示: (7) 其中,N表示随机抽取样本次数;diff(Aj,R,Hj)表示样本R和与样本R同类的第i个最近邻样本Hi在特征Aj上的差值;p(c)表示类别c占所有样本的比例;p(class(R))表示样本R占所有样本的比例;Mi(c)表示类c中的第i个最近邻样本;diff(Aj,R,Mi(c))表示样本R和与R不同类的i个最近邻样本差值. 由于本文所分析的内部人员行为数据各特征值都是连续的,样本R1和与样本R2在特征属性Aj的差值如公式(8)所示: (8) 经过N次对样本的随机抽样,获得每个特征属性的权重. 4.1.2 基于Person相关系数评估的特征权重 Person相关系数[24]是一种基于数据的协方差矩阵,衡量两个变量间相关性的方法.因此,特征属性Aj的权重值如公式(9)所示: (9) 其中,μAj,μY分别表示特征变量Aj与类别变量Y的均值,σAj,σY分别代表特征变量Aj与类别变量Y的标准差. 4.1.3 基于随机森林评估的特征权重 随机森林基于构建的多个决策树,投票决定最优的分类结果[25].因此,特征属性Aj的权重值如公式(10)所示: (10) 为了对初步离群点进一步检测,需要可靠识别出剩余正常行为数据和两类威胁行为数据.因此,本文利用支持向量机、随机森林、XGBoost多分类算法对威胁活动检测识别. 4.2.1 支持向量机 支持向量机(Support Vector Machine,SVM)最早是一种被提出来应用在二分类问题上的算法.由于本文的第2步识别是为了对内部威胁活动进一步区分,是一种三分类问题.因此,对于三分类问题,利用一种由Vapnik等人提出的多分类变体一对多支持向量机(one-against-all SVM,OAA-SVM). 给定训练集数据点为D={xi,yi},i=1,2,…,m,yi∈{0,1,2}分别代表正常行为、第1类威胁和第2类威胁行为.OAA-SVM需要构建3个支持向量机模型,对每个支持向量机训练都当作当前类和其他类的二分类问题.对第i个支持向量机进行训练时需要解决优化问题,如公式(11)~公式(14)所示[26]: (11) s.t. (12) (13) (14) 当每个支持向量机模型的优化问题被解决后,一个测试样本x由3个支持向量机预测得到对应概率.概率最大的为该样本所预测类别,如公式(15)所示: (15) 4.2.2 随机森林 随机森林(Random Forest,RF)通过集成多个决策树的评估效果,按照多数投票结果决定样本所属类别.随机森林的基本单位决策树主要由3部分组成,分别为根节点、内部节点和叶子节点.在选择根节点时,会遍历计算所有特征的不纯度,选择不纯度最低的特征作为根节点.本文利用了默认参数基尼指数计算每个特征的不纯度[27],如公式(16)所示: (16) 其中,Gini(j)表示第j个特征的基尼不纯度;p(c|j)表示给定特征节点j中属于类别c样本所占的比例. 选择Gini不纯度最小的特征节点作为根节点,对所有样本根据该特征节点划分为左子树和右子树.经过不断地计算剩余所有特征节点的Gini不纯度,对子树样本进行内部节点划分,直到该叶子节点的基尼不纯度小于默认值.对于每一个测试样本,按照如上所述的特征节点划分,得到最终所属叶子节点即类别标签.随机森林算法对训练集有放回抽样,将抽样数据训练多个基分类器决策树.通过综合多个决策树的预测结果,多数投票得到每个样本的类别. 4.2.3 XGBoost算法 XGBoost(eXtreme Gradient Boosting)算法是一种由陈天奇等人提出的集成算法[28].给定训练集数据点为D={xi,yi},i=1,2,…,m,yi∈{0,1,2},该集成模型的预测结果如公式(17)所示: (17) 其中,fz表示第z棵树;n_estimator表示树的数量. 模型的目标函数构造如公式(18)~公式(20)所示: (18) (19) (20) 利用之前所有树的对数损失函数值优化当前树的目标函数,得到当前树的预测结果. 结合多特征联合评估策略与分类算法,对剩余的离群点进行用户的正常行为和具体威胁行为识别,算法的设计思想如算法3所示. 算法3.Threat activity identification algorithm 输入:OutliersXoafter the first anomaly detectionNp,Maximum number of iterationsmax_iter,inertia weightw,Individual learning factorc1,Social learning factorc2 导入:Feature evaluation method according to Section 4.1.1,4.1.2 and 4.1.3 respectively,Classification algorithm according to Section 4.2.1,4.2.2 and 4.2.3 respectively Form=1 to 3do: Achieve the weight value of each featureW(Aj),j=1,2,…,29 according to feature evaluation method Delete features with negative weight Forn=1 to 3do: Based on the behavior data of deleted features,the detection model is trained combined with classification algorithm Output threat behavior activity identification results EndFor EndFor Compare threat behavior activity identification results with different detection models 输出:Comparative threat behavior activity identification results with different evaluation indicators 本文使用的数据来自第2.1节中描述的CERT 4.2数据集.实验测试环境为:Intel(R)Xeon(R)Silver 4208处理器,Windows10操作系统,所用编程环境为Python 3.7版本. 建立PSO-DBSCAN的寻优模型,输入训练集D中的每个样本.在PSO寻优实验中,设置个体学习因子和社会学习因子为c1=c2=2,惯性权重为ω=0.6.粒子群的种群规模为Np=15,最大迭代次数为max_iter=20,粒子维度为寻优参数数量M=2. 实施算法2,通过粒子群在种群中的迭代更新,在第4代收敛到了最优值.此时最优粒子找到的适应度值为34.14,位置参数为(eps,min_samples)=(1.23,22).将当前参数组合放入到DBSCAN算法中,如算法2的输出所示,获得了初步检测出的离群点.为了验证PSO-DBSCAN对离群点的检测效果,与默认参数下DBSCAN对离群点的检测效果作对比.初步检测后训练集和测试集中离群点的对比效果如图2所示. 图2 离群点中各类样本的数量 图2比较了原始样本、利用DBCSAN算法和PSO-DBSCAN算法初步筛检后的样本中各类行为数量大小.可以看出,DBSCAN算法可以有效地排除大部分能够形成类簇的正常样本点,减少进一步对恶意行为识别的计算量.训练集中正常行为样本的数量从35881条降低到7062条,同时训练集中的恶意样本并没有漏检现象.测试集中也同样保证了对正常行为模式的样本筛检和恶意行为模式的样本保留效果.本文中提出的PSO-DBSCAN算法,在排除正常行为样本的效果在训练集和测试集上都展现了更优的性能.相较于DBSCAN算法,PSO-DBSCAN算法下训练集的正常样本数量从7062条降低到5136条,测试集的正常样本数量从5143条降低到3921条.此外,也同样保证了初步异常检测算法得到的离群点包含了所有恶意行为数据. 经由5.1节中对初步离群点的检测后,威胁活动识别的范围得到了缩小.第2步建立异常识别模型,对两类威胁活动 和正常行为活动可靠识别.在训练集上应用如3.1节所述的特征权重评估法,可以获得每一种特征属性的权重大小.本文借助Weka挖掘软件中Explorer界面的选择属性的3种功能,通过十折交叉法对训练集进行特征重要性评估,评估结果如图3~图5所示. 图3 基于ReliefF的特征权重 图4 基于Person相关系数的特征权重 图5 基于随机森林评估的特征权重 将各种特征评估方式中权重值不为正的特征删除,提高威胁活动识别的检测率.为了验证特征评估对特征约简后的行为类型识别的有效性.将SVM、RF以及XGBoost在3种特征约简前后的训练集上训练建立威胁活动识别模型,并在对应的测试集上进行验证.本文利用常见的混淆矩阵、准确率、精确率、召回率、F1 score等指标,对行为活动检测结果进行评估. 1)混淆矩阵(表3):表示各种行为的实际识别数量和漏检为其他类别的数量. 表3 混淆矩阵表 2)准确率(Accuracy):表示所有类别样本正确分类的比例. (21) 3)精确率(Precision):表示所有被预测为正类的样本中,真正的正类所占比例. (22) 4)召回率(Recall):表示所有实际为正类的样本中,预测正确的正类所占比例. (23) 5)F1 score(F1):表示精确率和召回率的调和平均. (24) 因此,基于SVM、RF和XGBoost在特征约简前后测试集上的混淆矩阵结果,对特征约简前后的模型识别效果进行比较.表4、表5和表6分别给出了每一类行为识别的精度、召回率和F1score.从表4~表6中可以看出,SVM能够尽可能地识别出正常的行为活动,但是对威胁活动识别效果最差.其中,对于第2类威胁活动只有在基于Person相关系数的特征子集下有所效果.针对第1类威胁活动系统破坏,特征约简前后各模型的识别效果一样.而针对第2类威胁活动信息窃取,XGBoost经由RelifF评估后的特征子集识别效果最好.为了比较各模型对用户行为活动的整体训练效率和识别效果,比较3种算法3种特征约简前后模型的训练时间以及识别准确率.为了便于观察,图6给出了整体漏检率和训练时间.从模型对用户行为的整体识别率和模型训练时间来看,XGBoost在基于随机森林评估特征权重后的特征子集上取得了最好的效果.如果为了更好地识别威胁活动,XGBoost在基于ReliefF评估特征权重后的特征子集上对于信息窃取活动效果最佳.可见,特征约简后,能够有效地提高模型整体的准确率,并大大缩短了模型的训练时间. 图6 3种算法在3种特征子集下的综合检测效果 表4 每一类的精确率对比 表5 每一类的召回率对比 表6 每一类的F1 score对比 为了降低内部威胁人员对企业造成的巨大危害性,对具体的威胁活动识别具有重要性意义.本文针对大量的行为数据,提出了两步内部用户威胁活动识别和分析策略.在初步离群点检测中,引入PSO启发式算法,使得优化后的DBSCAN算法大大缩减了威胁活动识别范围.离群点中保留了所有的异常点,并且PSO-DBSCAN算法排除了大部分符合正常行为模式的样本.进一步地,利用不同的特征权重评估法,对权重值为正的特征子集保留,提高对威胁活动的识别率.此外,从每一类行为的精确率、召回率以及F1score值角度,对3种特征权重评估下特征子集的有效性进行比较.同时,在整体准确率和训练时间方面,评价了模型的综合性能.实验结果表明两步用户行为威胁活动识别策略具有准确度高时间复杂度低的特点,可以实现具体内部威胁活动的有效识别.4 第2步威胁活动识别算法
4.1 特征权重评估法
4.2 分类算法
4.3 威胁活动识别算法
5 实验结果及分析
5.1 初步离群点检测模型结果
5.2 威胁活动识别结果及分析
6 结 论