一种小样本下的内部威胁检测方法研究

2019-12-04 03:33王一丰郭渊博刘春辉
小型微型计算机系统 2019年11期
关键词:敏感数据攻击者威胁

王一丰,郭渊博,李 涛,刘春辉

(信息工程大学 密码工程学院,郑州 450001)

1 引 言

2018年一项对472位资深网络安全专家进行的在线调查[1]显示,53%的组织确认过去一年内遭受过内部威胁攻击且攻击越来越频繁,内部威胁所造成的危害要远大于外部威胁.然而,公开报道的内部威胁的安全事件只是冰山一角,更多的内部威胁事件因企业或组织考虑到自身的声誉并未被公开[2].由此,针对内部威胁的检测与防护成为一项十分重要的研究课题.传统意义上的内部威胁通常有以下三个方面:

1)员工用自身拥有的权限直接进行系统和数据破坏;

2)内部人员对于敏感信息、知识产权和商业机密的窃取和泄露;

3)通过故意滥用或误用组织的资源或资产,利用个人职务之便谋取利益的内部欺诈等[3,4].

2008年Malek等人[5]将内部攻击者分为“背叛者”与“伪装者”,这种对内部攻击者的分类有助于防御方针对攻击者的类型研究相应的解决方案.“背叛者”是前文中通常意义上的“内部员工”,“伪装者”则是指组织外部攻击者进入组织网络后伪装为内部人员.目前各类新的认证技术、访问控制安全组件层出不穷.例如OpenID、安全断言标记语言(Security Assertion Markup Language)等新的安全规范和方法的出现和应用,尽管一定程度上增加了外部人员成功入侵的难度,但现今网络安全问题中破坏认证机制(Broken Authentication)和破坏访问控制策略(Broken Access Control)两大问题仍然位于前列[6].通常,一旦外部攻击者成功绕过了组织内部网络的安全策略,则意味着该攻击者的后续行动已经拥有一个有一定权限的合法内部身份,而此后的过程中将该攻击者就是一个内部的“伪装者”.因此,无论是外部攻击者或是内部攻击者,在组织内部网络的行为都可以通过内部威胁检测的方法来发现安全威胁.

为了检测出这些隐蔽的内部威胁,本文采用画像方法进行内部威胁检测,这一概念最早由Alan Looper提出[7].画像方法基于一个基本假设:用户在活动期间会形成一个相对固定的行为模式,而攻击者发动攻击时一定会有与正常模式不一样的表现.并且实验表明,传统中按用户的角色分类来画像的方法中相同角色的不同个体之间差别可能很大,结果并不如预期[8].所以在实际画像过程中,最好为每位用户都单独画像分析和检测.

由此引发了两个问题:

1)单独为每个用户画像计算开销很大,模型数量太多会导致检测效率低下;

2)单独用户的数据不仅数量少,而且缺少足够多的攻击样本数据(负例数据)甚至数据没有标签,这样的数据不足以很好地训练检测模型.用机器学习方法解决网络安全问题是当前的研究热点[9],但要用好机器学习必须要准备合适且足够的数据.因为存在概念漂移问题,很多久远的历史数据并不适用于当下亟需解决的检测问题.并且,一些攻击者来自企业内部,其恶意行为嵌入在大量正常数据中,同时内部攻击者往往具有安全的相关知识,可以采取很多措施来规避安全检测[10].以上原因导致拥有的数据不平衡且缺少标签,传统的基于机器学习的检测方法需要用户的大量长期数据,而这往往在画像的实际应用中很难实现.

如何在样本数量少且缺乏负例样本的情况下,从用户行为数据中检测出特定的内部威胁,是本文主要研究的内容.本文基于用户画像理论为重点用户建模,在用户行为数据上先用小样本学习中的技巧来生成合适且足够的训练数据,并设计了一个基于深度学习的模型来检测特定的内部威胁,最后依据该模型提出了一个能够检测特定内部威胁的检测框架.实验中本文以检测窃取敏感数据攻击进行实验并取得了很好的效果.

文章其他部分组织如下:第二节介绍了内部威胁检测时采用的相关技术和研究背景;第三节先设计了一个应用场景并详细阐述了本文所采用的模型及框架;第四节依照本文提出的方法使用CMU-CERT(Carnegie Mellon University Computer Emergency Response Team)数据集进行了实验,有对本文实验过程的描述以及实验结果的分析;最后,第五节对全文进行了总结.

2 相关工作和研究背景

2.1 小样本学习

小样本学习的研究在2015年左右逐渐成为研究的热点,主要关注如何在缺乏足够样本条件下让机器有像人脑一样,可以仅通过少量样本就理解事物的本质特征.尽管人工智能和机器学习在这几年取得了显著地进步,但这种类人类概念知识学习的方式却依旧未能完全实现.人可以从一个或几个样本中就学习出一个新的概念,而机器学习中的标准算法则需要数百个或更多样本来执行类似的操作[11].目前小样本学习的领域主要有两个研究方向,一是概念学习,二是经验学习.概念学习是让机器尽量模拟人脑的学习过程,即通过少量样本理解事物本质概念这一过程.例如人可以通过少量斑马的图片就理解到“斑马=马+黑白相间的条纹”这一概念.而另一种经验学习的思想是将小样本问题其转化为通用的大数据范式.转化后的过程和大数据学习是一样的,只是由于缺少足够样本作为模型的训练数据,所以引入了一些额外的知识来辅助模型的学习,例如领域自适应、数据变换和伪标号方法等.这里本文提出的方法就是采用了经验学习中数据变换的方法,并引入相关领域专家知识来生成合适的数据,进而将小样本问题转化为大数据问题.

2.2 用户行为分析

在用户行为分析(User Behavior Analytics)领域的研究中,众多研究者针对不同数据使用了许多方法来对用户进行画像分析.例如针对用户的社交网络数据,采用聚类和图算法的效果会比较好[12,13];针对用户的击键行为数据,Giuffrida等人[14]使用了包含多特征的提取识别算法(包括支持向量机、朴素贝叶斯、马氏距离、k近邻等算法)同样取得了很好的结果.文献[15]中采用了另一种著名的机器学习技术隐马尔可夫模型(HMM,Hidden Markov Models)来检测内部威胁.这些方法在各自的领域中都取得了不错的效果,可以较为准确的刻画该时段用户在某一行为域中的表现.在数据方面,同样基于CMU-CERT数据集的几篇研究中 [16]中的方法与本文的有些类似,同样地采用深度神经网络(Deep Neural Networks)来计算每个用户的异常分数进行内部威胁检测.在[17]中,作者实现了一个名为RADISH的框架,使用k邻近(k-Nearest Neighbour)算法和k-d树(k-Dimensional Tree)算法进行检测.但以往的这些模型方法多数只能在单一行为域中检测,此外对模型找出的这些异常具体与哪些安全事件相关,则多数需要大量且持续的人工参与.

2.3 攻击链模型

通常说的洛克希德·马丁公司攻击链[18]由七个阶段组成,旨在描绘攻击者各阶段的行为意图,以便成功地破坏目标网络并执行如数据盗窃、拒绝服务攻击或破坏系统等恶意行为.但此攻击链模型多应用在表述来自外部攻击者的攻击流程.而对于内部攻击,我们多数情况下只有内部网络各个活动域的日志数据,而基本不可能拿到攻击链前几个阶段攻击者准备阶段的数据.因此本文采用了2010年提出的Mandiant攻击的生命周期模型[19]来进行建模.这两种攻击链模型分别如图1(a)、图1(b)所示.

表1 敏感数据窃取活动与模型各阶段对应表
Table 1 Sensitive data exposure activities on model

模型阶段建立立足点提升权限内部侦查横向移动维持存在完成目标阶段表现登陆用户尝试打破安全策略侦查内部信息登陆其他用户伪装用户日常行为成功窃取数据并带出日志活动登入打开文件、发送邮件、下载文件打开文件、查看邮件登入浏览网页、发送、查看邮件复制文件、发送邮件、上传文件、登出

以敏感数据泄露问题为例引入攻击链的专家知识,其在最新的OWASP 2017年的报告中被认为是目前非常严重的网络安全问题,位于第三位.参照Mandiant攻击链模型,本文构建了敏感数据窃取攻击的场景,并基于此设计了一个数据生成算法来生成模型所需要的负例训练数据.实验所用的日志数据对于敏感数据窃取这一类攻击来说,其表现集中在Establish Foothold(建立立足点)阶段之后.具体来说,窃取敏感数据攻击对应于Mandiant攻击链模型的各个步骤,其行为表现反映在不同日志上的活动具体表现如表1所示.

3 小样本下的内部威胁检测方法

本节设计了一个基于深度学习(Deep Learning)的分类检测模型,依据画像理论发现特定的内部威胁.实验过程中采用小样本学习中经验学习的技巧,以窃取敏感数据攻击为例,依据领域专家知识(攻击链模型)生成有标记的负例数据.

图1 攻击模型Fig.1 Attack models

设计这样一个应用背景,在该场景中样本数量少且不平衡,现要求设计一种检测方法,能够检测该组织内部发生的敏感数据窃取攻击.有一个拥有几十名内部员工的小型组织,该组织保存了近一年用户行为的历史行为数据但这些数据没有标签且类之间十分不平衡(攻击数据几乎没有).其中组织内部有一定的安全策略,其敏感数据一般只有高权限用户才可以获取.依据此应用场景,本文设计了一种基于深度学习的检测方法,分别包括如下几部分:

1)研究将用户行为数据转化为深度学习模型能识别的特征矩阵的数据预处理方法;

2)研究依据领域专家知识的数据生成算法;

3)提出了一种基于视频行为识别方法的敏感数据窃取攻击检测模型;

4)依据此方法扩充了一个可以检测其他种类威胁的检测框架.

3.1 数据预处理

在设计检测模型前,先要对日志数据进行预处理.本文的方法采用基于人工神经网络(Artificial Neural Network)的深度模型,具有非常强大的分析学习能力,在图像分类(如人脸识别)和目标探测(如自动驾驶)两大领域都取得了非常好的应用效果.为了使其在内部威胁检测领域发挥其强大能力,需要将日志数据预处理成合适的形式.人工神经网络模型所需的输入本质上是多维向量(图片、文本都转化为向量形式输入),这就要求把多用户不同行为域的日志数据,尽量无损失地转化为特征向量的形式.实验中采用了用户登录数据、用户使用可移动存储设备记录数据、用户收发邮件数据和用户使用互联网数据.选用这些数据实验的原因在于敏感数据窃取攻击的具体活动在这些数据中集中表现,并且这些数据容易被获取,具有普适性,数据具体包含信息如表2所示.在此实验中,为了尽量保留信息的完整性,不仅要将信息转化为多维向量,还要注意保留信息中的时序信息.因此本文将用户一定时间内的行为数据标准化处理为一段“视频”信息来处理,这就与后文提到的视频行为识别方法相对应.

表2 数据中包含信息表
Table 2 Information of dataset

用户登录数据时间用户机器活动(登陆/注销)用户使用可移动存储设备记录数据时间用户机器文件名活动(打开/写入/复制/删除)用户收发邮件数据用户机器来源目标活动(查看/发送)用户使用互联网数据时间用户机器网址活动(上传/下载/访问)

实验使用画像的方法来进行检测.在画像理论基于一个定理:

定理1.内部威胁检测中用户正常的行为模式在相对短的时间内保持不变或变化幅度很小.

这个定理基于两个观察,一是多数用户在组织内多有固定的工作角色,每天的工作内容和模型十分相似;二是一个用户的操作和行为习惯(如喜好、操作习惯等)一般不会在短时间内有很大改变.基于定理1,本文采用一个用户相对短时间的历史行为数据来检测该用户近期未来的行为是否正常就有了理论支撑.

通常来说一个组织的活动规律是以一天即24小时为一个周期.所以为了使得正常样本数据之间的相似性最大,在此选取用户活动的分割周期为24小时,并每小时为用户活动生成一张“图片”,24张静态“图片”就组成了这些用户全天的活动“视频”.生成的“图片”可以用多维向量T来表示,组合而成的“视频”可以用张量V来表示.要确定“视频”V的生成方法,先要确定每张“图片”T包含的信息.本实验中选择列数为8,映射到前文说的8种不同的用户活动,依次对应了用户登录事件、用户打开和拷贝文件事件、用户发送邮件事件、用户接收邮件事件、用户上传和下载数据事件以及用户访问外部网络事件.“图片”T的行数为8,代表所选取的要画像的8位重要用户.前文说过,不可能为每个用户画像,这里应该选取的具有获取敏感数据权限或其他权限的一些重点用户,本场景下使用8位具有较高权限的管理员用户进行实验.这些重点用户的数据组合成一张“图片”,优点不仅在于解决了前文设想的为每位用户画像带来的模型过多导致效率低下的问题,也方便了发现共谋攻击.依据上述方法,本场景中当日i时段用户们的行为Ti被表示如式(1)所示:

(1)

其中a0表示a用户当天i时段该用户登陆次数,a1表示a用户当天i时段该用户打开文件次数,a2表示a用户当天i时段该用户复制文件次数,a3表示a用户当天i时段该用户发送邮件次数,a4表示a用户当天i时段该用户查看邮件次数,a5表示a用户当天i时段该用户访问互联网次数,a6表示a用户当天i时段该用户从互联网下载次数,a7表示a用户当天i时段该用户上传文件到互联网次数,其他b、c、d、e、f、g、h用户同上.这样用户们一天活动的“视频”V={T0,T1,…,T23}.

图2 用户一天的行为特征向量示例Fig.2 A feature vector sample of user daily behavior

通过这种方法就将用户的行为数据转化为一个大小为24*8*8的特征向量.图2是一个转化之后用户一天的行为特征向量样例.

3.2 数据生成

内部攻击相对于正常数据来说一定是极少数的.如果内部人员行为表现与往常不一致时,大多数情况下都与攻击无关.而实际中由于数据缺少标记,即使有少量攻击数据,也被淹没在庞大的正常数据中.因此在该场景下实验缺乏大量带标记的负例数据用于模型训练.在这种样本数据缺乏的情况下,准确找出敏感数据泄露的威胁需要用经验学习中的一些技巧.对于缺少数据,在经验学习中一般有两种方法可以解决.一是增广数据,二是引入额外的知识库.前者通过一些技巧来生成新的数据,例如将一个图片数据进行各种角度轻微的旋转来生成新的图像数据.后者通过引入一些其他的知识来降低模型对数据的依赖,例如经典的域适应(Domain Adaptation)方法——引入在其他域中训练好的模型,通过数学方法变换映射到所需求的域中来.而本文中采用增广数据的方法,结合引入的领域专家知识(攻击链模型)来生成足够且合适的数据.负例数据生成算法基于Mandiant攻击的生命周期模型,通过分析少量的真实攻击的数据,合理地将这种攻击的阶段和其各阶段的表现在日志上的日志记录如表1所示对应.

假设攻击者在发起攻击后会尽快地完成攻击,那么在模拟的数据集中,下一个阶段攻击发起时较原攻击时间间隔在1小时以上的概率相对较小.通过分析实际发生的(少量真实攻击样本)敏感数据攻击,我们分析并得出了三种攻击的子类型:

1)单人非工作时间发起:发起时间为非工作时间,多为凌晨开始攻击,这种攻击大多是外部攻击者绕过安全策略后拿到了内部身份.为了避免与原用户正常登录冲突或其他内部人员工作时而被发现,所选的攻击时间多在凌晨时段;

2)单人工作时间发起:发起时间在工作时间且单个用户行为,此种情况多是单独的内部叛徒,利用工作时间来实施攻击,其行为模式与往常差异很大;

3)多人工作时间发起:工作时间发起但有多个用户(多为小团伙).其中第三种攻击是最隐蔽的一种内部威胁即共谋攻击,共谋攻击是指由组织内部的几个人一同发起内部攻击,他们可以每个人只分别完成攻击链中的部分步骤来达到逃脱检测的目的.

具体生成敏感数据窃取的负例样本算法的伪代码如算法1所示.该算法输入预处理好的正例正常数据,该算法输出生成的3种不同攻击子类型的负例数据.

算法1.生成敏感数据窃取负例样本的算法

输入:k天正例集合A={P1,P2,…,Pk}Pi是一日的视频

输出:k天的负例数据集合B={N1,N2,N3,…,Nk}

k天的负例数据集合C={M1,M2,M3,…,Mk}

k天的负例数据集合D={L1,L2,L3,…,Lk}

1.functionGenerateNegativedata(A)

2.fori= 0→k-1

3.doE←A

4. 在[0,7]内产生一个随机整数d1#选一个用户

5. 在[-2,5]内产生一个随机整数d2#选择夜间时段

6.E[i=Pi,将Pi[d1][d2]的登入字段的值加1

7. 从插入的字段开始,依据表1随机时段随机插入后续阶段的攻击直至完成攻击

8.B[i]←E[i]

9.E←A

10. 在[9,18]内产生一个随机整数d3#选择工作时段

11.E[i]=Pi,在Pi[d1] [d3]中增加提权阶段的活动

12. 从插入的字段开始,依据表1随机时段随机插入后续阶段的攻击直至完成攻击

13.C[i]←E[i]

14.E←A

15. 在[9,18]内随机产生一个整数d4#选择工作时段

16. 在[0,7]内产生一个随机整数d5,d5≠d

17.E[i]=Pi,在Pi[d1][d4]中增加提权阶段的活动

18.E[i]=Pi,在Pi[d5][d4]中增加提权阶段的活动

19. 在随机时段随机依据表1插入攻击直至完成攻击,每次插入时在[d1,d5]中随机选择用户

20.D[i]←E[i]

21. end for

22. returnB,C,D

23.end function

3.3 基于深度学习的检测模型

尽管深度学习(Deep Learning)在图像和文本处理领域表现出惊人的效果,但在组织内部的画像和内部威胁检测中的应用还不够充分.深度神经网络中包含两个重要的模型,分别是卷积神经网络(Convolutional Neural Network,CNN)和递归神经网络(Recurrent Neural Network,RNN).其中前者凭借其特有的卷积-池化(Convolution-pooling)结构,在处理图像等非时序的静态数据上有很好的效果,后者则在处理文本等时序性数据上表现良好.

图3 视频行为识别的框架Fig.3 Framework of video behavior recognition

hm,cm=LSTM(tm,hm-1,cm-1)

fi=h23

(2)

3.4 检测框架

解决了上述场景中的检测敏感数据窃取的问题,但若是要求不仅检测敏感数据窃取攻击,还要求检测其他特定威胁例如恶意文件操作等,则上述针对性训练的模型无法发挥作用.但同样的,只要我们依据数据生成算法针对性的生成对应的负例样本数据,就可以检测其他类型的威胁.

前文提出了一个以敏感数据窃取为例,训练一个基于深度学习的检测特定内部威胁模型的过程.那么基于此过程可以扩展出一个框架来检测出更多种类的特定内部威胁,框架的具体流程如图4所示.其中训练好检测模型可以灵活地级联起来.具体来说,在训练过程中,首先基于领域专家分析要检测的特定内部威胁(如敏感数据窃取攻击),接着依据攻击链模型(或其他领域专家知识)生成对应的数据生成算法.然后,依据得到的正负例数据,基于前文提出的模型能够自动提取特征并训练出针对该特定种类内部威胁的模型.在检测过程中,数据经过多个模型检测,每个模型可以检测出自身训练出的攻击类型.

图4 一种在小样本环境下内部威胁检测框架Fig.4 A framework for insider threat detection with small samples

4 实 验

4.1 数据集

本节概述了本文实验中用的CMU-CERT[20]数据集.CMU-CERT数据集是由美国国防部高级研究计划局(DARPA,Defense Advanced Research Projects Agency)赞助的卡耐基梅隆大学内部威胁研究中心与ExactData公司合作从真实企业环境中采集数据构造的一个内部威胁测试集.CMU-CERT数据集由合成数据和正常数据组成.该数据集包含了一个组织中4000个用户在516天活动中的数据,更加详细的信息可以在CERT的网站1https://www.cert.org/insider-threat/tools/中获得.CMU-CERT数据集中模拟了一些用户内部威胁的场景来生成异常数据,但在本实验中只用了数据集中的正常数据并裁剪掉少量负例样本数据.CMU-CERT数据集由7个主要文件组成,包括:logon.csv:用户登录和注销设备记录;email.csv:与用户邮箱活动相关的记录;file.csv:用户的文件活动记录;device.csv:连接和断开可移动设备记录;http.csv:用户使用互联网的相关活动记录;psychometric.csv:用户的个性和工作满意度等心里相关记录;LDAP.csv:描述了每个用户的信息(用户的角色,电子邮件,所属部门,主管人员等信息).

在本文的设计的应用场景中,主要聚焦于以下5个行为域的数据来进行实验,即用户登录数据、用户使用外部网络数据、用户收发邮件数据、用户使用可移动存储设备相关的文件记录中的部分数据.为了更加符合现实情况,我们故意混入了一些噪声作为脏数据.具体来说,各个数据集中包含的字段如前文的表2所示,并且遵循以下规则:每个用户分配一台PC;登录事件在其他PC活动之前;没有用户可以登录另一个用户已经登录的机器.

由于设计的场景是小样本环境,所以这里依据LDAP中的角色,选择了拥有较高权限的8个管理员角色的重点用户355天的正常活动数据.实验使用全正例的数据作为表3中的算法输入,依据攻击链模型来生成对应的负例样本数据.

4.2 实验结果

实验在Docker[21]中搭建TensorFlow的GPU版本,用python语言来处理数据.按照第3.1节中的方法处理后成如图2所示的“视频”数据.实验使用8个重要用户355天的正常活动数据生成了355段正例“视频”数据,之后通过负例数据生成算法生成了3类敏感数据窃取攻击“视频”的负例数据各355段,共1420段“视频”,其中训练集和测试集的比例为9:1,此外测试集中还包含了原数据集中被剔除的模拟的同类攻击样本数据.

实验采用了三种检测方法进行对比,分别为:采用规则匹配方法(RE)、只使用卷积神经网络的模型(CNN)和本文提出的结合卷积神经网络和递归神经网络的检测模型(CNN+RNN)进行对比实验.其中采用规则匹配的方法是直接依据所设计的数据生成算法写出符合特点的正则表达式,理论上即使在知道攻击特点的情况下,虽然能发现负例数据但同时也会产生很多误报.

对于二分类问题,可将样例根据其真实类别与分类器预测类别的组合划分为真正例(Ture Positive)、假正例(False Positive)、真反例(True Negative)、假反例(False Negative),显然有TP+FP+TN+FN=样例总数.

准确率P(Precision)和召回率R(Recall)是一对矛盾的度量,一般来说,准确率高时,召回率往往偏低,反之亦然.准确率P、召回率R分别定义为公式(3)和公式(4):

(3)

(4)

F1是基于查准率和查全率的调和评价,定义如公式(5):

(5)

(6)

但对于多分类问题来说,除了采用常用的公式(6)分类正确率A(Accuracy)来表示外,还可以采用宏平均(Macro-averaging)和微平均(Micro-averaging)两种指标来衡量.其中相对于微平均来说宏平均的受小类别影响较大,由于在实际中某类真实数据很可能少,所以在此选择宏平均来衡量方法的性能,对于n分类问题定义如公式(7)所示.

(7)

图5是实验中使用不同模型训练上述1420个样本时的训练次数与整体正确率变化图.图中显示使用该文提出的方法训练收敛速度快且整体正确率率高,CNN方法在该图中表现效果似乎也不算差,而用规则匹配的方法,即使不断完善规则整体正确率也只保持在0.63左右.最终三个模型最终的整体正确率分别为0.91、0.81和0.66.在收敛速度方面,本文提出的方法训练次数在800次左右已经开始收敛了,基于CNN的方法在训练1500次左右开始收敛,基于规则匹配的模型由于没有自学习能力,需要投入了大量人力来分析并制定、优化规则.

图5 整体正确率变化图Fig.5 Figure of overall classification accuracy

由表3可以看出不同方法在实验环境下具体到详细攻击类型的分类效果差距很大.对于特征明显的攻击类型1和2,似乎所有的分类器表现都不错,但在检测隐蔽的攻击类型3时则大有不同.图5中总体分类效果不错的CNN模型在攻击类型3(共谋攻击)的检测中似乎无能为力,而本文提出的模型对该类的正确分类率达到了0.82,可以看出本文提出的方法综合在每个子攻击类型的检测中效果都很显著.除此之外,图6显示了对于总体分类的其他评价指标,可以看出该文的方法对比其他方法有着明显优势.

表3 各方法具体类别的分类准确率
Table 3 Detailed classification precision of several methods

算法正常数据攻击类型1攻击类型2攻击类型3OUR0.910.990.990.82CNN0.990.970.960.32RE0.680.890.840.24

图6 几种方法具体类别分类的评价指标Fig.6 Detailed classification measure of several methods

综上所述,本文提出的模型与其他两个模型相比,无论是在各项分类指标上还是在模型的训练时间上都有优势.

5 结束语

本文以实际应用背景为例,设计了一种在小样本环境下训练出一个能的检测特定内部威胁模型的方法,并依据此方法扩展了一个内部威胁检测框架.该方法基于深度学习的分类模型,依据领域专家知识构造的足量的负例数据进行训练.最终实验结果表明我们所提出的方法是有效的,其性能优于目前的普遍采用的其他方法.此外,提出了一个适用于多种攻击类型的检测框架,可灵活地将用户的异常行为关联到特定的安全威胁中去.

尽管达到了较好的检测效果,但本方法需要安全人员十分了解检测的此类攻击,才能依据领域专家知识合理设计出对应的负例数据生成算法,需要一定的人工参与.此外,在有真实攻击数据后需要对模型进行反馈修正.该方法特别适用于在缺乏足够的标记样本的情况下,检测隐蔽的共谋攻击.未来将尝试引入概念学习的方法,例如通过构建新的知识映射,使得模型更加智能化并减少人工参与.

猜你喜欢
敏感数据攻击者威胁
基于贝叶斯博弈的防御资源调配模型研究
基于大数据的智能数据脱敏系统
人类的威胁
关于数据防泄露(DLP)的论述
正面迎接批判
正面迎接批判
浅谈企业数据安全风险分析及保护
搞笑图片
敏感数据的传播链