任新东 胡广朋
(江苏科技大学计算机学院 镇江 212003)
高速发展的网络环境提供更自由、开放的环境的同时也带来了更大的安全威胁。当前环境下,数据泄露是导致国民财产安全遭受重大威胁的主要原因之一[1],数据信息的大规模泄露时会影响社会的正常运作。据2019 年IBM 新发的《数据年度数据泄露成本报告》[2]分析可得,近几年数据泄露成本逐年增加即导致的经济损失慢慢加大。因此,针对数据信息泄露展开安全防护工作、将安全威胁扼杀在前期是降低经济损失、维护信息安全的重要手段。在造成数据信息泄露的众多原因中需要特别关注的是,系统内部人员的异常操作和纯恶意的员工行为导致的内部问题。近年来对网络安全的智能防护不断发展,结合机器学习、深度学习的各种防护方法层出不穷,但想要检测来自系统内部的恶意操作则需要更新兴的检测技术,如用户行为分析(User Behavior Analysis,UBA),借此填补数据保护与内部欺诈防护的空白。
国内外对于用户行为分析的研究主要分为静态检测与动态检测两类。在动态检测领域主要在目标有行为动作时提取动态行为特征[3~6],而后与恶意样本一同进行分析对比。用户行为具有复杂性和误导性,即用户行为过程中的某单个行为不一定具有异常特征,需要对行为进行关联性分析得到最后的目的结果。基于用户行为的特点,本文假设用户在进行操作时的一些行为是可以被观察的,提出一种可应用于用户恶意行为检测的规划识别方法。规划识别是人工智能领域的重要组成部分,是通过对智能体的系列行为(动作、状态等)观察,推导分析智能体的目标或行为动作的过程[7]。规划识别的基本概念由Schmidt 等[8]首先提出,并由Goldman 等[9]构建了相关的概率模型。发展至今,规划识别在危机管理[10]、入侵检测[11~12]、辅助教学[13~14]等领域均有广泛的应用。与在其他领域应用规划识别不同,在入侵检测这种具有对抗性的领域中智能体之间的行为一般是离散、无序、模糊的。应对这种问题时,应该首先识别出智能体现行的规划和目标,然后对潜在的未来规划与目标进行预测[15~16],最后实施有效的应对方法。
本文针对用户行为分析构建网络模型,进而采用基于隐马尔可夫的规划识别方法,利用可观察节点与隐藏节点之间的关联关系,识别分析用户操作是否存在恶意行为,并以UNIX 系统用户日志的数据集SEA为例设计实验,验证方法的有效性。
实现用户行为分析的网络模型如图1 所示。首先将系统使用日志当作观察对象,检测用户的操作行为,将检测到的行为操作经过特征抽象后构成数据集输入给规划识别方法,然后分析识别出行为是否异常,最后反馈给系统管理员,对存在异常操作的用户进行处理规避,调整系统的安全策略,获取新的系统日志,更新可观察的数据集,获取新的分析结果,达到维护系统安全的目的。
图1 用户行为分析框架
规划识别方法是整个行为分析网络的核心,整个分析过程以特征抽象处理后的数据特征作为输入,通过识别算法分析寻找异常的操作行为,分析各行为之间相互转换的概率。在对数据集的分析时间,不断使用网络分析状态转换,达到对安全态势的预测识别。
对原始数据进行语言处理,即特征抽象是进行识别分析的一个关键步骤。经常使用的特征提取方法有;词袋模型(Bag-of-words)以及词频与逆向文件概率模型(TF-IDF)。
词袋是文本的表示方式,因其仅关注被提取文档中是否出现已知单词,对于文本的结构顺序不进行考虑,故词袋模型的复杂程度主要在于决定如何设计已知单词的词汇和如何对已知单词评分。词袋模型主要有三个步骤:分词、统计修订词特征值和标准化。在使用词袋模型时,一般可以使用CountVectorizer 方法来完成,该方法会将文本中的词语转换为词频矩阵。
此外在一些语料库中,有一些经常出现但没有实际语意的词出现,如果使用词袋模型处理完后直接输入会掩盖有意义词得效果。TF-IDF 是一种加权技术,即可以评估某一词对文本或语料库得重要性。单词的重要程度与其在文件中出现的次数成正比,与其在语料库中的频率成反比。其主要根据某单词或短语的词频(TF)即在文章中出现的频率。在处理得到TF后还需考虑逆向文件概率IDF,单词的IDF 可以由总文件数除以包含该单词的文件的数量,然后再将结果取对数,若假设总的文档数目为n,包含单词w的文件的数目为m则有:
当包含单词w的文档数目越小,IDF就越大,就说明单词w 的类别区分能力越好。假如某一类文档集C 中包含单词w 的文件数为n,其他类别文档集中包含该单词的文件数目为m,实际运用中若只因n 较大导致IDF 较小,则在C 中该给予该单词较高的权重,并作为文档集的特征以与其他文档区分。
针对于复杂的网络环境与入侵手段,本文提出的基于隐马尔可夫的规划识别方法(PRHM)同时描述了目的与行为、目的与目的之间的关联关系,其中将目的节点之间的相互转换的概率分布记作Aij=p(sj|si),1 ≤i≤N,1 ≤j≤N,即从目的si转到的sj的概率;目的与行为节点的关联关系描绘了目的si和相对应的行为序列V之间的概率分布,记作Bj(k)=p(vk|si),1 ≤j≤N,1 ≤k≤M;与其他的规划识别方法不同,PRHM 方法会对预设初始的目的节点概率,记作π=p(si),1 ≤i≤N,即目的行为Si初始情况下的概率分布。
PRHM 方法在入侵检测领域的应用主要由数据预处理过程、网络模型建立并调整模型参数、识别判断当前的安全态势和对安全态势的预测四个部分组成。在本文提出的方法中,首先对选用的数据集进行数据预处理,包括对冗余信息的删减和不规范数据的规范化;然后将数据集作为智能体的行为进行观察并对网络模型进行优化;接着输入一组信息序列,对输入的数据使用优化的Forwardbackward算法进行计算,以确定输入序列的发生概率;最后预测层对概率值最大的数据序列做状态信息的预测,获取对行为的预测值。假设现有一数据集,其可观察状态类型有三种,目的状态有四种。使用本文的算法模拟预算后,有如图2 预测状态的指数曲线以及图3的状态转换路径密度。
图2 预测状态指数曲线
图3 状态转换路径
在规划识别模型建立后,在已知参数变量λ和被观察得动作序列O的条件下,若针对序列进行观察,求解出的是一段时间内的安全态势,实现的识别效果不够精准。因此,本文在其他规划识别方法的基础上,针对具体时刻进行安全态势的识别,以提高规划识别方法的应用效果。
假设现有的规划识别模型参数为λ,且序列记作O=(O1,O2,…,OT),则在t 时刻且状态为Si时,在t时刻之前有:
本次实验主要针对使用UNIX系统的用户行为日志进行分析。主要的样本数据来自由Schonlau等人构造的经典数据集SEA 数据集。该数据集涵盖了70 多个UNIX 系统用户的行为日志,主要是系统记录的用户使用的命令。其针对每个用户采集了15000条命令,并在用户中随机选取了50名定义为正常用户,将其他用户的命令随即插入,以此模拟内部人员实施攻击的行为。并且该数据集的数据被按块分割,每100个命令分为1块,在进行验证实验时将数据块中的三分之一作为训练集,剩余的数据块作为测试集,最后分析本文算法在以实际使用为基础的数据集中识别的效果。
本次对方法的验证中,是完全基于SEA数据集的白样本即正常数据的。本文使用了数据集中前50 个没有异常的操作序列进行基准训练。然后对数据集中的异常数据进行识别检测,对于方法中判断异常的阈值确认,采用了设置初始阈值而后逐渐变大的方法,由此获取阈值和方法准确率、召回率的关系如图4 所示,并验证该方法在恶意检测领域有较好的应用前景。
图4 阈值与准确率、召回率之间的关系
为了提高对智能体行为的预测效果,并使用不同的节点以更清晰地区分规划识别模型中智能体的状态和行为之间的层次结构。本文以隐马尔可夫模型为基础,提出一种实现规划识别的具体方法。基于隐马尔可夫的规划识别方法,可以在仅以可观察序列为已知的条件下,实现对未来目标的概率预测。该方法对于可观察行为和隐藏行为之间转化关系的探究,在简化一般规划识别方法复杂结构的同时也较为精确地实现识别效果。本文的实验结果表明,该规划识别方法在恶意行为检测领域的实用效果,在合理提取攻击特征的情况下,对于恶意行为操作有较好的学习与检测性能。
本文提出的方法主要考虑系统的使用日志,需对原始的数据信息进行处理。虽然抽象后的数据特征可使网络的识别精度更高,但有些原始信息的处理较为复杂,使得网络对数据信息处理工作量增大。如何更简单高效的处理原始报文信息将是接下来的研究重点之一。并且虽然本文提出的算法一定程度上提高了识别的精度,但在实际应用场景中还需要更准确的识别,接下来的研究学习将尽可能地提高算法的精度,以期实际环境下的应用。