用户行为特征提取及安全预警建模技术

2019-08-02 09:57
中国电子科学研究院学报 2019年4期
关键词:特征提取建模特征

雷 璟

(中国电子科学研究院,北京 100041)

0 引 言

网络安全体系经过了传统的“非黑即白”的两代体系发展,目前已经发展到通过查找行为的方式来判断用户的行为是否可疑。第一代网络安全体系是通过“黑名单”的方式来对病毒木马进行查杀。第二代网络安全体系是采用“白名单”的机制来判断用户的行为是否可信。第三代网络安全体系则是运用大数据、人工智能、机器学习等技术手段对用户的行为数据进行采集、分析和研判,对用户的异常行为进行预警。

开展用户行为特征提取及安全预警建模技术的研究,通过突破用户行为特征提取技术、用户行为建模技术、用户异常行为感知和检测技术,旨在提取用户行为特征和建立用户行为模型,用于识别和筛选异常的或特定类型的访客,以便尽早发现异常行为访客的攻击威胁并进行安全预警和重点监测,变“被动防御”为“主动防御”,提升网络的安全防护水平。

本文通过对基于异常行为感知的安全预警技术的国内外研究现状进行分析,总结出来存在的主要问题。提出了一种新的面向聚类模式评估的行为特征提取方法、一种基于会话关联分析的异常用户行为检测方法,能够实现对用户异常行为的感知与判断,对网络异常行为进行安全告警和追踪分析,为各业务部门以及管理者提供辅助决策支持。

1 网络用户行为分析安全预警技术研究现状

网络用户行为分析的研究最早由Denning提出了异常检测的思想。异常检测是根据处理系统的审计日志,然后按照处理结果来判断异常出线与否,最后对结果进行统计。王景中等人提出了网络异常行为自动识别技术。通过让网络自己学习异常行为的识别,并将新的异常行为存入异常行为特征库当中,以便网络进行异常检测。传统的基于监督学习的建模方法[1-2]是在特定的场景下来建立一些准确的用户行为模型,为了获得足够的训练样本,需要通过手工的方式去标记用户的行为序列,带来了很大的人力成本。

后来,人们又提出了基于无(半)监督的建模方法[3-4]。这类方法能够自动或半自动地构建用户的行为模型,减少了人力成本,算法的适用性也得到增强。

综合国内外相关资料和已有的产品可以看出,网络用户行为分析安全预警技术能够发现网络当中的一些异常情况,有利于网络的自我保护。在提高系统自主管理能力、降低网络异常状况的复杂性等方面显现出了强大的优势。而自动识别技术则从智能识别的角度识别网络当中一些未知的异常行为,并将新的异常行为添加在异常行为库当中。因此,网络用户行为分析安全预警技术将有效地防御网络当中常见的、未知的网络异常。

2 行为特征提取及安全预警建模主要技术

2.1 行为特征提取技术

描述网络用户行为的特征量种类繁多,包括网络流量数据特征、用户操作信息特征、主机行为特征等大类。

2.1.1 行为特征分类提取

针对不同类型的行为特征数据可以采用不同的特征提取技术,下面分别介绍一下。

(1)依据网络通信行为进行特征提取

网络通信流量数据通常是通信行为的具体反映,比较常见的数据特征提取方法是直接提取部分的通信数据,同时处理数据也就得到入侵检测系统的输入特征。

列举个例子,如果黑客是通过功能码来执行对某个网站发起恶意攻击的操作,通过解析异常行为的通信模式,选择黑客的12个行为特征量,作为入侵检测系统的输入。网络通信行为选择特征量如表1所示。

表1 网络通信行为选择特征量

据此可以根据各种网络攻击行为,对各种网络行为进行特征提取,判断其行为是否异常。

(2)基于网络流量结构稳定性的行为特征提取

通过网络流量的各个属性上的变化可以反映出网络的稳定性,正常情况下网络流量的各属性在属性值上具有较稳定的分布。如果网络流量发生扰乱或者突然变化幅度很大,则有可能在某些方面出现了异常,比如网络被攻击或恶意破坏。

2.1.2行为特征处理技术

从理论上来说,为了避免不同服务器、不同时间段带来的差异,数据集最好是同一个服务器在一段较小的时间窗口内的用户记录。但是,这样会导致用户行为数据集的稀疏,也会导致智能检测算法的性能不佳。因此,需要对输入的行为特征向量进行处理,可以通过归一化和区间对齐两种方式进行处理。

归一化处理方法是对用户在不同特定条件下的表现与该条件下的正常表现进行比较,来判断用户行为是否异常,进行归一化特征处理。

而区间对齐处理方法则是通过对用户行为进行横向和纵向的比较检测,横向检测是指将待检测用户与其他用户行为进行比较,而纵向检测是指将用户当前行为与历史行为进行比较检测。

2.2 网络用户行为模型构建技术

用户行为模型构建是指构建一个贴近真实实体对象行为的模型,并按照这种模型方便地构造出一个行为上真实的虚拟实体对象[5]。网络用户行为模型构建首先要从网络中采集用户行为数据,对采集到的原始数据进行预处理;然后对数据进行分析处理,选择行为构建模型和算法,建立用户的行为模型,用于识别和筛选攻击者、特定类型的用户。

网络用户行为分析常用方法包括正常行为的聚类分析方法,异常行为的分析方法,还有基于异常与正常行为之间相异度的方法[6-7]。

网络用户行为模型构建主要包括以下方法:依据用户的行为规则进行行为建模、依据目标对象进行用户行为建模、基于流特征统计的网络用户行为建模、基于模糊时序关联模式的用户行为建模和基于隐马尔可夫的用户行为建模方法。

其中,基于隐马尔可夫的用户行为建模方法是Xiang与Gong在文献[8]中提出了一种新的行为建模与异常检测方法。这种方法不仅解决了行为的时变问题,而且能够进行实时的异常检测。

2.3 网络用户行为异常检测技术

网络用户行为异常检测技术采用误用检测和异常检测相结合的方法。误用检测是指通过异常行为的特征库,采用特征匹配的方法确定异常事件。误用检测的优点是检测的误报率低,检测快,但误用检测通常不能发现异常事件特征库中没有事先指定的异常行为,所以无法检测层出不穷的新异常。异常检测是指对用户正常的行为习惯进行建模,然后将用户当前的行为特征与行为模型库中的特征进行比较,如果两者的偏差足够大,则说明发生了异常,然后更新网络异常特征库。误用检测的关键之处是建立尽可能全面的异常行为特征库,其比对检测算法并不复杂。而异常检测的关键之处不仅仅是建立正常行为模型,计算当前行为的偏离度以及判断是否属于异常也是关键。

3 行为特征提取及安全预警系统技术实现

3.1 系统架构

行为特征提取及安全预警系统的系统架构如图1所示。在系统架构中,数据采集与预处理模块,主要负责实时采集用户行为数据源的数据。采集数据之后,进行数据识别、数据清洗、数据离散化、归一化和区间对齐等预处理工作。

图1 系统架构图

用户行为历史数据按主题建立数据仓库和数据集市后用于用户行为分析和行为特征提取与建模;用户行为实时数据用于异常检测与预警,并进行存档成为用户行为历史数据。

用户行为分析、特征提取与建模以及异常检测与预警模块是整个架构中的核心部分,其中用户行为分析模块主要进行用户行为习惯分析、用户动态分析、页面访问分析、用户关联分析、用户来源分析和用户分布分析,分析结果以文字、表格和图形的方式呈现给网络安全管理员。

行为特征提取与建模模块先对用户行为历史数据进行用户行为特征分类提取。在特征分类提取的基础上,对特征进行统一化、归一化、时空对齐等处理工作。然后面向用户行为建模需求构建候选特征集,在候选特征集中采用基于邻域分析的方法对特征进行加权选择。最后,采用基于行为规则、基于分析对象、模糊时序关联和隐马尔可夫等行为建模方法对用户行为建模,并将模型结果存储在行为模式库中。

异常检测与预警模块采用误用检测和异常检测相结合的两层混合异常检测模型,使用基于簇中心位置变化的异常检测方法和基于K近邻的异常检测算法将用户实时行为数据与行为模式库中的模式进行比对与检测,并将异常结果报告给界面模块。

界面模块负责完成监听的结果可视化显示、模式挖掘的结果显示、异常分析报告显示以及用户命令的输入等工作。系统配置和系统管理模块负责系统中各种参数的设置、对数据库的管理和维护等工作。

3.2 具体实现

3.2.1用户行为信息采集模块

通过对网站页面的广告区域、菜单区域、商品列表、商品详情页、订单填写页、专题活动页等的数据统计,了解用户对某个功能、某个区域或某个活动的使用程度和参与程度,从而实时采集用户行为数据,同时收集Web访问日志,将两类数据流组合,输出为用户行为分析原始数据集。

通过网站前端交换机旁路导出网站访问流量,从网络IP层、TCP/UDP层、应用层各层对访问流量数据包进行基于WAF和入侵检测的流量分析。

3.2.2用户行为分析模块

用户行为分析模块主要包含行为习惯分析、用户来源分析、用户分布分析、用户动态分析、关联分析、页面访问分析等分析功能。

其中,行为习惯分析是通过用户的行为进行分析,如查看产品详情、搜索行为、点击关注某款产品的关注按钮、购买某种产品等这些行为以及行为触发的人、时间、频率分析出用户最近在关注什么、对哪一类产品感兴趣,哪种行业有偏好,分析结果以用户标签形式展现出来,可按特征标签进行用户分群,根据分群信息可以提取出这类用户群体的产品偏好方向,定位用户的真实产品需求。

用户来源分析是在信息采集功能的基础上,对处理过的用户行为信息按时间、地区、行业、来源方式等条件对平台访问量、访问量占比、浏览量、平均访问页面数、平均访问时长、跳出率等数据进行统计,分析结果以曲线图加明细表方式展现。

用户分布分析是对用户的访问IP,主机域名、行业分类等属性信息及页面访问情况、平台交易情况等行为信息进行多维度分析。

用户动态分析是对用户历史访问记录从用户黏性、活跃性、发展潜力、产出四个角度进行综合分析,分析结果以图表形式展示。

关联分析是快速帮助客户找到其共同爱好的产品,方便客户购买更多其所需要的产品,关联分析可扩大产品的营销面提高销售额。

页面访问分析针对每个页面的访问情况进行统计,识别出常见退出页面、异常页面、最受欢迎页面,优化页面设计和展现内容提供参考,从而改善用户体验。

3.2.3行为特征提取与建模模块

首先得到用户行为源数据,对这些行为数据进行数据预处理,得到处理后的用户行为数据,该过程主要包括数据清洗、数据离散化、用户识别、访问次数统计、购买次数统计、用户数据匹配、本次浏览后是否购买属性识别、冗余数据删除、研究对象选择等。数据预处理是为噪音数据消除,缺失数据补全,数据归一化处理,区间对齐处理以及一些不能直接得到的属性转化等,使得结果更加准确。第二步需要提取用户行为特征并得到用户行为特征库。用户行为特征提取采用加权特征选择技术,主要分为基于信息熵的候选特征集构建、基于邻域分析的加权特征选择和规则提取几个步骤。然后将用户的行为特征构建为一个行为特征库,用于用户行为新数据的匹配。

3.2.4管理界面模块

管理界面模块是用户和网络用户行为分析系统进行交互的主要手段。用户通过图形化界面,可以对当前系统状态进行配置,了解当前行为分析系统所能分析的网络用户行为,并制定各种分析策略;而分析系统则将分析结果以各种图像或表格的形式显示给用户。管理界面模块的设计主要分为用户访问记录展示界面,用户行为统计分析界面,行为特征库界面,异常行为报警界面等。

4 结 语

本文分析了基于异常行为感知的安全预警技术的国内外发展现状,提出了行为特征提取及安全预警建模相关关键技术、系统具体实现方案。针对传统预警模型无法自动优化的缺点,将机器学习与模型优化相结合,引入专家系统,设立原始库和模型库,将经过确认的模型特征与结果存入案例库,通过机器迭代对案例库中的特征和结构进行分析,调整预警模型权重与阈值,以及指标随机组合,从而实现模型的自动优化和实用化。

猜你喜欢
特征提取建模特征
根据方程特征选解法
离散型随机变量的分布列与数字特征
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于Gazebo仿真环境的ORB特征提取与比对的研究
不忠诚的四个特征
基于Daubechies(dbN)的飞行器音频特征提取
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
Bagging RCSP脑电特征提取算法
一种基于LBP 特征提取和稀疏表示的肝病识别算法