孙加萌?宋文凯
摘要:现如今,企业面临的内网安全威胁逐渐严重。为了预防内部隐患,检测内部员工对特殊文件的异常行为,本文构建了一种基于大数据处理平台的人员异常行为分析模型。通过该模型刻画了员工的异常行为模式,包括非工作时间操作行为,权限不一致操作行为和文件外发行为,模型采集企业应用和安全系统的操作日志,经过提取清洗处理后,与文件和设备用户数据以及员工考勤记录数据进行关联计算,提取出员工异常行为,得出数据统计结果。根据人员和设备维度进行聚合处理,经过前端的可视化见面,生成特定用户或设备的异常行为趋势。该模型根据内网空间安全范畴刻画了人员异常行为模式,利用企业操作日志生成员工和设备的异常行为统计,使系统能够实时高效地判断异常行为,实现企业内部网络安全的自动化预警。
关键词: 内网安全;异常行为;大数据平台;自动化预警
一、引言
随着信息技术的飞速发展,企业内积累的核心数据资产愈发倍增。这些数据信息的特点是存储体量大、涉及范围广、细分类型多,往往代表着企业的知识产权和商业机密,关乎着企业的核心利益。特别是对于一些行业龙头甚至军工级企业,核心数据代表着行业和国家级的利益,是立足之本。这些数据资产一旦泄露,将会造成不可估量的损失。因此,很多企业出于对外网的主动攻击的防范,选择使用封闭的内部网络环境用于生产开发。然而,来自内部员工有意或无意的安全威胁往往更难以防范。Verizon公司发布的《2021年数据泄露调查报告》中表明,超过五分之一的數据泄露来自企业内部[1]。
由于计算机网络的先天复杂性,决定了网络管理者必须使用足够的网络安全技术保障网络的基础资源安全和使用体验。为了能够多角度多层面应对快速发展的网络安全服务,管理者需要从以下技术方面考虑:数据加密技术、访问控制技术、防火墙技术、网络安全扫描技术、网络入侵技术和黑客诱骗技术[2]。对于内部网络而言,访问控制技术是重中之重,主要保证网络资源能够在规定的权限体系下依法访问,杜绝非常访问[3],是维护网络资源安全访问的关键策略。访问控制技术涉及层面比较广泛,包括网络接入控制、网络权限控制、网络目录级控制、用户属性控制等等手段[4]。其本质上还是要控制不同级别用户的可视网络范围,一旦越过规定权限,数据泄露便不可避免。与此同时,依托于信息技术的快速迭代和逐渐广泛复杂的产品应用,规模较大的企业必定会产生海量的业务数据。大型企业日志事件的日增量可以达到百亿条,中小规模企业产生的数据也相当可观[5]。这些数据直接或间接地记录了企业内部各类生产交互的行为活动,具有巨大的商业价值。企业内部员工很有可能在拥有合法的权限下产生异常行为,如特殊文件操作、违规打印等,而通过常规的安全管理体系很难及时察觉。因此,针对用户异常行为的自动化分析与检测在企业安全管理中尤为重要。
本文基于Hadoop和J2EE开发框架,收集企业内部的应用安全系统、设备用户数据库、员工考勤记录等数据作为数据源,进行提取清洗处理,然后构建人员异常行为分析模型,对处理后的数据进行分析判别,抽取出关联异常行为的人员和相关文件或设备数据进行业务分析,通过聚合形成报表统计和报告,直观地展示出内部员工的异常行为,对企业网络安全检测和保密工作管理具有一定的现实意义。
二、人员异常行为分析流程
本文设计的企业人员异常行为分析方法流程如图1所示。
(一)数据收集
本文的数据来源主要是企业内部的应用系统、安全系统等产生的日志信息,设备用户数据以及考勤记录数据等。由于该日志包含了人员的行为信息,具有明显的大数据特征[6-7],因此本文使用基于Hadoop的大数据平台作为数据的分布式存储和处理,保证数据的高可用性。
(二)数据预处理
不同来源的日志数据格式上有一定差异,而且内容上也会存在重复或者关联的情况。本文对采集到的原始数据进行一系列预处理操作,包括提取、清洗、关联处理等,目的是为了抽取目标信息,并将不同来源的数据通过人员信息关联起来,转换为方便后续分析处理的结构化数据。本文采用Hive和Presto作为计算分析引擎进行处理,能够保证海量数据下的秒级统计查询。
(三)人员异常行为刻画
企业内部的网络可以看作内网信息环境的一个整体域,基础设施、网络和操作人员相互独立且依存,共同组成了内网空间[8]。对内网空间安全造成威胁的人员行为可认为属于人员异常行为的范畴。网络空间安全主要包括设备安全、数据安全、内容安全和行为安全[8],这里内容安全主要针对互联网环境。本文以操作特殊数据行为、设备操作记录以及人员操作时间等维度作为基准,以应对数据安全,设备安全和行为安全。
(四)异常行为分析模型
在对人员异常行为刻画的基础上,抽象出画像所需的行为数据,根据一定规则建立异常行为分析模型。模型前提是日志数据中包含特殊数据文件或设备的操作记录,即提前做好日志埋点。同时拥有员工权限对应的可操作文件或设备的范围,最后还要建立员工考勤记录的数据库。在此基础上,可以设立正常行为标准,即工作时间内操作符合人员权限的文件或设备。在此标准下,本文定义了特定条件下的异常行为模型,如下图所示:
非工作时间范围内对于数据文件或设备的操作,均认为是异常行为记录;工作时间范围对特殊文件或设备的操作,如涉密文件、核心设备等,首先判断操作人的权限是否足够,判断操作人与设备归属人是否统一,其一不符合则认为是异常行为。对于工作时间对于普通文件的操作,仅记录外发、打印等涉外操作作为异常行为,其余认为正常。将异常行为数据按照时间维度和人员维度进行聚合统计,得到模型分析结果。另外,需要对内网设备进行定期安全审计,包括设备系统接入和变更情况、应用系统和数据库、专用移动存储介质变更等内容,及时更新信息,以预防通过系统底层手段绕过异常行为分析,进一步全方位提升内网环境的保密能力。
(五)异常行为分析结果展示
异常行为分析结果需要进行可视化的直观展示。本文以时间和人员作为主要展示维度,罗列出时间轴下异常行为统计和具体人员的异常行为统计,并延伸出数量排行,数量趋势等统计结果。
三、人员异常行为分析实现
本文以企业内部的应用、安全系统等日志作为分析数据源,基于Hadoop大数据平台进行存储和统计分析,并使用Java语言和Spring框架完成业务处理,最后在前端展示出来,基本系统结构如下图所示:
采集层作为数据的接入,提供模型的外部基础;存储层用于接入和分析数据的储存,计算层用于提供模型的计算资源;核心分析层充分利用上层数据进行分析,计算完成后通过展示层实现异常行为的合理化展示。
(一)模型实现
基于上文的内容,本文的人员异常行为分析系统实现数据流程图如图4所示。
原始日志数据和文件设备-用户数据以及员工考勤记录数据通过采集聚合输入到大数据平台中,然后通过Hive进行数据整理和清洗,得到规整后的可计算数据,然后根据不同的维度划分,得到带有时间维度的员工文件或设备操作记录。将该数据与预处理过的考勤记录进行关联计算,判断操作记录是否处于员工工作时间,非工作时间内的操作记录直接判定为异常行为;对于工作时间内的操作记录,与预处理过的用户设备记录进行关联计算,判断操作的目标文件或设备是否与用户权限范围一致,不一致则判定为异常行为。进一步的,还要判断是否有文件外派操作的敏感行为,如文件的复制外发,打印等,如有则判定为异常行为。上述异常行为的判定使用Presto计算引擎和Spring框架完成数据计算和业务实现,并对外提供输出接口。将上述异常行为按照人员和设备维度使用Presto聚合整理后,进行可视化展示。
另外,业务层会提供对外调用异常行为分析的API接口,可以实现下游的更多分析操作,也可以手动导入或导出审计报告,包括设备系统变更、文件权限变更等,以提升系统的数据更新能力。
四、结束语
近年来网络技术的发展,企业产生的数据与日俱增。在与外网网络环境隔离的情况下,内网网络空间的安全性尤为重要。本文针对企业内网空间的设备和人员维度,提出人员异常行为模型分析方法,通过采集企业应用和安全系统的操作日志,基于Hadoop的大数据平台进行提取清洗处理,存储到Hive库中。然后使用Presto计算引擎与文件/设备用户数据和员工考勤记录进行关联计算,将非工作时间内的操作行为、权限不一致行为、文件特殊外派行为进行聚合处理后作为人员异常行为可视化展示,使得能够直观地展示出人员或设备维度下异常行为的趋势情况。系统使用者可以直观感知或者使用提供的接口,进一步挖掘和分析异常数据,根据需要完成更具体的分析结果。该系统可以为保密性质企业提供一定的内网安全保障。
作者单位:孙加萌 宋文凯 南京电子技术研究所
参 考 文 献
[1]Jartelius M. The 2020 Data Breach Investigations Report-a CSOs perspective[J]. Network Security, 2020, 2020(7): 9-12.
[2]張红梅. 内网终端安全防护管理系统研究[D]. 西安电子科技大学, 2018.
[3]赵红伟. 局域网计算机终端安全防护策略分析[J]. 电子制作, 2013 (17): 152-152.
[4]陈宇. 四川移动互联网电视内容管理基础平台设计与实现[D]. 电子科技大学, 2014.
[5]Cardenas A A, Manadhata P K, Rajan S P. Big data analytics for security[J]. IEEE Security & Privacy, 2013, 11(6): 74-76.
[6]赖建华, 唐敏. 用户异常行为分析方法研究与应用[J]. 软件导刊, 2019, 18(8): 181-185.
[7]匡石磊, 韦峻峰. 基于内网用户异常行为安全管理研究[J]. 邮电设计技术, 2019(4):16-20.
[8]张焕国,韩文报,来学嘉,等. 网络空间安全综述[J]. 中国科学(信息科学),2016,46(2):125-164.