李栋科
摘 要:结合目前海量日志挖掘的大数据特性,文章提出了海量网络审计日志的敏感用户挖掘分析架构设想,探讨了数据关联技术、敏感用户画像、基于用户画像的敏感用户监控、基于群体关系挖掘的敏感群体监控等在体系架构中的分层应用,并以此架构为基础,提出未来需要进一步深入研究的关键技术和初步解决方案。
关键词:大数据;网络审计日志;敏感用户;挖掘分析
中图分类号:TP39 文献标识码:A
Abstract: Combining the big data features of current massive log mining, this paper proposes an assumption of sensitive user mining analysis framework for massive network audit logs and discusses data association technology, sensitive user portraits, sensitive user monitoring based on user portraits, sensitive groups based on group relationship mining in the architecture. Based on this architecture, we put forward key technologies and preliminary solutions that need further research in the future.
Key words: big data; network audit logs; sensitive user; mining analysis
1 引言
随着互联网规模的日益发展以及国家对网络空间安全的重视,信息化平台不断完善壮大,相较过去,如今各企业、事业单位、国家行政机关、政府等机构的网络与互联网已进一步融合,应用和用户数量的壮大、无线网络的增长,其产生的数据量也在空前绝后的成倍增加。网络技术带来的极大便利性,也导致了新的安全性问题,企业的商业机密、工作资料可能通过网络泄露,反动、黄色等非法信息泛滥难以根治。反恐、谣言、群体事件、失窃密等重大社会事件对社会安全和企业的经营都造成了严重的危害。在此背景下,我国对于互联网数据访问内容的关注程度日益提高,对于政府机关、企事业单位对互联网的访问行为,国家颁布执行了一系列法律法规,要求政府机构和企事业单位、校园互联网加强对互联网内容访问的管理与审计[1]。目前,大多数单位均建设了网络信息安全审计系统[2-4],系统在实现业务功能的同时产生了海量网络审计日志[5-7],具体分为两类。
行为日志:通过对网络上所有用户行为进行解析、记录和告警,可以分为上网行为、OA 行为、运维行为和业务操作等。
网络内容日志:通过捕获网络上的原始数据包,然后进行协议解析,并还原原始报文应用数据内容,用于审计网络数据的合规性。
本文将充分利用网络审计系统的网络审计日志,从大数据挖掘分析的角度实现面向反恐、谣言、群体事件、失窃密等重大社会事件的海量网络审计日志的分析,旨在针对涉及信息内容安全的敏感用户的挖掘出行为模式,从而形成网络访问与社交过程中针对敏感用户的行为监控能力,实现在反恐、谣言、群体事件、失窃密等重大社会事件中针对敏感用户的挖掘分析。
2 国内外研究现状
國内外已经有很多面向网络信息安全的审计产品,国外的安全审计产品如芝加哥Netikus.Net公司开发Sentry系统用于Windows事件管理和服务器监控、Dorian Software Creations公司开发的Event Archiver产品、Ripple Techa.公司的Log Caster产品,以及TNTSoftware公司开发的Event Log Monitor产品。国内主要的安全审计产品有 AAS-M 系统是昂楷科技开发的专门为加强企业内部运维安全的审计系统、安华金和数据库监控与审计系统 x Secure-DBAudit、中软华泰 Hua Tech 终端安全审计预警系统等。
在网络日志采集方面,李旭芳等人[8]对零拷贝技术进行了研究与试验,并成功实现了该技术,从软件上满足了基于高速网络的信息审计系统的需求。李明明[9]采用旁路截获(交换机端口镜像)流经网络上的所有数据包实现数据包零拷贝抓取,基于旁路网络数据捕获实现对网络信息安全审计系统的内部网络监管、智能审计等功能。
在各领域在网络流量日志应用方面,贾王晶等人[10]运用Apriori算法的改进版Fp-growth算法作为关联规则的建立算法,在已有日志关联技术的基础上,提出能够应用在网络犯罪取证中的新的取证方案。张跃仙等人[11]通过对网络流量进行分析设计了针对计算机网络犯罪的IP定位跟踪软件系统,该系统可直接应用于网络犯罪的侦查办案,为公安部门破获网络犯罪案件提供有利工具。
现在虽然有许多的商用网络信息安全审计产品,但功能都不是很齐全。很多都只是对部分应用层协议进行审计;有的可以对可疑行为事前告警,但针对网络用户以及用户群体的挖掘深度还不够,同时网络审计日志的应用在公安在反恐、谣言、群体事件、失窃密等重大社会事件中针对敏感用户的挖掘分析应用较少。
3 基于海量网络审计日志的大数据挖掘分析架构
本文提出的基于海量网络审计日志的大数据挖掘分析架构图,如图1所示。其中,网络信息安全审计系统通过在旁路方式下侦听的网络中的数据包作为数据源,根据应用层的协议定义,拼接和还原数据,借助数据包拼接、协议栈恢复和协议还原技术,将数据还原到原始数据,同时将审计过程中产生的网络审计日志通过网络审计日志回传服务器回传至网络审计日志存储集群,为网络审计日志挖掘分析平台提供海量日志数据。该架构采用的旁路侦听的模式是采用与交换机的镜像端口相连,通过抓包的方式,实现对网络数据的审计,其优点是可靠性高,安全性好,不增加网络延迟,设备故障时不影响整个网络运行。
4 基于海量网络审计日志的大数据挖掘分析工作流程
基于网络审计日志存储集群中的海量网络审计日志数据,本文提出了多维度深度分析的大数据处理平台,该平台重点面向公安业务实现敏感用户监控、敏感群体监控两个研究方向。为了达到以上目标,平台主要包括三个层次,分别是数据层、挖掘分析层和业务层。数据层主要实现海量网络审计日志的接入、存储以及检索。挖掘分析层是整个架构的核心,主要包括两方面的工作:敏感用户画像、敏感用户关系挖掘,其工作流程图如2所示。面向海量网络审计日志的挖掘分析平台在数据关联的基础上,采用分布式图引擎对数据进行组织、存储和计算。为了确保处理的时效性,同时降低平台计算的复杂性,对于日志数据引入基于时间戳的衰退机制。在大规模图建模基础上,从动态特征、静态特征和关联特征等对敏感用户进行多维度画像。基于敏感用户画像和大规模图引擎,挖掘敏感用户的关系,为敏感群体用户挖掘提供基础。
5 关键技术研究与初步解决方案
5.1 数据关联
目前网络审计日志标识的类型并不相同,各类审计日志之间存在孤岛问题。针对网络审计日志的大数据挖掘分析需要以网络空间中的所有行为、内容、交互关系为基础。因此,首先需要打通各种类型的网络审计日志数据,采用统一的模型描述,为后续用户画像等打下基础。本节从用户的网络行为和通信内容出发,从三个方面打通各种类型的日志,关联出用户的不同数据。
(1)账号关联:用户在网络空间中针对不同应用使用各种账号,为了实现账号与用户的绑定,首先需要针对网络审计日志中用户的不同账号进行关联。账号主要包括邮箱,内容服务类应用(网页浏览、论坛、微博等)用户名或昵称,手机号,拨号账号等。账号关联的方法包括以IP地址为基础的账号关联(包括同类账号的关联以及不同类型账号的关联)、以用户昵称的账号关联、以入网许可IMEI号为基础的手机号关联。
(2)内容关联:以各种网络审计日志存储的内容关键词(URL)为基础,打通各种类型网络审计日志,关联用户数据。
(3)移动网行为关联:针对网络审计日志中包含手机号和社交网络、APP等登录账号信息,可以关联出用户在移动互联网中使用的IP地址和在移动网中手机号,进而关联用户在固网和移动网络的行为数据。
基于以上三方面的数据关联后,不同类型的日志数据能够形成统一的平台。不同业务系统日志在数据关联后,需要采用统一的图引擎进行处理,具体应用中可采用大规模图建模、图查询等技术[12-15]。
5.2 敏感用户画像
在数据关联的基础上,从多维度刻画敏感用户的身份信息、社交关系、内容偏好、行为特征等,进而实现敏感用户画像,为后续的敏感用户挖掘、敏感群体挖掘和敏感事件挖掘打下基础。
代表性的用户画像标签标注方法:针对用户的网络审计日志各类协议的网络内容,首先分析用户是否命中敏感关键词,其次在分析词的基础上,分析用户的主题标签词。
敏感用户在网络空间中可能拥有多个账号信息,但是账号具有很好的稳定性,并且不同账号之间一定存在一定的关联性,很容易绑定到特定的用户。因此,主要通过网络审计日志中人口统计属性和账号属性两个方面的信息作为敏感用户的唯一标识。
采用用户活跃度度量的方法标注用户属性,用户活跃度度量主要是针对用户活跃的程度。在图引擎中,重点挖掘两类用户,一类是活跃度非常高的用户,另一类是活跃度非常低的用户。
采用敏感用户信息完备性度量标注用户属性,主要按照敏感用户标签集合中的标签权重以及标签的优先级别计算敏感用户信息的完备程度。
5.3 基于用戶画像的敏感用户挖掘
在数据关联的基础上,从账号信息、真实身份等出发,挖掘系统日志中用户使用的各种账号信息(邮箱、微博等私人账号),并追踪敏感用户的在不同网络中使用的各个账号信息,收集多个数据源的行为数据、访问内容等。从账号信息、IP地址信息、内容标签、行为特征等多角度尽可能抽取全面的敏感用户数据。进一步从日志的内容信息和社交关系等出发,判定敏感用户的危险程度。具体方案如图3所示。
5.4 基于群体关系挖掘的敏感群体挖掘
敏感用户在网络空间中产生大量的交互信息,通过对敏感用户交互信息的挖掘,从邮件关系、APP通信、社交关系和短信关系出发,在敏感画像的支撑下,构建敏感用户的关系图谱。在敏感用户关系图谱上主要进行四个方面的挖掘:频繁关系挖掘、新关系挖掘、联合群体挖掘和群体标签挖掘,具体的流程如图4所示。
敏感群体挖掘在敏感用户身份刻画的基础上,进一步针对敏感用户的关系网络进行挖掘分析,进而实现对敏感群体进行挖掘。
具体的解决方案:抽取敏感用户的APP通信、邮件、社交(微博)、短信等多个业务系统中的日志数据,采用非平衡二部图建模敏感用户之间、敏感用户和敏感词之间的关系。在关系建模时,主要考虑两种关系,一是敏感用户之间的关系,二是敏感用户与敏感词之间的关系,建模方法如图5所示。在考虑用户之间的关系时,通过边的属性代表敏感用户之间不同的交互方式,节点代表用户,并通过身份刻画特征表示用户属性。考虑用户和敏感词之间的关系时,将各业务系统基于关键词打通,解决各业务系统的孤立问题。考虑用户和敏感词之间的关系同时能够为后续敏感用户群标签挖掘奠定基础。
在关系建模的基础上,对关系图进行挖掘分析。主要包括四个方面。
频繁关系挖掘:以用户交互图为基础,通过频繁模式挖掘算法挖掘用户之间的频繁交互模式。
新关系挖掘:在实时日志处理时,重点关注新敏感用户产生的关系。一是通过新关系对应的敏感用户身份刻画特征进行分析,甄别是否需要重点监控。 二是分析新关系对敏感群体聚集效应的评估。
联合群体挖掘:从用户交互图出发,挖掘交互图中的社区结构。挖掘算法拟采用局部相似性度量为基础,从内容和关系两方面联合挖掘群体结构关系。
群体标签挖掘:通过群体用户的共现敏感词,挖掘群体标签,进一步展示出群体用户的意图。
6 结束语
大数据挖掘分析技术具有的数据量大、挖掘效率高等特点,为大规模网络安全态势感知技术的突破创造了机遇。本文通过采集海量网络审计日志的条件下提出一种面向海量网络审计体重的敏感用户挖掘体系架构,对敏感用户挖掘分析和大数据技术的结合点进行了研究,并提出了基于海量网络审计日志的大数据挖掘分析工作流程、关键技术研究以及初步解决方案,对于大数据在公安取证以及应急管理等领域的应用研究具有重要探索价值。
参考文献
[1] 林元华.基于旁路接入的互联网访问内容审计系统设计[D].华东理工大学, 2011.
[2] 殷俊,王海燕,潘显萌.基于DNS重定向技术的网络安全审计系统[J].计算机科学, 2016, 43(s2):407-410.
[3] 辛晶.基于安全审计系统在网络安全管理中的应用[J].电子技术与软件工程, 2017(21):185-185.
[4] 林迅.信息安全审计系统的架构设计[J].网络安全技术与应用, 2016(10):53-54.
[5] Qing X. Log-Based Network Security Audit System Research and Design[J]. Advanced Materials Research, 2010, 129-131:1426-1431.
[6] 徐开勇, 龚雪容, 成茂才. 基于改进Apriori算法的审计日志关联规则挖掘[J]. 计算机应用, 2016, 36(7):1847-1851.
[7] 成茂才,徐开勇.基于可信计算平台的审计日志安全存储系统[J].计算机科学, 2016, 43(6):146-151.
[8] 李旭芳.网络信息审计系统中数据采集的研究与实现[J].计算机工程与设计, 2007, 28(3):550-552.
[9] 李明明.基于零拷贝的网络信息安全审计系统的设计与实现[D].华中科技大学, 2015.
[10] 贾王晶.面向网络犯罪侦查的日志关联取证技术研究[J].网络安全技术与应用, 2017(12):152-153.
[11] 张跃仙.网络犯罪侦查的IP定位跟踪技术研究[J].信息网络安全, 2011(6):72-74.
[12] Kelly R, Jacobsen D, Sun Y J, et al. KGraph: a system for visualizing and evaluating complex genetic associations[J]. Bioinformatics, 2007, 23(2):249-251.
[13] Liu J, Yao Y, Fu X, et al. Evolving K-Graph: Modeling Hybrid Interactions in Networks[C]// ACM International Symposium on Mobile Ad Hoc NETWORKING and Computing. ACM, 2017:29.
[14] Ahn J, Hong S, Yoo S, et al. A scalable processing-in-memory accelerator for parallel graph processing[C]// ACM/IEEE, International Symposium on Computer Architecture. IEEE, 2016:105-117.
[15] Kashyap N K, Pandey B K, Mandoria H L, et al. Graph Mining Using gSpan: Graph-Based Substructure Pattern Mining[J]. 2016, 7(2):132.
作者简介:
李棟科(1983-),男,汉族,河南叶县人,博士,工程师;主要研究方向和关注领域:网络安全和大数据技术。