一种隐私数据主动防御的研究

2019-06-10 09:35李映壮
科技创新导报 2019年4期
关键词:主动

李映壮

摘   要:随着互联网由1.0向2.0演进,互联网以前所未有的速度渗透到人们的日常生活。互联网快速发展所积累的庞大数据,为大数据分析和人工智能创造了绝好的条件,另一方面,针对数据攻击、数据泄露、数据滥用变得日益严重,甚至滋生非法活动。对于个体而言,数据隐私意识也在不断增强。数据隐私保护问题成为广受关注的网络空间治理问题,因此要求数据运营者要积极、主动地进行数据防御。

关键词:数据隐私  网络空间治理  主动、数据防御

中图分类号:TP309                                 文献标识码:A                        文章编号:1674-098X(2019)02(a)-0159-05

Abstract: With the evolution of the Internet from 1.0 to 2.0, the Internet has penetrated into people's daily lives at an unprecedented rate. The huge amount of data accumulated by the rapid development of the Internet has created excellent conditions for big data analysis and artificial intelligence. On the other hand, data attacks, data breaches, and data abuse are becoming more serious and even breed illegal activities. For individuals, awareness of data privacy is also growing. Data privacy protection has become a widely concerned issue of cyberspace governance. Therefore, data operators are required to actively and proactively perform data defense.

Key Words: Data Privacy; Cyberspace governance; Initiative; Data defense

随着数字经济时代的到来,数据已成为关键的生产要素。数据赋权的意义不仅仅在于保护个人隐私,同时还有助于清晰产权,从而发挥出数据的最大经济效能,各国目前正加快数据隐私保护的立法和相关制度建设。欧盟于2018年5月正式实施的《通用数据保护条例》(GDPR)规定数据主体享有知情同意权、访问权、拒绝权、可携权、删除权(被遗忘权)、更正权、持续控制权等多项权利。其中一些权利在我国于2016年11月通过的《网络安全法》中也得到了体现。数据隐私保护的相关立法对数据的处理和应用施加了约束,极大增强了数据主体对个人数据的控制能力和保护能力,因此,数据运营者主动对数据进行防御就尤其重要。

既然是主动防御,则肯定对应“被动防御”。被动防御的经典应用就是传统事后被动审计、被动应急。传统的数据攻击检测都是攻击出现后,先被动处置,安全厂商再提取特征码放入特征库,这种做法显然不能在主动、积极地进行数据防护。主动防御理念的安全策略不再依赖于特征,而是根据行为做出预先判断并实时进行自动闭环阻止。从技术角度来说,可分为四个方面:身份认证,即确保数据访问的全流程身份正常。攻击预测,不依赖特征,实时预判各种针对数据的攻击行为并告警。路径还原,能够精准还原攻击的整个路径,提供处置依据。实时封堵,能够对可能导致数据泄露的行为进行自动闭环封堵。

1  基于有向图的持续身份认证

1.1 生成数据访问行为图谱基线

首先从数据访问日志中提取时间、源目的IP、来源URL、访问URL等字段,并过滤出目的IP位于受保护站点列表的访问日志,使用目的IP加上目的端口作为站点的唯一标志。对于指定时间段内同一个源IP访问同一个站点的访问日志进行提取,我们就可以得到此源IP访问站点的URL访问序列。为了规避URL序列中掺杂的静态资源的干扰,我们需要对URL序列进行去噪,去噪方式如下:

(1)对于UPL,去掉其問号后的所有内容,即去掉参数部分。

(2)得到已经去掉参数的URL后,我们对其后缀进行判断,如果其后缀属于js(Javascript脚本)、css(样式文件)、png/jpg/gif/jpeg(图片文件)等,则认为是页面的静态资源请求,不属于URL路径分析的范畴,将其过滤掉。

经过过滤步骤后,我们就得到了一个源IP对于一个站点的所有动态请求的URL序列。我们将每一个URL作为图的一个节点,而将一个URL到另一个URL的跳转关系,作为图的一条有向边,这样我们就可以得到一个源IP对于一个站点的访问行为图谱。如图1所示。

另外,我们还可以基于源IP对于目的站点各个URL对应模块的访问时间间隔,生成用户访问时间序列图谱,对于用户在站点各个模块停留时间的行为特征进行刻画。如图2所示。

由于历史数据访问日志中,有非常多的源IP访问站点对,为了提高行为图谱基线的生成性能,我们可以使用Spark的分布式算子并行的生成源IP访问站点序列行为图谱,在生成行为图谱之后,我们将每一个行为图谱对象序列化为二进制对象,存储在HDFS上,供后续的实时URL比对模块读取。每一个序列化的图谱对象,使用源IP加目的IP加目的端口作为它的标志。

1.2 异常身份检测

(1)基于访问行为图谱的异常身份检测。

根据URL的先后访问关系从元素为N的URL集合中,提取出N-1个子序列,例如对于的URL集合,得到的子序列为。对于每一个子序列与行为图谱进行比对,如果子序列中含有行为图谱中不含有的节点,或者子序列对应的行为图谱中不存在边,则判定为该用户的此次访问行为异于历史访问行为,触发身份验证失败访问异常告警。

(2)基于访问时间序列图谱的异常身份检测。

对于源IP访问URL的时间间隔,与访问时间序列图谱进行比对,如果发现两个URL之间的访问时间间隔明显异于访问时间序列图谱的时间间隔(例如与历史停留时间间隔的均值相比超过了3倍的标准差),则判定为该用户的此次访问行为异于历史访问行为,触发身份验证失败访问异常告警。

2  基于机器学习分析的主动预测

(1)数据源采集。

网络安全领域的数据源根据类型的不同,包括结构化数据,非结构化数据和半结构化数据,数据采集方式主要通过Syslog、SNMP、JDBC/ODBC、FTP/SFTP、TCP/UDP、File、Webservice等主流的数据采集方式进行采集,对于大量多源异构数据源,采用前置探针,对数据进行集中收集、规范化等工作,将数据整合后统一发送到大数据应用系统,应用系统将根据安全事件之间的相关性,进行关联分析,得到更为准确的监测信息,发现攻击源。

(2)数据预处理。

在对数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,从而改进数据的质量,提高数据挖掘过程的效率、精度和性能。大数据预处理利用数据切片,数据分类,数据聚合,数据索引标记等技术对原始数据进行层级化的聚合、重组、清洗、提取、转换、管理、切分等预处理操作,统一标准接口,统一数据标准,并通过分布式存储管理技术,在满足一致性要求的基础上,实现安全、可靠、快速、有效地对多类型、多格式的数据统一存储管理。

(3)分布式计算。

大数据分布式计算通过两个或多个计算机互相共享信息,将需要进行大量计算的数据分割成小块,由多台计算机分别计算,再对运算结果进行统一合并。采用分布式任务调度机制,动态灵活的将计算资源进行分配和调度,从而达到资源利用最大化,计算节点不会出现闲置和过载的情况,采用分布式实时计算框架和分布式离线计算框架相结合的分布式计算框架和模块化设计,构建一个支持多种分布式计算模型的统一动态调度、管理和计算的大数据分布式计算平台,有效地支撑大数据挖掘分析。

(4)行为预测。

通过上述数据采集、数据预处理、数据分布式计算等过程,大数据已纳入分布式存储管理中,这些数据信息已可以用于查询、统计、分析,得到大量对业务有用的信息,然而,隐藏和淹没在这些大数据之中更重要的信息,如关联分析、精细化分类、模式识别等,是无法用传统查询统计方法来获取的。为了得到这些有用的信息,需要采用数据挖掘分析技术,自动智能地对大数据分析、探索、挖掘,探寻数据的模式及特征,实现对异常行为的主动预测。

3  基于时序关联的攻击路径还原

传统针对敏感数据算法模型流量分析,发现的基本是大量的单点、单一时刻的威胁,无法感知APT攻击问题,本文提出一种基于洛克希德·马丁(Lockheed Martin)公司的安全专家提出来的网络攻击按发展时间和程度统一分为七个阶段,分别是侦查、工具制作、投送、攻击渗透、安装工具、命令控制和恶意活动,以用户视角的行为时序图,构建时序关联的攻击路径还原模型,同时结合威胁情报关联分析,推理形成用户维度的数据泄露攻击行为还原链。这种数据泄露路径还原模型是一种多维度的攻击推理算法,维度包含攻击事件标记的危险程度、资产的重要等级、事件发生时间以及事件所处攻击阶段等。

通过将设备或算法检测生成的告警数据,从资产的角度,使用泄露阶段、时序关联、攻击的危险程度和资产重要程度,还原出数据泄露的路径,能够有效发现基于局域网资产的树状威胁拓扑,还原了资产被入侵的历史痕迹,有效提高了威胁感知和预测能力。

4  分类分级的实时闭环封堵

当前出现攻击时,如果经过人工审核确认后通过封堵IP的方式进行,该种方式过于简单粗暴,极易造成因操作不当导致大面积业务故障。本方法将基于TCP会话重置和基于账号的封堵方式引入敏感数据防泄漏处置,实现高危风险自动化封堵,无需人工干预且封堵影响范围小。根据泄露的场景定制化制定封堵策略,能够从三方面进行有效的封堵,第一类账号异常,跟资源管理系统进行联动封堵恶意账号的活动;第二种通过调动一键封堵平台下发黑洞路由实现IP封堵;第三种高危探测活动,通过TCP会话重置来实现精准级会话封堵。

从数据防御出发,针对9个高危场景分别实现分类分级自动封堵,最大限度降低封堵影响,提高业务连续性。

5  结语

虽然我们大多只听说新闻报道的大公司数据泄露事件,但并非只有大公司才面临数据泄露的风险。事实上,中小企业的敏感数据泄露问题也不小。攻击者对中小企业下手的回报可能没有对大公司的大,但小企业也不太可能具备能够主动检测、预防和缓解安全漏洞的策略。为避免敏感数据泄露,无论是大公司还是中小企业都需要关注网络安全,积极利用主动防御的思路进行数据防护。同时,数据保护不是某一个部门的职责,而是所有数据运营者和使用者的事情,进行敏感数据的业务流程设计时,一定要回归到业务的本质上去,回头看看业务的本质是什么,需不需要这些敏感数据。

参考文献

[1] 谢邦昌,蒋叶飞.大数据时代隐私如何保护[J].中国统计,2013(6):1-4.

[2] 陈明奇,姜禾,张娟,等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全,2012(8).

[3] 霍峥,孟小峰,黄毅.一种移动社交网络中的轨迹隐私保护方法[J].计算机学报,2013(4):716-726.

[4] 周水庚,李丰,陶宇飞,等.面向数据库应用的隐私保护研究综述[J].计算机学报,2009(5):847-861.

[5] 冯登国,张敏,李昊.大数據安全与隐私保护[J].计算机学报,2014(1):33-35.

猜你喜欢
主动
巧用“展示台”,让学生爱上识字
浅谈小学生自主学习的培养
关注学生个性 促进主动学习
变被动为主动,培养学生自改作文的能力