大数据隐私动态防护框架

2019-10-08 08:34刘孟旭
软件 2019年7期
关键词:大数据

刘孟旭

摘  要: 大数据创造经济和社会效益的同时,也为隐私保护以及数据安全带来前所未有的风险。目前,隐私已经成为大数据应用领域亟待突破的难题,本文分析了隐私保护的现状与挑战,提出了一个以数据为核心的、全生命周期的、系统性的隐私动态防护技术框架,以降低大数据应用实践中的泄露风险,探索行之有效的隐私管理解决方案。

关键词: 大数据;隐私风险;动态隐私防护框架;隐私泄露

中图分类号: TP391.41    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.07.035

【Abstract】: Big data bring about not only significant economic and social benefits,but also great risks and challenges on privacy protection. Currently,privacy has been considered as one of the greatest problems related big data. This paper analyzes the challenges, and provides a data-centric, life-cycle, systematic and dynamic privacy protection technology framework, in order to reduce the risk of privacy leakage in the practice of big data applications and explore effective privacy management solutions.

【Key words】: Big data; Privacy risk; Dynamic privacy preserving framework; Privacy leakage

0  引言

促進大数据发展已经纳入国家战略规划[1],2017年11月河南省获批社会信用体系与大数据融合发展试点省,成为全国首批2个试点省份之一,在创新大数据应用、提高政府治理能力方面探索可供全国推广和借鉴的经验。

1  隐私保护现状堪忧

近年来,数据泄露事件频繁发生,2018年8月28日上海警方通报华住酒店集团5亿条用户入住登记身份信息泄露,12月28日北京市警方通报疑似12306铁路订票网站用户数据470余万条信息泄露,犯罪嫌疑人相继落网。全球范围内,据公共数据泄露事件严重程度指数(Breach Level Index)报告显示,自2013年以来已有近150亿条数据泄露,2019年平均每天有超过600万条数据遭到入侵或泄露,最令人担忧的是泄露的数据中只有不到4%的经过加密。2018年6月,美国Exactis公司泄露约3.4亿条记录,涉及2.3亿人隐私信息,泄露原因是数据库暴露在可公开访问网络且未采取安全防护措施。

2  大数据隐私保护的新挑战

数据隐私保护的常用技术包括密码技术、匿名化以及数据溯源等技术。密码技术包括安全多方计算[3]、密文检索、同态加密等技术,主要解决数据存储和通信的安全性。匿名化技术采用抑制[4]、泛化[5]、剖析、切片、分离等操作隐藏或者模糊数据等操作是隐私保护的最主要的一种技术手段。匿名化技术和密码技术都面临可扩展性差、计算代价高、不适应分布式存储和新型的计算框架等方面的挑战技术方案的可行性。此外,匿名化技术的隐私保护模型一般假设数据集的数据是相互独立的[6-7],大数据的大规模性、高速性、多样性、相关性以及多个异构数据源的融合使传统的隐私保护方案失效。

大数据分析和融合给隐私保护带来了新挑战,

高性能算法、更加复杂的分析模型、新型计算框架可以快速挖掘出大数据中的异常点、决策树、时序模式、关联规则以及用户行为模式等信息[9],从而泄露隐私信息或为攻击提供了攻击的背景知识。

3  数据隐私防护体系

针对大数据环境下隐私数据面临高风险、低防护的现状,解决问题的当务之急是针对不同类型的风险,探索一个行之有效的隐私防护框架。

3.1  隐私防护框架的目标

建立隐私防护技术框架的目标是合理利用已有隐私保护技术,降低政府部门、互联网企业、数据

中心等在大数据应用实践中隐私泄露风险,因此方案的可行性和有效性也至关重要。大数据环境下,网络攻击和安全风险呈现多层次、系统性、高速性、复杂多变等特征,因此任何孤立的、静态的保护手段都可能失效,为此必须做好隐私管理的顶层设计,建立覆盖数据全生命周期的、系统性的、动态演化的隐私防护体系。

3.2  数据隐私动态防护框架

本文主要从技术的角度探讨隐私问题,法律规范与管理体系方面的不再详述,数据隐私动态防护技术框架包括隐私识别体系、隐私管理服务体系、风险监测评估体系、动态反馈体系四大基本组成部分,如图1。

(1)隐私识别体系

隐私识别体系根据隐私保护方案实现隐私数据范围界定、权限管理和隐私策略等形成隐私管理的知识库,为隐私管理服务系统、风险监测评估和应急反馈提供支撑。隐私保护方案根据法律法规、标准规范,综合考虑应用需求、部署环境、数据资产价值、管理目标等制定。

(2)隐私管理服务体系

隐私管理服务体系按照预定义隐私保护策略,对外提供统一的隐私管理和数据服务。系统应能按

照根据隐私保护策略选用包括匿名化技术、差分隐私保护技术[8]、隐私信息检索技术、安全多方计算技术、数据加密技术等隐私保护技术,提供数据存储和通信、加工处理、融合分析、应用、销毁以及等不同层次隐私防护。应满足不同应用场景的需求,包括支持统计查询、数据挖掘、机器学习、人工智能等不同层次的分析需;支持格式化数据、半个格式化数据、流数据、多媒体等不同数据类型的发布需求;支持直方图、top-k查询、范围统计查询等不同类型的查询需求[11]。

(3)风险监测与评估体系

隐私风险监测与评估体系主要完成主动探测风险、违规审计、风险评估。应具备主动发现、分析和发布风险的能力,指导上层隐私管理技术体系如何选择相应技术的能力。

(4)动态反馈体系

动态反馈体系针对网络攻击、安全漏洞、安全事件以及安全策略变化等动态因素做出响应和反馈,并与其他系统形成有机联动,完成系统迭代更新和自身的演化升级,并按照升级后的隐私策略进行隐私防护并对外提供服务。

4  结束语

本文提出据隐私动态防护技术框架是我们在实践的基础上对隐私管理的理论探索和经验总结,随着大数据应用的深入和隐私保护技术发展,未来不断会有新的、更完善的隐私保护框架与机制的出  现[2]。大数据隐私不仅仅是技术方面的问题,还涉及法律法规、标准规范、监管模式等诸多方面,需要各方的共同努力才能实现。

参考文献

[1]       国务院. 促进大数据发展行动纲要, 国务院, 2015.

[2]       工业和信息化部. 大数据产业发展规划(2016-2020年),工业和信息化部, 2016

[3]       Sheikh R, Mishra D K, Kumar B, Secure multiparty computation: From millionaires problem to anonymizer[J] Information Security Journal: A Global Perspective 2011, 20(1): 25- 33

[4]       Wang K, Fung B C M, Yu P S. Handicapping attackers confidence: An alternative to k-anonymization[J] knowledge and information system, 2007 11(3): 345-368

[5]       Fung B C M, Wang K, Yu P S. anonymizing classification data for privacy preservation[J] IEEE Trans on Knowledge and Data Engineering, 2007, 19(5): 711-725

[6]       Sweeney L. k-Anonymity: A model for protecting privacy[J] International Journal of Uncertainty, Fuzziness and Knowledge-Based System 2002, 10(5): 557-570.

[7]       Sweeney L. k-Anonymity: Achieving k-anonymity privacy protection using generalization and suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems.

[8]       张啸剑, 孟小峰. 面向数据发布和分析的差分隐私保护[J].计算机学报, 2014, 37(4): 927-949.

[9]       The Internet Association, “Comments Concerning Big Data and the Consumer Privacy Bill of Rights.” pp. 1-15, 2014

[10]    劉向宇, 王斌 ,杨晓春. 社会网络数据发布隐私保护技术综述[J]. 软件学报, 2014, 25(3): 576-590.

[11]    周长利, 马春光, 杨松涛. 路网环境下保护LBS位置隐私的连续KNN查询方法[J]. 计算机研究与发展, 2015, 52(11): 2628-2644.

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路