大数据环境下隐私保护技术研究

2019-03-18 16:37翟志刚谢莉莉
网络空间安全 2019年8期
关键词:隐私保护职责大数据

翟志刚 谢莉莉

摘   要:大数据环境下安全问题面临着新的形势和新的矛盾,其中隐私保护是关键的问题之一,如何在大数据环境下兼顾共享和隐私保护是不得不考虑的问题。文章分析了大数据环境下隐私保护问题面临的新困难,指出隐私保护问题实际上就是数据共享问题,初次共享可以通过授权控制,但是数据的过度共享无法单单通过授权来控制。研究新的使用控制模型,提出通过授权、职责和条件来控制非授权的数据过度共享。在此基础上提出了职责后使用的控制模型,通过职责操作和条件约束来控制信息数据的过度共享,并给出了该模型的形式化描述。

关键词:大数据;隐私保护;使用控制;职责

1 引言

信息技术与经济社会的交汇融合引发了数据量的迅猛增长,数据已经成为国家的基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动、经济运行机制、社会生活方式和国家治理能力产生重要影响[1]。在未来社会发展中,数据资源的重要性将会超过土地资源[2]。运用大数据推动政府治理体系和治理能力现代化,实现高质量的发展是必然趋势。

大数据技术的发展带来了极大便利的同时,也面临着许多新的安全问题。为此,全国信息安全标准化技术委员会从2017年开始发布《大数据安全标准化白皮书》,在2018版[3]中特别指出,数据安全和个人信息保护是大数据的应用和发展中面临的重大挑战。在大数据时代,实现大数据安全与隐私保护,较以往其它安全问题更为棘手[4]。大数据背景下很多的应用平台不但是数据的存储者,还是数据的管理者,很难单纯通过技术手段限制平台对用户信息的使用。因此,大数据环境下更容易暴露隐私数据,“棱镜门”“剑桥分析”事件即为典型案例。同时,数据的可用性和安全性是一对天然的矛盾,有时候为了数据分析的方便,用户不得不主动或被动的放弃部分隐私保护的权利。

“隐私”作为一个概念的提出可以追溯到19世纪,在社会科学领域有广泛研究,但是跟“大数据”的概念一样,很难给“隐私”确定一个明确的定义,一般是指用户认为是自身敏感的且不愿意公开的信息。这里的用户可以是个人,也可以是某个组织。

2018年5月,號称史上最严的数据保护条例《通用数据保护条例》(GDPR)正式生效,欧盟个人信息保护进入新的历史阶段[5],需要注意的是GDPR从“个人数据”“数据主体”等概念设定了个人隐私保护要求。而我国《中华人民共和国网络安全法》(以下简称网络安全法)和《民法通则》中是基于“个人信息”进行了表述。“个人数据”和“个人信息”的区别有专门研究[6],本文对“数据”和“信息”的表述不做严格区分,也不对其内涵和外延进行深入分析,只要是个人或组织所拥有的数据或信息,均为本文研究涵盖范围,文中所列“信息”和“数据”的概念视作相同。

学术界从不同角度对大数据环境下的隐私保护进行了广泛的研究。刘雅辉等人[7]从数据层、应用层以及数据展示层叙述了个人隐私保护所使用的技术 ;黄刘生等人[8]从密码学的角度,综述了近年来提出的适用于大数据隐私保护技术的研究进展;曹珍富等人[9]指出解决大数据安全与隐私最彻底的方法是通过加密来实现。但是,孟小峰等人[10]在分析了大数据管理中存在的隐私风险和隐私管理关键技术后,指出了大数据的大规模性与高速性带来的实时性分析,使得传统的加密和密码学技术面临极大的瓶颈;李昊等人[11]从访问控制角度,对大数据安全问题进行了研究;从管理角度,王利明[12]深刻分析了数据共享与个人信息保护的矛盾;刘佳等人[13]从法律法规和标准角度对个人信息保护进行了研究;孙舒扬[14]指出了大数据应用中的个人信息使用存在的几个关键问题。

本文分析了大数据环境下隐私保护技术所面临的新特点和难点,将大数据环境下隐私保护问题归结为控制非授权数据的共享问题,初次共享可以通过授权控制,但是过度共享无法单单通过授权控制,提出了过度共享问题可以通过职责操作和条件约束来控制,依托使用控制模型建立职责后使用控制模型,给出它的形式化描述。

2 大数据环境下隐私保护的难点

传统的信息安全有三要素:机密性、完整性和可用性。机密性保证信息不被非授权访问,完整性保证信息不被非授权修改,可用性保证系统可用。机密性解决的是信息不能随便“读”的问题,非授权不能读取;完整性解决的是信息不能随便“写”的问题,无论是有意还是无意,都不能非授权写;如果一个系统既不能读也不能写,那么可以说这个系统是完全安全的,但是这样的系统就没有了意义,所以还要有可用性来保证系统的可用。机密性、完整性和可用性缺一不可、不可分割,三者都取最优是无解的,只能根据不同的应用场景,分析系统需求,选取最佳平衡。

大数据环境下关于机密性所面临的新特点和新安全威胁主要体现在两方面。

一是间接信息泄露。大数据时代个人信息无处不在,无论是工作还是生活,登记的个人信息都已进入网络。同时,政府或社会组织的数据或信息也同样面临泄露的风险,甚至超过个人信息泄露的风险。分析信息泄露事件,除了非法访问破坏机密性而导致信息泄露外,大数据时代随着数据挖掘、机器学习、人工智能等技术的发展,使得大数据的综合联机分析能力越来越强,更容易通过关联分析挖掘出更多的关联信息,这也是大数据的关键特征之一,但是大数据的这一特征同时增加了信息泄露的风险。所以,在大数据时代,对于隐私保护问题,除了控制对数据的非法访问,更重要的是控制因数据挖掘分析而间接导致的信息泄露。

二是数据过度共享。大数据时代,数据是重要的战略资源,但是数据的使用价值只有在流通、共享和应用的过程中才能体现,没有共享的数据只有价值而无使用价值。数据共享包括信息数据的收集和传输行为,数据共享实际上是数据控制范围的扩张,数据收集者如果再次将收集到的数据共享出去,将可能导致数据的广泛传播。《网络安全法》第四十一条规定:“网络运营者收集、使用的个人信息,应当遵循合法、正当、必要的原则,公开收集使用规则,明示收集使用信息的目的、方式和范围,并且经过被收集者同意。网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和用户约定,处理其保存的个人信息。”按照上述规定,数据收集者在收集信息数据时应当获得信息数据拥有者的同意。但是数据收集主体在收集到相关信息数据以后,在利用这些信息数据的同时,可能会将其再次共享,再次共享时是否应当征得信息数据拥有者的同意。信息数据拥有者是否就是该信息数据的原始拥有者,有无权力转授权。这些都是大数据时代新的隐私保护难点。分析机密性可以看出,数据泄露可以看作是非授权的数据共享,数据的过度共享同样可以看作是非授权的数据共享。

大数据环境下关于完整性面临的安全威胁主要是基于访问控制进行的研究[11],本文不做赘述。但是可以认为对原授权操作数据的进一步写操作,是产生了新的数据,该新数据没有原始拥有者,可以认为执行主体是其当前的拥有者,该新数据产生以后被其数据拥有者同时共享出去。

大数据环境下关于可用性面临的安全威胁同样可以归结为非授权共享的问题,可用性的控制主要是通过应用场景或时间段来控制。比如某用户将自己的个人信息授权给某APP采集使用,但是仅限于在该APP内使用,若该APP将用户信息转授权给其他APP则违背了事先约定的条件约束,授权应该被收回。

实际上,大数据环境下信息数据的流动都可以归结为数据共享的授权行为,初次信息数据收集,可以归结为数据的拥有者将数据共享给了数据的收集者。数据收集者获得数据授权后,通过分析得到的增值数据可以视为在原授权基础上的属性扩展,视作新数据并对外共享。数据收集者将获得的数据对外共享,可以视为非授权过度共享,过度共享可以是一次,也可是多次。

从这个角度,无论是“信息”还是“数据”, “个人”还是“组织”,均可以是被动研究的对象,本文统一命名为“客体”,属于被操作的对象。执行操作的对象有可能是平台、个人、组织,有可能是有意或是无意的,本文统一命名为“主体”。主体对客体执行的命令,称之为“权力”,比如“读”“新增”“删除”“修改”等。一个主体、一个客体和该主体对该客体的权力组成了一个权限,权限组成权限集合。这里主客体并不是一成不变,某个场景下主体A对客体B执行操作C,另外的场景下可能主体A变为客体被访问操作。

由此,隐私保护的问题可以归结为非授权的数据共享问题,数据共享分为初次共享和过度共享。数据的收集行为反过来考虑也就是数据拥有者对数据收集者的共享行为,视为初次共享。过度共享则是数据收集者对收集的数据再次共享的过程。如何保护隐私,也就是如何控制非授权数据共享的问题。例如,数据拥有者将该数据的某权力授权给数据收集者后,如何控制该数据收集者不能随意将该权力非授权的共享出去。显然,数据的初次共享可以通过授权的方式解决,但是数据的过度共享已无法单单通过授权的方式解决。

3 后职责使用控制模型的定义及安全策略形式化描述

除了授权,实际上还可以通过两种方式控制权力的流动也就是非授权的数据过度共享。一是基于操作,如果数据收集者收集到数据后执行了某种不应执行的操作,则撤销该数据共享的权限。或者应该执行某种操作而未执行该操作,同样撤销该数据共享的权限;二是基于场景,如果超出了某使用场景,也撤销该数据共享权限。再加上初次共享的授权控制行为,控制数据共享的先决条件可以归结为授权(Authorization)、职责(oBligation)和条件(Condition),在此基礎上研究访问控制模型更应该基于使用控制模型(UCONABC)[15,16],而有关的形式化描述定义,可参考文献[17]。

在此基础上,本文提出一种职责后使用的控制模型,主要通过职责谓词和条件谓词来控制数据的过度共享。例如某主体s获得某客体o的某权力r之后,如果执行了某种操作action,则该权限p(s,o,r)被撤销收回。或者发现某应用场景条件c已改变,则该权限p(s,o,r)同样被撤销。

属性更新操作根据使用进程的阶段包括preupdate(attribute)、onupdate(attribute)和postupdate(attribute),分别表示使用进程前执行的属性更新、使用进程执行过程中的属性更新和使用进程执行结束后的属性更新,属性值包括主体属性、客体属性和系统属性。

职责操作是诸如点击按钮、打开窗口等操作,用ob(sb,ob)表示,ob表示职责操作的名称,sb指职责主体,ob指职责客体。

首先,用户提出了使用请求,此时检验授权谓词、条件谓词和职责操作是否都满足,都满足的情况下才会授予相关的权限。如果有属性更新,则更新相关属性值。使用决策在检验时如果发现有授权谓词、条件谓词和职责操作任意一个不满足,执行拒绝请求操作。只有允许请求成立,系统状态才会转入使用中阶段,这个阶段如果有属性更新,则随时更新属性值。同上,如果使用中阶段发现授权谓词、条件谓词和职责操作有任意一个不满足,则撤销请求的操作执行,并且检测是否有属性更新。用户自己提出终止使用决策,则使用进程自动终止。正常使用决策终止,系统状态自动进入终止请求阶段。同样,若有属性更新,更新相关属性值。

UCONABC模型可以分为24个子模型,本文只研究基于职责操作的数据过度共享控制,也就是在使用决策执行过程中和使用决策执行以后对权限的控制,所以只给出职责中和职责后子模型的基本描述。

3.1 职责中子模型

职责中分布式使用控制子模型安全策略的描述。

3.2 职责后子模型

职责后分布式使用控制子模型安全策略的描述。

这时候系统状态已经转入post阶段,必须在满足某些谓词的前提下执行一些职责操作,若有属性更新则更新主客体属性集和系统属性集,最后正式终止这次使用进程。

postB子模型的定义主要是针对数据收集者获得数据权限以后的过度共享。比如网上下载的电影必须在24小时内删除,这里删除的职责操作就显的尤为重要,如果没有执行这个删除的职责操作,则认为用户可能传播该视频,这就违反了最初使用控制的初衷。另外,属性更新的操作也显的非常重要,因为如果主体最后真的没有执行这个职责的操作,那么必须更新相应的主客体属性值和系统属性值,更新这些属性集以后,下次主体再执行此次使用请求,系统将均予以拒绝。本文用一个例子来表达此子模型的表达能力。

4 结束语

本文将大数据环境下的数据流动归结为数据的共享问题,将隐私保护问题归结为如何控制非授权的数据共享,通过职责操作和条件约束来控制数据共享的过度授权,提出职责后使用控制模型并给出其形式化的描述。

大数据环境下,更重视数据利用还是更重视隐私保护是相互矛盾的。从长期来看,应该寻找多种价值目标的最佳结合点,达到一个平衡。隐私保护必须加大力度,但是大数据的价值大部分来源于数据共享,不允许数据共享,大数据将无从谈起。如果只强调隐私保护而采取过于严苛的措施,则可能不切实际。

基金项目:

江苏省教育科学十三五规划2016年度资助专项课题:基于大数据时代的高校学生精准资助工作探究(项目编号:X-a/2016/08)。

参考文献

[1] 国务院关于印发促进大数据发展行动纲要的通知.[EB/OL].2015-09-05/2019-08-05.http://www.gov.cn/zhengce/content/2015-09/05/content_10137.

[2] 未来数据资源比土地更值钱[N].新华日报, 2019-04-11(2).

[3] 大数据安全标准化白皮书.[EB/OL].2018-04-16/2019-08-05.http://www.cesi.ac.cn/201804/3789.html.

[4] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.

[5] 刘玉琢.欧盟个人信息保护对我国的启示[J].网络空间安全,2018,9(7):42-46.

[6] 王春晖. GDPR个人数据权与《网络安全法》个人信息权之比较[J]. 中国信息安全,2018,(7):41-44.

[7] 刘雅辉,张铁赢,靳小龙.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):1-19.

[8] 黄刘生,田苗苗,黄河.大数据隐私保护密码技术研究综述[J].软件学报,2015,26(4):945-959.

[9] 曹珍富,董晓蕾,周俊等.大数据安全與隐私保护研究进展[J].计算机研究与发展,2016.,53(10):2137-2151.

[10] 孟小峰,张啸剑.大数据隐私管理[J].计算机研究与发展,2015,52(2):265-281.

[11] 李昊,张敏,冯登国等.大数据访问控制研究[J].计算机学报,2017,40(1):72-91.

[12] 王利明.数据共享与个人信息保护[J].新华文摘,2019,11:17-20.

[13] 刘佳,张琳.个人客户信息保护的法律法规及标准综述[J].网络空间安全,2018,9(10):34-38.

[14] 孙舒扬.大数据应用中的个人信息利用问题研究[J].网络空间安全,2018,9(12):80-84.

[15] PARK.J, SANDHU R. The UCONABC usage control model[J]. ACM Transactions on Information and System Security, 2004, 7(1):128-174.

[16] ZHANG Xinwen. Formal model and analysis of usage control[D]. Virginia: George Mason University, 2006.

[17] Xie Lili, Zhai Zhigang. Formal Specification of Concurrent Enforcement UCON Model with CTL Logic[A]. In:International Conference on Artificial Intelligence and Security(ICAIS 2019)[C]. Berlin: Springer, LNCS vol(11633) 2019:627-641.

猜你喜欢
隐私保护职责大数据
打孔
大数据环境下用户信息隐私泄露成因分析和保护对策
大数据安全与隐私保护的必要性及措施
企业如何有效实施不相容职责分离
社交网络中的隐私关注及隐私保护研究综述
大数据时代的隐私保护关键技术研究
基于大数据背景下的智慧城市建设研究