孟小峰,张啸剑
摘要:目的:信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点,是IT业正在发生的深刻技术变革。但它在提高经济和社会效益的同时,也为个人和团体的隐私保护以及数据安全带来极大风险与挑战。当前,隐私成为大数据应用领域亟待突破的重要问题,其紧迫性已不容忽视。本文旨在通过对比分析传统被动式隐私保护技术,探索大数据隐私主动式管理框架以及该框架下的关键技术。方法:大数据时代下,数据隐私保护有着独特的意义,传统的隐私保护理论和技术无法涵盖大数据隐私的内涵,进而有必要对大数据隐私保护问题进行重新思考与定位。首先,概括出大数据的数据类型、隐私特征与隐私类别;然后,为了展示大数据目前所面临的隐私风险,从数据肆意收集、数据集成融合、数据分析3个角度进行了阐述;接着,为了解决大数据所面临的隐私风险,提出大数据隐私管理的思想及其目标,并在其基础上提出主动式隐私管理框架。从隐私主动监测体系、隐私主动评估体系、隐私主动管理技术体系、问责系统体系已经法律法规体系五大部分解释该管理框架的合理性;最后,着重对现有隐私管理关键技术进行了合理的分析,并介绍各自的适应环境。介绍了隐私管理技术所面临的挑战问题。结果:(1)监视、披露、歧视能够导致隐私泄露,而数据的肆意收集、集成融合与分析加剧了大数据的隐私风险。(2)传统的匿名化机制主要缺陷是过分依赖背景知识假设,在一定的攻击假设背景下改进现有的隐私保护方法,是被动式地防止单一数据集上的隐私泄露。类似于匿名化机制,数据加密机制也是针对某类数据的隐私泄露而被动式的保护,同样会陷入“新数据加密机制不断被提出但又不断被打破”的循环中;差分隐私假设数据库中各条记录的取值是相互独立的。在这种假设下,攻击者只能通过观察带噪音的输出结果来攻击。但是现实中的数据库记录有可能存在相关性。尽管隐私信息检索技术促进了安全软硬件的发展,但在大数据环境中,这项技术的应用会更加困难和复杂。此外,问责系统缺乏底层风险监测与评估的支持。采用人工问责时,该技术的效率很低。采用数据溯源进行问责时,其本身的隐私信息可能被泄露。(3)根据大数据本身的特点所提出的隐私保护框架,为防止大数据生命周期中收集、处理、存储、转换、销毁各个阶段隐私的泄露提供建议上的指导与帮助。结论:大数据在当前IT业发展十分迅速,具有广阔的发展前景,但同时其所面临的隐私挑战和风险也空前的,需要隐私保护研究者共同探求管理之道。本文提出了主动式隐私管理框架,并讨论了该框架面临的主要技术挑战。大数据隐私管理不仅仅是技术方面的问题,它还涉及到法律法规、监管模式、宗教等诸多方面。因此,仅从技术层面探讨大数据隐私管理问题是远远不够的,需要学术界、企业界以及政府相关部门共同努力才能实现。
来源出版物:计算机研究与发展, 2015, 52(2): 265-281
入选年份:2016