大数据分析与隐私保护

2014-07-24 15:31:09虞慧群裴新范贵生

微型电脑应用 2014年11期

关键词：算法用户信息

虞慧群，裴新，范贵生

大数据分析与隐私保护

虞慧群，裴新，范贵生

大数据为商业创新和社区服务带来了巨大利益。然而，由于大数据分析技术挖掘出的信息可能超出人们想象，隐私问题备受关注。介绍大数据分析方法及支撑架构，剖析大数据的安全与隐私保护相关技术，并提出一种基于云存储的大数据隐私保护方案。

大数据分析；隐私保护；安全；云计算

0 引言

随着云计算、物联网等技术的兴起，计算机应用产生的数据量呈现了爆炸性增长，大数据已成为科技界和企业界甚至世界各国政府关注的热点[1]。《Nature》在2008推出专刊阐述大数据问题所需的技术以及面临的一些挑战。《Science》也对大数据研究中的科学问题展开讨论，说明大数据对于科学研究的重要性。美国政府发布了“大数据研究和发展倡议”，正式启动“大数据发展计划”。计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。我国工信部电信研究院于2014发布大数据白皮书，对大数据关键技术、应用、产业和政策环境等核心要素进行分析，梳理提出大数据技术体系和创新特点，描述大数据应用及产业生态发展状况。大数据已成为目前学术界和产业界共同关注的问题。

大数据之“大”有两方面的含义：一方面是数据数量巨大、数据种类繁多、数据采集高速；另一方面指的是应用于这类数据的分析规模大，最终才能获取具有价值的信息。目前大数据的发展仍然面临着许多问题，隐私问题是人们公认的关键问题之一[2]。由于大数据需要收集和发布移动数据、社会媒体数据、视频数据等。这些数据的集中存储不仅会增加数据的泄露风险，而且如何保证这些数据不被滥用，以及如何监管和控制对基础数据的分析和挖掘，都是用户隐私保护中重要的问题。如果数据拥有者直接发布隐含着敏感信息的数据，而不采取适当数据保护技术，将可能造成个人敏感信息的泄露。在大数据环境中，用户或商家既是数据的生产者，又是数据的存储、管理者和使用者，因此，单纯通过技术手段限制商家对用户信息的使用，实现用户隐私保护是极其困难的事[3]。

本文主要从大数据的结构特征分析出发，对大数据的体系结构及问题进行分析，并提出相应技术与策略以实现对大数据的隐私进行保护。

1 大数据分析

大数据不仅指数据本身的规模，也包括数据采集、数据存储平台、数据分析系统和数据衍生价值等要素。这种应用模式的开放性和多样化等特点，导致大数据的信息安全和传统信息安全体系存在较大差异。

1.1 大数据来源

目前，社会信息化和网络化的发展导致数据爆炸式增长，大数据用于描述规模超出了日常软件在可容忍期限内获取、管理和加工数据的能力。据统计，百度每天大约要处理几十PB的数据，Facebook每天生成300TB以上的日志数据。同时，教育科研、医疗卫生、电力行业、智能交通、电子政务等各行业也有大量数据在不断产生。据著名咨询公司IDC的统计，2011年全球被创建和复制的数据总量为1.8 ZB(1021)，而到2015年这一数值预计会达到8ZB。然而，大数据主要以非结构化数据为主，传统技术难以应对。为此，谷歌提出了一套以分布式为特征的全新技术体系，即分布式文件系统（GFS，Google File System）、分布式并行计算MapReduce和分布式数据库BigTable等技术，这类技术将计算和存储节点在物理上结合在一起，从而避免在数据密集计算中易形成的I/O吞吐量的制约，同时采用了分布式架构，能达到较高的并行访问能力。这些技术奠定了当前大数据技术的基础。

1.2 大数据分析方法

通过数据采集和初步的过滤处理，可以存储和检索分类数据。而有效的分析使得人们能够从静态的数据中获取具有预测性和结论性的信息。大数据分析创造的价值远高于数据本身，目前的主流技术包括：

（1）数据挖掘：从大量的数据中通过算法搜索隐藏于其中信息的过程。通常与计算机科学、统计学、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法结合从而实现上述目标。数据挖掘主要由数据准备、规律寻找和规律表示3个步骤组成。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（可视化）将找出的规律表示出来。数据挖掘算法可以被训练用于找到数据模式，从算法的角度可以分为监督学习，非监督学习和半监督学习。常用的数据挖掘算法包括：分类算法，聚类算法，回归算法，数据关联算法，异常检测算法等。例如，可以使用聚类算法，通过搜索分析网络中数以百万计的图片，判断出给定图片的内容类型；亚马逊网站利用数据关联算法对图书、消费者进行关联和分类，进行图书的推荐销售。

（2）信息融合：信息融合通过集成、过滤、替代等技术，从多数据源中提取关键数据。融合技术能够提高数据的互操作性，促进两个系统的通信和数据交换能力。在商业智能的应用中，商家可以将在线商品、库存、价格以及销售记录等信息以图片的形式展示给客户，同时，行业内部的信息可以融合及共享，建立多卖家信息平台。此外，数据集成和信息融合技术同样可以应用于如传感器网络、视频/图像处理、机器人和智能系统等领域。

（3）图像和语音识别：利用计算机对图像和语音进行处理、分析和理解，以识别各种不同模式的目标和对像。常用的方法包括特征值提取，数据比对，模式匹配等。基于图像识别技术实现的产品包括指纹识别，人脸识别等。而语音识别则是基于音调、音色、频率等声音的属性实现语音匹配的过程。

图像和语音识别技术也广泛应用于视频分析中。具备高识别度的系统可以用于追踪和异常发现，例如在摄像头全覆盖的城市区域，可以通过人脸识别或车牌识别技术，定位嫌疑人员和车辆；在监狱安保系统中，通过图像识别和语音识别技术，可以区分正常行为言语和打斗喧哗的场景，用于报警。

（4）可视化分析：可视化通过交互式的视觉表现形式，帮助分析和理解复杂的数据。典型的可视化方法利用柱状图、饼状图等形式绘制数据，便于用户直观地对统计的趋势和内涵进行理解和分析。同时，用户也可以改变数据的表现形式和设置系统参数，从不同角度感知和探索。可视化技术可以迅速有效地简化和提炼数据，帮助用户从大量数据中筛选有用信息。很多情况下，大规模数据的可视化为满足足够的互动性，会结合多分辨率表示等方法，如数据流线化，任务并行化，管道并行化和数据并行化。

1.3 大数据支撑架构

大数据处理涉及数据的采集、处理、分析与表现几个步骤[4]，大数据系统架构如图1所示：

图1 大数据系统架构

数据采集层：对于当前的网络安全系统，常见的信息来源是最为原始的数据。这些数据包括网络通信数据，事件日志、安全日志数据，视频流数据等。数据格式因数据而异，可以从结构上分为结构化数据，半结构化数据和非结构化数据3类。

数据处理层：该模块通过多种算法，将原始数据进行过滤、处理和分类，形成规范的格式化数据。包括清除无效数据，减少冗余数据，及建立数据关联等。

数据分析层：原始数据经处理之后并不能直接帮助做出决策，需要通过机器学习和模式识别等人工智能的方法进行分析，得到具有实际价值的结果。

数据表现层：依照分析和统计结果建立可视化输出，从而帮助预测和规划。

云计算：云计算提供了大数据集中采集和存储的基础，并提供了存储空间和访问渠道，为大数据提供弹性可扩展的基础设施支撑环境以及数据的高效存储模式。本地维护和分析大数据的成本很高，因此，大数据通常使用云存储的大容量特性解决其存储问题。云计算的高效计算能力来解决数据处理和分析问题。

信息安全技术：用于保护信息的保密性、完整性和可用性等关键属性的方法和技术。保密性技术目的是防止非授权用户非法获取信息资源。完整性技术目标是保证信息的真实可靠，防止对信息的非法篡改和伪造。可用性技术保障合法用户能够有效地获取相应信息。

2 大数据隐私保护

2.1 大数据隐私保护技术

在大数据时代，用户隐私和数据安全至关重要[,5]。一方面，大量的数据汇集，包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录。这些数据的集中存储不仅会增加数据的泄露风险。另一方面，大数据对数据保密性、完整性和可用性带来了新的挑战。目前，用于大数据隐私保护的主要方法包括访问控制，数据加密，数据匿名，数据映射等。

访问控制技术：目前以层次化基于角色的访问控制技术（H-RBAC，Hierarchical Role-Based Access Control）为主流。其具备用户，角色，权限三要素以及构成权限的对象和操作。通过建立层次化的角色树，以及创建、分配、回收权限等操作，实现有效的文件访问控制管理。

数据加密技术：对于大数据的加密来说，最重要的安全和效率。可以用于大数据的加密技术包括基于身份的加密（IBE, Identity-Based Encryption），基于属性的加密（ABE, Attribute-Based Encryption）等，这些加密技术可以同时配合安全策略使用，以实现分布式数据的安全和高效使用。

数据匿名技术：匿名技术算法通用性较高，且匿名化过程不可逆，从而能够保证数据的真实性和安全性。匿名技术包括k-匿名模型，m-invariance等，用于决策分类器的构建，聚类。

数据映射技术：基于椭圆曲线方法将数据编码为特定格式，并利用哈希函数将其映射到椭圆曲线上的点集。映射技术采用数学上的离散对数技术，能够确保映射过程的安全和保密性。

数据失真技术：通过随机干扰，随机化，阻塞，凝聚等技术，防止数据的失真。该技术可以认为是一种特殊的数据加密技术，其关键在于数据的恢复能力。

可逆置换技术：通过可逆的置换算法以保证数据的真实性，并且效率比较高，常用于数据中心的大规模系统隐私保护，如位置变换，映射变化等。

2.2 大数据隐私保护实施方法

大数据基于云端存储，而云存储本身存在安全威胁。首先，云存储没有清晰定义安全边界，给其采取安全保护措施增加了难度；其次，大数据是在云端的大集中，其及时的大流动、跨界的大融合，以及动态的变化，使得数据传输时的完整性和保密性受到很大威胁；再次，云存储中数据的容错性、可恢复性和完整性也存在一定的安全问题；最后，云存储作为公共数据中心，对多客户连接、高交互性及数据安全保障都提出了更高的要求[6]。目前，可用于云存储中的隐私保护策略包括同态验证策略，盲签名策略和粘性访问控制策略等。

同态验证策略：基于同态映射机制的隐私保护的验证策略。实现了对数据的求和形式验证，保证了传输和计算过程中的数据安全和隐私。

盲签名策略：使得签名者在签名的过程中不能知晓具体的数据内容。通常与基于身份的签名一起使用。

粘性访问控制策略：用户将对数据的要求制定为一定形式的策略文件，与文件一起上传服务器。当数据包被下载之后，需要用户的授权才能使用[7,8]。该策略文件可以使得文件的访问控制和生命周期能够按照用户的意愿执行。

典型的云服务由用户、可信机构、验证者、云服务簇、用户组成。用户需要将本地的大数据存储在云中以减轻本地存储压力，同时委托云进行合法用户对数据的访问，其系统架构如图2所示：

图2 大数据存储框架

首先，需要可信机构对数据进行合理分块，生成加密和签名密钥，保证每一个数据块的可验证性和多副本冗余，然后将数据块和副本分配到不同的云节点并建立对应列表。当验证者对数据的完整性进行验证时，向云服务簇发起“挑战”，并对云的反馈结果进行验证。对于不能通过验证的数据块，定位错误的数据块和所在云，并利用副本进行迅速恢复。云中的数据访问控制由用户对文本进行对称加密（CP-ABE, Ciphertext Policy Attribute-Based Encryption），然后利用访问控制策略对密钥进行加密，将密文与加密后的密钥一起存储在云端。任何用户都可以下载密文，但只有符合属性要求的用户可以解密相应的数据。

完整性的验证是基于GDH困难问题的，在验证的过程中所使用的技术包括双线性映射、非冲突哈希函数、同态映射以及Merkle哈希树。依照云能够提供的服务种类，可以将云分为3个层级，依次是服务层、计算层和存储层[9]，其中，服务层由可信第三方云提供商（HCSP, Honest Cloud Service Provider）构成，可以看作是多个云的组织者，起到请求处理、整合证明以及辅助定位和恢复等作用；计算层由多个云的计算节点构成，该层又可以分为不同的子层，在错误定位时需要对每层节点逐级验证；存储层由云的存储节点构成，存储数据块及副本块。在云存储安全策略中，主要包含两个协议：数据完整性校验协议和数据访问控制协议。

完整性校验协议：主要由挑战、证明、验证3个步骤组成[10]。验证者产生一个数据块验证队列，并对其中的每个块生成一个相应的随机数，构成一个挑战请求，并发送给HCSP。HCSP将该请求下发到每个相应的云，要求其根据存储的数据块计算一个完整性证明。HCSP将所有的证明汇聚为一个单一最终证明，并发给验证者。验证者依据挑战、证明以及本地的消息摘要，计算并判断完整性是否保持。

当验证者反馈给用户完整性出错时，用户首先确定出错的位置，然后根据相应的副本单元恢复出错的数据块[11]。错误定位是多次挑战和反复校验的遍历过程，通过建立数据的Merkle哈希树，对于其验证正确的节点，其本身及所有子节点都被认为是正确的；对于未能通过验证的节点，继续分层遍历其子节点，直到定位至存储层和出错的数据块。依据在初始化步骤中建立的索引列表，找到并验证其副本，对其进行恢复。整个过程可以用图3表示：

图3 数据完整性校验协议

数据访问控制协议：用户首先需要在可信机构进行注册，然后可信机构赋予用户属性及密钥。数据拥有者在本地产生私钥并用其对文本进行对称加密得到文本密文（CT, Cipher Test），然后用基于属性的访问控制策略对密钥进行加密得到密钥密文(CK, Cipher Key)，将CT与CK一起存储在云端。任何合法用户都可以下载密文，但在解密的过程中，只有符合访问控制策略的用户可以获取解密密钥，从而得到明文。在此基础上，可以对密钥和密文进行动态更新，以及对用户属性的分配和回收。具体过程如图4所示：

图4 数据访问控制协议

3 结论

大数据的采集和分析为社会、经济和个人带来了的广阔的应用前景，同时也给隐私保护带了极大的挑战。数据分析和隐私保护是相反相成的两方面。大数据分析涉及到数据采集、数据处理、数据分析及数据表示等各个环节。大数据隐私保护需要考虑的因素众多，包括大数据分析方法、数据属性及相互关系、大数据系统环境。大数据的隐私保护需要综合利用数据管理技术、信息和系统安全技术加以实现。

目前，大数据的隐私保护和安全的理论基础尚需深入研究，相应的技术和工具支撑还有待在实践中不断积累。需要大数据相关的科技人员、企业和政府部门协同工作，在大数据的安全技术、安全服务等级协议、认证技术等方面，建立一套与之相适应的保障体系。

[1] 冯登国, 张敏, 李昊. 大数据安全与隐私保护. [J]计算机学报. 2014, 37(1): 246-257.

[2] V. M. Schonberger, K. Cukier. Big data: a revolution that w ill transform how we live, work and think. Boston: Houghton M ifflin Harcourt, 2013.

[3] S. Marchal, X. Y. Jiang, R. State, et al. A big data architecture for large scale security monitoring. IEEE International Congress on Big Data. 2014, pp. 56-63.

[4] R. X. Lu, H. Zhu, X. M. Liu, et al. Toward efficient and privacy-preserving computing in big data era. IEEE Network. 2014, pp. 46-50.

[5] L. Liu, J. Lin. Some special issues of network security monitoring on big data environments. IEEE Conference on Dependable, Autonom ic and Secure Computing. 2013, pp. 10-15.

[6] M. C. Mont, S. Pearson, P. Bramhall. Towards accountable management of identity and privacy: sticky policies and enforceable tracing services. IEEE Conference on Database and Expert Systems Applications. 2003, pp. 377-382.

[7] 裴新, 虞慧群. 安全策略驱动的资源分割技术. 中国科技论文在线, 2014.

[8] Y. Zhu, H. X. Hu. Cooperative provable data possession for integrity verification in multicloud storage, IEEE transactions on parallel and distributed systems. Vol. 23, 2012, pp. 2231-2244.

[9] G. A teniese, R. C. Burns, R. Curtmola, J. Herring, L. Kissner, Z. Peterson, D. Song. Provable data possession at untrusted stores, ACM CCS’07. 2007, pp. 598-609.

[10] K. Bowers, A. Juels, A. Oprea. HAIL: A high-availability and integrity layer for cloud storage. Proceedings 16th ACM Conference on Computer and Comm. Security. 2009, pp. 187-198.

[11] Y. Kan; J. Xiaohua, Expressive, Efficient, and Revocable Data Access Control for Multi Authority Cloud Storage. IEEE Transactions on Parallel and Distributed Systems. Vol. 25, 2014, pp.1735 – 1744.

Big Data Analytics and Privacy Protection

Yu Huiqun, Pei Xin, Fan Guisheng
(Business School, University of Shanghai for Science and Technology, Shanghai 200093, China)

Big data brings big benefits for innovative businesses and new community services. However, privacy arises as a core concern because efficient big data analytics makes it possible to learn far more than most people anticipated. In this paper, big data analytics and its supporting framework are presented. Big data security and privacy protection techniques are discussed. Finally, a cloud storage based scheme is proposed for big data privacy protection.

Big Data Analytics; Privacy Protection; Security; Cloud Computing

TP393

2014.10.11）

国家自然科学基金资助项目（61173048, 61300041）

虞慧群（1967-），男，华东理工大学信息学院，教授，博士，研究方向：软件工程、可信计算、面向服务软件与云计算，上海 200237

裴新（1988-），男，华东理工大学信息学院，博士生，研究方向：软件工程，云计算与信息安全，上海 200237

范贵生（1980-），男，华东理工大学信息学院，副研究员，博士，研究方向：软件工程，面向服务计算，云计算，形式化方法，上海 200237

1007-757X(2014)11-0001-04