摘要:随着信息时代的发展,数据量的规模迅速增长,数据的类型也变得复杂化,数据中往往包含了很多具有重要价值的信息,然而现阶段数据隐私保护技术上的不完善,无法切实的对大数据环境下数据隐私进行加密保护,使得大数据的数据隐私加密的算法的优化改进逐渐成为研究的重要课题。该文就以大数据环境下数据隐私加密算法的原理及数据隐私加密算法的优化情况进行探讨,对其现状及发展趋势进行分析。
关键词:大数据;数据隐私;隐私保护
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)04-0018-02
随着互联网+与大数据时代的到来,以云计算和大数据为代表的信息技术深刻的改变了我们的生活。大数据环境的不断发展,使得数据的存储与计算、发布和共享等都有了极大的便利。据统计,现阶段的互联网用户已经突破了30亿,互联网全球渗透率已经高达43%,越来越多的网络用户愿意将自己的个人数据提供给服务提供商,例如医疗机构、银行以及大型的网络企业等。隐私加密保护技術是防止隐私信息泄露的重要保障,通过对大数据的数据隐私加密算法进行研究,可以对现阶段的数据隐私进行更好的了解和掌握。
1 大数据环境下数据隐私加密保护概述
1) 大数据隐私保护方法
隐私信息一般是指用户不愿公开的与个人敏感事项有关的数据信息,例如,用户的家庭关系、个人教育信息以及工作经历等。这些数据又是由多个元组所组成的,每一个元组又同时包含多个用户属性。用户属性可以按照特征分为以下三类:一是准标识符,需要多个属性进行组合才能共同对用户的信息进行标识,即不能唯一标识一个用户身份的属性,例如,生日、地址等;二是显示标识符,与准标识符相反,它可以标识出一个用户的属性,例如,姓名和证件号码等;三是敏感属性,主要包括用户不愿意公布的信息,包括个人隐私的薪资和健康状况的等。
2) 隐私保护技术
现阶段主要的隐私保护技术主要有三种。
一是基于数据匿名的隐私保护技术,它是通过对数据进行移植和泛化等来对数据进行隐私保护,针对大数据环境下数据的多维多源性和大规模等特征,可以很好的进行针对性的操作。通过分布式计算模型设计以及多线程匿名技术等,大大的提高匿名的效率,起到数据保护的作用,主要的代表性技术有l-diversity 和 t-closeness 等。
二是基于数据失真的隐私保护技术,这种技术可以保证在用户的一些数据的总体特征或者属性不变的情况下对数据进行干扰,干扰的强度与数据失真的强度成正比:数据失真越大,隐私保护强度就越高。传统的有差分隐私保护技术,通过对数据添加噪声来进行隐私保护,但同时也会出现数据可用性较低的情况。
三是基于密码学的隐私保护技术,通过对数据进行加密的方式来保护隐私信息,是现阶段作为流行的一种技术,隐私的保护强度较高。在大数据环境下,数据隐私的加密算法逐渐受到各方面的关注,围绕可加密算法所提出的新理论、新方法和新技术等大大的提高了数据隐私加密的安全性和可靠性。
3) 隐私保护技术的性能评价指标
在大数据环境下的数据隐私加密保护中,数据的存储和计算等都是通过对云服务器来进行处理的,在对大数据的隐私加密技术进行评价时,可以从以下指标来进行测量:
一是隐私保护强度,主要是通过隐私信息泄露的风险1/R(s)来反映的,隐私泄露的风险越小则说明了保护的强度越高。
二是数据的可用性I,这主要是通过对隐私保护技术处理后的数据的缺损来进行反映。数据的缺损性越高,则所代表的数据的可用性就越低。在对数据的可用性进行度量时可运用的指标有分辨率度量DM,数据分类度量CM以及数据信息损失ILOSS等。
三是数据隐私加密的开销成本C,包括数据计算开销,指隐私保护技术处理数据时需占用的计算资源;数据通信开销,指在云计算环境中用户与云端进行数据传输时的通信量;数据存储开销,指云端存储经隐私保护处理户的数据空间大小。具体的原理可由下列公式来说明:
其中E表示隐私保护技术的评价值,α、β、为权重系数,并且通过E整体来评估隐私数据的性能,权重系数可以由用户的具体需求来进行个性化的设定。
2 大数据环境下数据隐私加密算法的提出必要性
随着大数据环境的发展,越来越多的敏感数据被存储在云中,包括电子邮件、私人通信记录以及企业的重要文件等。虽然借助云服务器所提供的高质量数据存储服务为用户使用数据提供了极大的便利;为了方便科学研究或者其他方面的运用,这些服务提供商通常采用私有云、混合云或者公有云的方式进行数据的存储和管理,但是这种方式也会使得用户的个人数据的物理控制权与所有权相分离。对于不经意间将隐私数据上传到不可靠的云服务商来说,增加了隐私被泄露的风险;同时,一些黑客采用数据挖掘等方式来对数据中的隐私进行收集与传播,导致用户的权益得不到应有的保障。现阶段将数据加密再进行上传是一种比较常见的方法,但是在经过重重的加密后,数据的原有特性可能出现变化。特别的是,随着大数据环境下数据量的不断增加,数据的加密显得尤为复杂,当用户需要某些数据时,无法直接在密文中对数据进行筛选,无法直接得出自己想要的信息,很容易造成时间和带宽的浪费。
对于以往的数据隐私加密算法而言,采用的是直接对数据进行加密,没有注重对数据层与层之间的进行划分,对于涉及到的一些较为复杂的问题,不能够保证数据加密的准确性。在这种情况下对大数据环境下的数据加密算法进行改进具有很大的必要性,特别的是现在所流行的OPES+理论思想的运用,将隐私数据映射为数值,并且通过位置排序等方式将其划分成桶,通过加强获取的加密函数为依据进行隐私数据的优化保护,使其成为了现阶段数据加密保护的一种比较流行的方式。
3 大数据环境下数据隐私加密算法
大数据环境下数据隐私加密保护的过程中,主要是对数据进行加密算法和加密秘钥等方式将其从明文转变成为密文,在通过解密的方式将其从密文来转变成为明文,从而可以有效的对数据进行加密保护。在不改变大数据环境中的值的前提下有效的处理大数据环境下数据更新快以及数据量大的问题,通过对数据进行组建索引的方式,防止用户数据信息的泄露。以下将用公式的方式来阐述大数据环境下数据的加密与解密过程:
1) 加密过程:(其中I表示加密迭代次数的变量)
从上述公式或者变量可以看出,大数据环境下的数据隐私加密保护原理,可以为大数据环境下的数据隐私加密提供切实可行的理论基础,最大化的提高数据保护的效果。
4 大数据环境下数据隐私加密算法的優化建议
虽然当前采用的数据隐私加密算法对于促进数据的隐私保护方面具有重要的重要,可以最大化的保障大数据环境下的数据安全问题,但是大数据环境具有数据量大且复杂的特点,对于数据的保护的要求较高,而现有的数据加密保护隐私的算法也或多或少的存在一些不足,必须要进行不断的改进才会使其保持应有的活力,更好的实现对用户的隐私数据进行保护。以下便提出了一种基于改进保护序加密算法的大数据环境下的数据隐私加密算法。
1) 大数据环境下的隐私加密
大数据环境下的数据隐私加密的首要步骤就是运用OPES+的理论将隐私数据转换成数值进行表述,并对已经排列好的数据按照桶来进行划分,通过这种均匀的划分方式将各个桶内点的数量控制在一个低于给定的阈值上,从而保证了数据加密的有效性。
在这个过程中,首先就是要做好数据的经纬度的表示,可以以度分秒的形式来进行表示。OPES+的理论为大数据环境下将隐私数据转换从数值提供了很好的理论基础。其次,需要将排列好的位置数据按照桶来进行划分,保证其分布空间的安排合理有序。可以假定以字母P代表明文空间中的原始数据,则可以将P划分为P={
其中,Z表示M(P)的范围参数,表示加密的二次项系数。
由上述公式可以看出,在对大数据环境下数据隐私优化的加密保护过程中,运用OPES+的理论可以将大数据环境下的隐私述转换成数值进行表述,通过将其划分成为桶,可以保障数据在排列分布时的有序性,既保证了述分分布均匀,又在一定程度上将桶内数据的点的数量进行了限制,使其小于特定的阈值,并且还可以最大化的保证其顺序的不变,为实现大数据环境下的数据加密奠定好了技术保障。
2) 大数据环境下数据隐私加密的优化原理
前面具体的阐述了对数据加密的过程的算法运用,以其为基础,以获取的加密函数为核心,下面将具体的阐述大数据环境下的数据优化加密原理,对具体的算法进行改进,实现数据的优化处理。
用下式表述数据隐私加密保护问题的约束同构的线性优化问题
其中,g(z,c)表示目标函数的参数,optξ表示数据加密的目标函数,f(z,a)表示隐私加密数据的决策变量。
在对大大数据环境下的数据隐私加密算法的优化设计中,最重要的是要保证数据隐私的安全性,要做好措施保证数据隐私的不被泄漏,通过检查各种非基变量的检验数,达到最优解,以此来实现数据加密保护算法的不断优化。
4 结束语
从以上的研究可知,随着大数据环境的不断发展变化,对数据的隐私加密算法的研究需要不断的与时俱进,要对其进行进一步的探索,不断提高其适用性,使其更好的符合大数据环境下数据的需求与发展变化。
参考文献:
[1] 曾凌峰.大数据环境下新的数据加密算法研究[J].科技通报,2017(6):205-208.
[2] 张少芳,赵李东.IPSec VPN 中数据加密方式探究[J].电脑编程技巧与维护,2013(4):78-79.
[3] 朱锦明.计算机网络通信安全中数据加密技术的应用[J].科技与创新,2014(8):129-130.
[4] 江伟.计算机网络通信安全中数据加密技术的应用探析[J].建筑界,2013(14):64-65.