数据挖掘隐私保护算法研究

2017-12-30 04:17张毅哈尔滨市信息化建设项目管理中心周佩黑龙江省财政信息中心许斌东北农业大学
数码世界 2017年10期
关键词:项集原始数据扰动

张毅 哈尔滨市信息化建设项目管理中心 周佩 黑龙江省财政信息中心 许斌 东北农业大学

数据挖掘隐私保护算法研究

张毅 哈尔滨市信息化建设项目管理中心 周佩 黑龙江省财政信息中心 许斌 东北农业大学

目前,随着各领域的信息量暴涨,致使数据挖掘方面既存在机遇又存在挑战,并且这种爆破式的增长导致用户数据挖掘与储存的安全隐私产生了极大的隐患。因此,对数据挖掘隐私保护成为了当前亟待解决的问题。本文主要对数据挖掘隐私保护的算法进行研究,通过扰动算法以及关联规则隐藏算法两种算法进行对数据挖掘隐私保护算法进行研究,以期使问题得到解决。

数据挖掘 隐私保护 算法研究 关联规则隐藏算法

随着网络科技的快速发展,各种信息、资源能够达到共享,使人们接受各类信息更加快捷方便,与此同时,信息量的暴增以及网络的透明化也使用户的数据挖掘隐私保护受到了威胁,用户机密隐私信息遭到泄漏。数据挖掘的目的是为了对数据信息进行科学分析;另外,对需要保护的重要数据信息应该采取修改或删除的方式来进行保密。本文主要对扰动算法以及关联规则隐藏算法进行研究和介绍,对数据挖掘隐私保护算法的趋势进行分析。

1.数据挖掘隐私保护算法的研究

1.1 扰动算法

此算法主要包括随机扰动以及乘法扰动两个方面。前者的主要是通过加法的运算方法来对原始数据进行噪声的添加,并且这种添加方式为随机添加,除此之外,随机扰动的算法还包括k-mean算法、数据转换矩阵算法以及多重随机算法等。而后者则包含投影扰动和旋转扰动两种算法。

1.1.1 随机扰动

此算法通常是指针对已知数据中加入一定程度的噪声,使单个数据恢复成原始数据的可能性消失。比如若存在一个原始数据r,在r中添加一定程度的噪声d,从而得出附带噪声的数据s,可表示为s=r+d。可将s整体化,并以相应的算法,针对s实施数据挖掘,并对r进行的数据挖掘所产生的结果进行推断。总体来讲,噪声的强度越高,隐私保护的安全性就越强,但与此同时数据挖掘的难度系数就越大,并且还会造成挖掘在准确性方面变差,所以需要对隐私保护的强度以及数据挖掘的准确程度的平稳性进行维持。

除了对数据添加噪声之外,还可以对矩阵中数据进行随机转化,称之为随机扰动算法。相关研究人员还研究出对信号进行处理的扰动算法,就是将随机项添入原始数据所形成的矩阵中,并通过另一矩阵与之进行相乘来进行干扰,然后将干扰后的数据进行发布。在数据发布后,客户端需要对已发布的数据进行挖掘,并将挖掘的结果返回至服务器中,待服务器将此结果进行有效的处理后,才能够将真实的结果进行返回。

1.1.2 乘法扰动

乘法扰动算法主要包含投影扰动和旋转扰动两种算法。其中,投影扰动主要是使数据在空间上由高维转向低维的一个映射过程,最终获得全新的数据集。而旋转扰动的定义可按G(X)=RX这个方程式进行表示,在这个方程式中,R代表正交矩阵,X代表源数据矩阵,G(X)则代表数据被扰动后产生的矩阵。相关研究人员层得出研究结果,旋转扰动能够将原始数据进行分成若干个子数据,并且这些子数据相互独立,通过对不同随机正交矩阵进行使用,然后对分割后的各子数据进行旋转扰动,能够有效抵御通过独立分量进行分析所形成的攻击,效果较为良好。

1.2 关联规则隐藏算法

这种算法一般具备一定的条件,这些条件就是数据项已给定,并且相应的记录和数据项都在集合T之中,通过这些条件能够找到各数据项间存在的关联性,从而使数据项相应的置信度以及支持度高于用户提出的最小置信度阈值和最小支持度阈值。这种算法大多都采用这样一种策略,其是将自身的管理规则隐藏的主要任务进行分解,主要分解为两个较为主要的子任务,这两个子任务分别为频繁项集的产生以及规则的产生,前者的主要目标是使最小支持度阈值能够得到满足的所有项集被发现,也就是说使事务数据库之中全部的频繁项集能够被找出;后者的主要目标则是将频繁项集之中包含的全部高置信度的关联规则能够被发现。

对于关联规则隐藏算法较为常用的方法主要有三种:

(1)启发算法:这种算法主要是根据经验规则来进行解决问题的算法。

(2)边界算法:这种算法主要是根据数据集之中存在的不频繁算法和频繁算法之间的边界存在的原始边界来进行实现的。

(3)精确算法:这种算法使规则隐藏的全过程成为一种线性规划或是整数规划来使问题得以解决。与启发算法相比,此算法能够使数据的隐藏更加具有优势,但计算成本稍高。

2.结束语

综上所述,数据挖掘往往与数据的隐私保护往往是相互对立的,但用户的主要目的就是使自身的数据隐私得到保护,因此,需要克服数据挖掘的难点,通过科学的算法来完成数据的挖掘。本文中所提及的两种方法在实际应用中,都具有良好的效果,具备数据挖掘隐私保护的水平,可以推广应用。

[1]万芊山.基于已知信息独立分量分析和局部旋转扰动的数据挖掘隐私保护研究[J].科学与财富,2014,11(4):247-248.

[2]方跃坚,朱锦钟,周文.数据挖掘隐私保护算法研究综述[J].信息网络安全,2017(2):6-11.

张毅(1982.12—)男,汉族,河北省高阳县人,大学本科学历,工程师,研究方向:计算机软硬件、网络工程。周佩(1982.11—),男,汉族,山东省福山县人,硕士研究生学历,高级工程师,研究方向:计算机信息系统分析与应用。许斌(1982.11—)男,汉族,黑龙江省嫩江县人,大学本科学历,助理研究员,研究方向:通信工程、节能减排。

猜你喜欢
项集原始数据扰动
一类五次哈密顿系统在四次扰动下的极限环分支(英文)
基于增强型去噪自编码器与随机森林的电力系统扰动分类方法
基于共现结构的频繁高效用项集挖掘算法
扰动作用下类岩石三轴蠕变变形特性试验研究
带扰动块的细长旋成体背部绕流数值模拟
受特定变化趋势限制的传感器数据处理方法研究
基于矩阵相乘的Apriori改进算法
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
不确定数据中的代表频繁项集近似挖掘
对物理实验测量仪器读数的思考