吴超超+李伟春
摘要:近年来,信息技术发展迅速,且被广泛应用到信息、通讯、工业生产、企业营销等社会生产、生活的各个领域。作为信息技术的重要组成部分,数据挖掘技术不仅关系着人们对各类信息数据的收集和利用情况,而且对于信息技术的整体发展也具有重要的影响。为了使信息技术下人们的隐私得到更好的保护,本文从数据挖掘技术的角度出发,通过对数据挖掘技术的相关概念进行分析,在结合其在隐私保护方面技术分类的基础上,对基于隐私保护的数据关联规则挖掘展开了深入研究。
关键词:隐私保护;数据挖掘;数据关联规则
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2015)05(c)-0000-00
计算机信息时代的来临在为人们的日常生产、生活带来较大便利的同时,也对个人、群体以及相关组织、机构的隐私产生了较大威胁,因隐私泄露而导致的社会冲突也在不断加剧,故为了在大数据时代下,进一步保护人们的隐私,本文对基于隐私保护的数据挖掘技术做出了系统的分析和研究。
1 数据挖掘技术概述
数据挖掘又称为数据采矿,是通过相关算法在大量的数据中搜索并找出隐藏在其中各类信息的技术。数据挖掘在研究过程中主要借助了以下两方面领域的研究思想,首先是统计学的抽样以及估计与假设检验,通过在大量的数据中挑选出可能蕴含可用信息的数据,进而对数据中蕴含的信息进行假设和检验分析;其次是基于人工智能识别与计算机网络学习的搜索算法,通过对样本数据进行优化、计算和处理,进而得到所需信息[1]。然而,随着数据挖掘技术的日益发展,使得在发现知识和信息的同时,人们的隐私权也收到了严重的威胁。因此,数据挖掘工作者有必要也必须在进行数据挖掘的同时,做好数据源以及相关挖掘结果的隐私保护工作。
2 基于隐私保护的数据挖掘分类
不同的分类标准所对应的隐私保护的数据挖掘技术也存在较大差异,以基本策略为依据,可将基于隐私的数据挖掘方法分为:(1)数据扰乱法。通过在研究过程中对数据进行随机变换,或对数据进行离散与添加噪声,以达到对原始数据进行干扰的目的,其代表算法为MASK法;(2)查询限制法。通过对数据进行隐藏、抽样和划分,以达到尽量避免数据挖掘者拥有完整原始数据的目的,在此基础上,借助分布式计算或是概率统计,获得所需的数据挖掘结果。但在利用查询限制法进行隐私保护时,经常存在一个问题,即所提供的数据全部为真实的原始数据,虽然不完整,但也会降低对隐私的保护效果。以隐私保护的结束为依据,可将相关的数据挖掘方法分为:(1)启发式技术。启发式技术又称为扫描技术,通过将数据挖掘的经验和相关知识移植到检查病毒的软件当中,进而查找出可能存在侵犯用户隐私的恶意程序或代码;(2)密码技术。密码技术是研究如何较为隐蔽地传递信息的一门技术,通过应用分组密码和流密码等相关技术,从而对陌生的数据访问请求进行拦截,以达到保护隐私的作用;(3)重构技术。通过利用数据重构技术,通过结果转换以及格式变换和类型替换等方式对数据空间的结构和格式做出调整,在实现异构数据与多源数据有效融合的基础上,降低隐私数据被篡改或盗用的可能[2]。
3 基于隐私保护的数据关联规则挖掘分析
3.1集中式数据隐私保护
集中式数据隐私保护的关联规则挖掘技术在隐私保护中的应用主要体现在源数据保护和规则隐藏两方面。在源数据的保护方面的数据挖掘技术主要包括了基于数据扰乱以及分布重构关联规则算法,即当前应用较为广泛的MASK算法,此算法通过对数据进行扰乱以及分布重构,来达到隐私保护关联规则挖掘的目的。具体方法为:通过将原始数据作为保密数据(保密目标),使其服从于未知分布U,引入一组扰动数据,令其分布特定分布R,并输入随机扰动后的数据;对随机扰动后的数据进行存储,另引入一组扰动数据,使其仍然服从于特定分布R,作用后,将原始数据U输出。在此过程中,加入随机扰动数据后,在降低了侵犯隐私行为成功的可能性的同时,也使得数据挖掘工作人员获得了其想要得到了目标数据[3]。
在规则隐藏方面,则主要体现在Alog系列的相关算法上,例如MinFIA以及MaxFIA和Native算法等,需要说明的是,各类算法所要隐藏的同一数据库中的不同敏感规则,其彼此间是相互独立的,其大都通过借助降低置信度以及支持度来达到对相关数据挖掘规则进行隐藏的目的。近年来,关于集中式数据隐私保护的规则隐藏方面的研究颇受关注,相关的规则隐藏方法还包括:(1)数据替代法,通过以随机数据代替原始数据,以达到降低隐藏规则中项目支持度与可信度的目的,此外,对数据挖掘后所残留的非敏感性规则还具有较小的影响,进而从整体上提高所挖掘的数据的质量;(2)删除项与增加项的结合。通过将删除项和增加项进行随机结合,从而使原有规则的支持度发生变更,此方法的好处在于,所产出的规则相异度与规则丢失率能够得到有效降低,从而达到对目标数据进行保护的目的。
3.2分布式数据隐私保护
分布式环境中,用户隐私关联规则挖掘的关键在于对全局频繁项集进行计算,同时,加强对加密技术的应用,以确保相关隐私信息不会外泄。就现阶段而言,分布式数据关联规则的隐私保护方法主要包括了安全交集大小运算、安全求并集运算以及安全与运算等算法。而分布式数据的隐私保护主要包括两方面,分别为水平分布下隐私保护的关联规则挖掘与垂直分布下的隐私保护关联规则的挖掘。
在水平分布的隐私保护关联规则挖掘方面,除了需要对结果进行正确挖掘外,还需要对实施保护的相关开销以及通信代价与安全强度进行计算。例如,可先运用数学方法对不同分布站点的数据进行变换,而后,恢复全局计数项集的支持度,以此,来搜索并发现数据挖掘时的全局频繁集,进而找出并确定关联规则[4]。在垂直分布的隐私保护关联规则挖掘方面,在同一时间内,以不同站点的数据为依据,对所有项集的计数进行计算,进而找出超过阀值的支持度全局频繁集,以达到对数据进行保护的目的。
结论:本文通过对数据挖掘的概念以及隐私保护的必要性进行分析,在对不同依据下数据挖掘的隐私保护方法进行分类的基础上,分别从集中式数据隐私保护和分布式数据隐私保护两方面对基于隐私保护的数据关联规则挖掘方法做出了全面的论述和分析。研究结果表明,源数据与隐藏规则保护方法能够较好地满足集中式数据隐私保护的要求,而以数学方法和全局频繁集算法为主的水平分布与垂直分布隐私保护能够加好地实现分布式数据的隐私保护。可见,未来加强对基于隐私保护的数据挖掘技术方面的研究,对于在保证用户隐私的前提下,提高数据挖掘效率,具有重要的历史作用和现实意义。
参考文献:
[1]李学国,冯刚.面向社交网络隐私保护的数据挖掘方法研究[J].科技通报,2013,01(18):128-131.
[2]张海涛,黄慧慧,徐亮,等.隐私保护数据挖掘研究进展[J].计算机应用研究,2013,12(15):3529-3535.
[3]崔春英,乔蕊.基于隐私保持的分布式数据挖掘技术研究[J].电脑编程技巧与维护,2012,10(09):52-53.
[4]李玲娟,郑少飞.基于数据处理的数据挖掘隐私保护技术分析[J].计算机技术与发展,2011,03(09):94-97.