基于面向隐私保护的数据挖掘技术分析

2017-01-10 04:32陈昊

世界家苑 2017年12期

陈昊

摘要：当前我国科学技术研究力度正在不断加大，其中数据发掘技术也得到了更加广阔的发展空间，在保证书数据结果精准的同时，还要保证隐私安全。本文将从数据挖掘技术发展概述出发，分析其中信息数据预处理、关联规则技术、互联网行为预测、聚类分析、网络行为分类等技术，给数据的高效处理提供理论帮助。

关键词：隐私保护；数据挖掘；信息技术

引言：面向隐私保护的数据挖掘技术衍生出来的根本原因是由于网络活动行为多样性使得数据运行环境更加复杂，政府、企业想要实现运营决策时的大量数据分析就必然需要挖掘出对应原始数据，此类数据中往往会涵盖很多私密性较强的内容，因此需要融合隐私保护理念，此类技术涉及到多种算法，需要逐一分析。

一、数据挖掘技术发展概述

新形势下的数据挖掘技术通常被称作“数据采矿”，应用时的根本原理就是利用某种或多种制定计算方法，在庞大网络数据库中检索出目标信息，且检索范围包括很多很多隐藏数据。技术人员在研究此类算法时，首先从统计学角度来实现对数据信息的模拟检验以及预计估计，保证数据库中隐藏的信息咨询的踪迹能被查询，实现隐藏的数据信息进行检验、分类。然后运用当前较为成熟的人工智能识别系统以及网络计算机自动化学习的联合计算方法，对已有数据样本采取模拟、分析、优化，最终掌握目标资料。数据采矿技术已经随着时代发展进程的加快变得越来越全面，应用也更加深入。从个人隐私保护以及信息泄露角度来看，在进行数据挖掘的同时，信息安全也承受着巨大的风险，因此当前一种将隐私保护定义为基本理念的数据挖掘技术正在推出。

二、面向隐私保护的数据挖掘技术分析

（一）信息数据预处理

当前我国研究的信息数据预处理技术主要是利用Apriori技术原理，构建出一种面向隐私保护的数据预处理方法，该方法能够进一步解决数据源头不信任挖掘请求问题。其功能性、综合型都有了更加全面的设计，当前数据采矿技术的预处理功能涉及到：信息集成、数据整合、痕迹清除、数据处理流程简化以及数据精炼。预处理的概念源自与“概念树”中的精炼数据法、知识发现、统计分析等属性筛选以及遗传计算手段。其处理方式与传统模式的区别在于：传统数据管理体制中的数据预处理操作无法做到对不精确信息采取整合、清理、转换等处理，数据质量得不到保障。而当前这种面向与隐私保护领域的数据预处理可以做到将高精准度的信息或准确信息进一步转化为模糊化数据后再进行识别、处理、整合。

（二）关联规则技术

在运行面向隐私保护的关联规则算法时，传统形式中的apriori算法无法实现直接应用。因此想要在大数据时代中提高处理效率，技术人员还需要对相关内容进行优化。实际上Apriori算法运行环节较多，且内容复杂，需要借助并融合剪枝算法的优势。同时还可以把离散和连续等多种类型的数据设计理念应用在关联规则算法构建中，从离散化方法、统计学方法等角度去展开关联规则技术的研究。

（三）互联网行为预测

经济社会的发展推动着计算机信息技术的日渐成熟，新形势下人类生活已经可以实现在虚拟化的网络环境进行各种类型的数据交流活动，所以这也造成了网络大环境下的数据行为变得更加复杂，因此相关学者与技术人员近几年一直在致力于研究出能够给广大网络用户提供针对性服务的数据挖掘技术。神经网络具有良好的自我学习、模仿的能力，所以一些不确定系统的预测技术都可以应用在神经网络模型建立当中。将样本分为训练样本和测试样本，对训练样本采取进一步处理，并以此数据为基础寻找类别属性和普通属性之间的关联，然后用这种关联来预测其他样本的类别属性。传统神经行为预测算法在执行过程中，受到技术限制必然会从一定程度上导致用户隐私信息的外泄，而采用安全多方互联网行为预测计算能够有效降低神经网络学习时用户隐私信息发生泄露的风险。

（四）聚类分析算法技术

这种基于隐私保护理念而研究出来的数据挖掘技术能够实现对聚类算法的完善化执行，分析算法思想、关键技术的优缺点，对当前已有的聚类算法类型进行分类与调整，从正确率和运行效率两方面对一些典型的聚类算法进行模拟实验，并对得到的基于划分的模糊聚类算法采取进一步的综述和评价。目前模糊聚类数据发掘算法得到各行业广泛应用的根本原因主要是它对数据的比例变化具有稳定性。

（五）网络行为类型分層

用户行为在当前网络环境中纷繁多样，每个个体所表现出的属性以及特点均有很大差别，因此在进行数据挖掘时也需要以此为基础设计出不同类型的技术来进行对数据的操作。为了保证挖掘精度较好，且实现隐私保护，对用户行为分类前就要按照一定规则设计挖掘流程，在其中要深入考虑到隐私保护的具体化、算法、适应情况、执行效率等多方面因素。从传统的应用情况我们可以发现基于隐私保护的挖掘技术存在很多疏漏：1.传统算法无法实现对原始真实数据的私密保护，用户个人隐私得不到有效保障，仍有一定程度上的隐私信息泄露风险；2.传统算法对原始数据有着较严格的概率分布需求，所以运行时会出现计算难度较大、执行效率较差、负载情况不平均等情况；3.某些传统算法对环境适用性较低，在特定环境中运算效率较低；因此目前我国研究人员对基于隐私保护的分类挖掘算法进行完善时，重点针对以下几个方面：1.确保算法精度提高，并简化运算复杂度的基础上，尽快加强对隐私保护的全面化；2.加强算法对环境的适用效果，完成在全体环境中的数据采矿处理。

结论：综上所述，当前我国信息化建设力度持续加大，各行各业对于网络依赖性也在不断加强，虽然便捷的网络技术给人们的生产生活提供了更加便捷的服务，但是虚拟性也会衍生出较大的安全风险，想要保证社会、国家发展的稳定性，就需要积极对网络信息进行监控、管理，数据挖掘技术也因此被研究出来。为了减少挖掘过程中的出现的信息泄露，就需要不断研究出更加适用隐私保护的数据挖掘算法。