数据挖掘中数据预处理的研究

2015-08-06 11:56
赤峰学院学报·自然科学版 2015年5期
关键词:数据挖掘预处理噪声

胡 秀

(荆楚理工学院 计算机工程学院,湖北 荆门 448000)

1 引言

随着科学技术不断发展,计算机信息技术在各个领域中得到了广泛应用,尤其是在原材料采购、金融、通信等方面,数据存储和数据处理等技术更是被各个企业用来记录企业运营过程中各种信息数据的记录和处理,以方便日后的企业财务管理和信息核对等操作.随着时间的推移,各个领域的不同企业的数据信息存储量越来越大,过量信息的处理是各个信息处理行业不得不面对的问题.同时由于这些信息对于日后用户信息分类、信息推送、企业的决策等方面起着非常重要的作用,不可能人为地删减信息来减少数据处理工作量,所以如何从爆炸式的数据信息中及时地提取有用的数据进而为企业的各种信息分类和决策提供合理、科学的数据决策依据,已经成为了我们当前面临的亟需解决的重要课题.为了能够使海量数据成为宝贵的资源,必须采取数据挖掘技术手段,结合相关的业务决策和企业战略发展计划,才能使企业在经济全球化的浪潮中在竞争日益激烈的环境下夺得先机而立于不败之地.

2 数据挖掘及其过程介绍

数据挖掘的英文名称为Data Mining(DM),是从企业的大型关系型数据库中或数据仓库中提取一些人们感兴趣的潜在有用的信息数据处理过程,是一门从大型关系型数据库或数据仓库中提取隐含的预测性信息的新技术.

图1 数据挖掘逻辑结构示意图

数据挖掘的数据来源是数据挖掘技术处理的大数据,常见数据挖掘的数据来源于有关系型数据库、事务型数据库等,然后经过一定的清理和集成的过程以数据仓库的形式存储起来,为数据挖掘提供数据源.数据挖掘的逻辑过程是利用人工智能的、机器学习的数据挖掘技术对源数据进行数据处理并提取对企业决策有用的数据过程.数据挖掘的过程是一个完整的系统,是结合了多项技术完整的一个整体.从数据源开始,根据数据的挖掘对于大数据处理的逻辑过程大致可以分为以下:目标数据样本的准备、数据挖掘过程以及挖掘结果分为三级,包含多个处理步骤,如图1.所示,为数据挖掘的逻辑过程结构示意图.

由图1可知,整个数据挖掘的过程包括从最原始的数据开始数据选取的过程,这里的原始数据一般指的是存在企业各种信息管理数据库中的海量数据,是杂乱无章的、不能以专业的良好的形式展现出来的原始数据.通数据选取的过程,主要是选择能够参与数据挖掘过程的数据,从而生成目标数据.得到目标数据之后,就需要对其进行数据预处理的过程,囊括了数据清洗(Data Cleaning)、数据变换(Data Transformation)、数据集成(Data Integration)、数据简化(Data Reduction)等数据处理过程,主要包括了消除噪声数据、推导计算缺值数据、消除重复记录、按成数据类型转换等数据操作.得到预处理数据之后,就可以利用数据挖掘的技术,对这些数据进行智能挖掘和分类的过程,主要是基于某种思想,设计相应的算法,最后通过对预处理之后的数据进行数据挖掘算法的处理,最终是生成而分类的数据.当然,这时数据挖掘的过程并没有结束,这些数据只是以某种数据挖掘的思想进行分类存储,并没有以具有现实意义的形式展现出来,所以此时还需要开发人员,基于自己的业务逻辑和需求,开发相应的分析或评估功能,对数据挖掘之后的数据进行形象显示,从而形成对企业有用的知识.

3 数据挖掘中的数据预处理

数据预处理是数据挖掘过程中必不可少的一部分,进行数据预处理过程的主要原因是因为从原始数据选取的目标数据,是以原有的数据库初始定义的格式和结构进行存储的数据,存在很多空白数据、重复数据、复杂数据、不可用数据等,这些数据对于数据挖掘来说非常不适用,而且会增加数据挖掘的复杂度,所以需要数据预处理的过程来对目标数据进行预处理,从而生成预处理之后的数据.由图1.可以看出,数据预处理的过程对于数据挖掘来说是非常重要的,是为后期数据挖掘过程奠定坚实基础的过程.常见的数据预处理的过程包括,数据清洗(Data Cleaning)、数据变换(Data Transformation)、数据集成(Data Integration)、数据简化(Data Reduction)等内容.其中数据清洗(Data Cleaning)的主要操作就是在根据一定的原则和规定对目标数据样本进行消除无关数据或者噪声数据的操作,包括处理数据样本内的重复数据以及缺省数据等.数据变换(Data Transformation)的操作主要是对处理后的数据进行降维处理,从而消除原始特征力度无效属性,找到真正有用的特征,以方便后期数据挖掘的处理和计算.数据集成(Data Integration)的操作主要是合并目标数据样本内存在的异构数据,主要包括数据的选择、不同数据库文件之间的数据冲突以及不一致等问题的处理操作.数据简化(Data Reduction)的过程是在挖掘目标的有用特征以及对数据自身内容理解的基础上,尽量保持目标数据样本原有的数据特性的基础上,最大限度地对目标数据样本进行精简处理的过程,主要包括数据样本的参考属性选择以及数据抽样的数据处理.

3.1 数据预处理主要方法

数据预处理的主要方法是填充目标数据缺失值、消弱噪声数据、数据集成等.

在我们设计信息管理系统伊始,会考虑到各种各样的问题,所以在设计数据存储表时会牵涉到各方面的信息,而在实际的应用过程中,之前设计的数据表的内容有很多时候并未有实际的数据,而是使用了缺失值存储,如果这些数据作为数据挖掘处理,会带来诸多不便,所以对于这些缺失值的处理,可以直接使用人工填写的方法来弥补缺失值,或者用该字段的所有属性值的均值,其他同类的属性值,利用回归或贝叶形式化的推理工具得出的最有可能值或最邻近的值的来代替,从而对缺失值进行填充弥补,形成完成的数据.

此外,在目标数据中,统一类的属性值可能有某些偏离正常数据,这些数据我们称之为噪声数据,对于噪声数据的数据预处理也需要专门的方法或技术来对其进行噪声消除.常见的方法有分箱法,即对某一个区域内的近邻数据进行观察,从而形成局部噪声消除;回归法则是利用回归函数找出某两个属性值的回归线,通过一个属性来对另外一个属性进行预测;中心点距离法就是计算目标数据的该属性值的平均值,然后计算所有数据对象与中心点的欧氏距离,并对其进行排序,而后根据数据性质和背景知识确定一个距离阈值,而与中心点距离大于该阈值的数据对象则为孤立点.

在我们设计信息系统数据表时,各个表格之间需要存在一些冗余来提高各个表之间的关联性,方便信息系统的数据表的关联查询.这也就导致了在得到的目标数据中,可能是因为数据信息的相同或者业务逻辑数据信息的类似,会有一部分的数据信息冗余,这些冗余对于数据挖掘来说也是没有必要的,或者最后需要数据挖掘的对象是来自不通数据库内容的信息,所以要通过数据集成的方法来对冗余数据或者不同数据结构的数据进行集成.在使用数据集成的方法来对数据信息进行预处理时,需要考虑到以下问题,第一就是集成的模式与原数据对象之间的匹配度的问题,现实生活中的很多数据存储的形式多种多样,在数据库存储的格式、类型、形式也不尽相同,而统一业务数据在不同的数据库之间存储后,能否最终以一种统一的数据格式来存储;第二个问题就是不同属性之间的冗余度的问题,不同的属性值之间是否冗余,是否需要删除某个属性值来使最终得到的数据最大化精简.关于不同属性之间的相关度,可以通过专门的公式进行计算,假如判断A属性和B属性两者之间是否是相互冗余的,可以通过以下公式来计算.

其中,N为A或者B属性值的个数,ai或bi为A,B属性的各个属性值,A軍,B軍为 A,B属性的平均值,σA和 σB分别为两个属性的标准差,属性的叉积的和.根据上述公式对A,B两种属性进行判断,如果rA,B的值大于0,则说明二个属性是正相关,而且该值越大,这说明相关性越强,也就说明A,B二者之间存在数据冗余,可以删除其中一个属性.

3.2 数据预处理过程

数据预处理是数据挖掘的一个前期过程,是一个完整的数据操作阶段,上述的数据预处理的操作步骤和预处理方法都是在数据预处理过程中应用到的.在整个数据预处理的过程中,首先需要得到目标数据,然后利用数据清洗、数据变换、数据集成、数据简化等数据挖掘的操作,利用填充缺失值、弱化噪声数据、数据集成等数据预处理方法,来完成数据预处理的过程.整个过程的实施,可以通过人工检查的方式来实现,也可以通过编写专门的数据预处理软件来实现,或针对某个特定区域或接近某一类应用于的数据预处理问题等来实现数据预处理的前期操作.然后要遵循某种模式或者基于某种统计方法、识别方法等发现目标数据中的异常数据,同时对这些异常数据进行处理,例如通过校验的方法来识别元素的一致性以及内容上的错误,通过观察记录来找出数据中的重复或异常的数据等.最后要对这些数据进行记录,并以档案化的形式存储起来,从而使用户对数据有更加深刻的认识.

4 总结

数据挖掘的过程是一个复杂的过程,数据预处理是数据挖掘中对目标数据进行预先处理的过程,为后期的数据挖掘过程奠定基础.主要的数据预处理操作包括数据清洗、数据变换、数据集成、数据简化等,并通过填充缺失值、弱化噪声数据、数据集成等技术并给予专门的数据预处理的流程来实现数据挖掘中的数据预处理的过程.

〔1〕白凤伟.数据预处理系统的几个关键技术研究与实现[D].北京交通大学,2012.

〔2〕罗锦坤.数据预处理关键技术应用研究[J].福建电脑,2014.

〔3〕解二虎.数据挖掘中数据预处理关键技术研究[J].科技通报,2013(12).

猜你喜欢
数据挖掘预处理噪声
求解奇异线性系统的右预处理MINRES 方法
探讨人工智能与数据挖掘发展趋势
噪声可退化且依赖于状态和分布的平均场博弈
控制噪声有妙法
基于预处理MUSIC算法的分布式阵列DOA估计
基于并行计算的大数据挖掘在电网中的应用
浅谈PLC在预处理生产线自动化改造中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于膜过滤的反渗透海水淡化预处理
一种基于白噪声响应的随机载荷谱识别方法