赵新华 张克柱
摘 要:通过将数据挖掘技术应用于低保数据的统计,一方面可以将先进的计算机技术应用到低保统计工作中,提高了工作效率,更重要的是通过分析每年产生的大量数据,可以获取隐藏在其中的规律,对数据的构成和变化有一个综合而深层次的挖掘,找到贫困群体成为低保户的主要特征,对低保资金占有比例较大的群体给予更多的关注和帮扶。
关键词:数据挖掘;模型;数据
一、低保数据预处理过程
(一)样本数据的特点。本文对张掖市2015年低保数据进行采集,通过研究这部分样本数据,最终能总结出数据挖掘技术在农村低保数据统计应用中的一些结论。
根据分析低保数据具有以下的特点:(1)数据量大、覆盖面较广。最低生活保障体系是一个规模很大的体系,数据量极大,而且数据又分布在全国不同的地区,对低保数据进行挖掘和和管理是非常有意义的;(2)具有一定的动态性和时间性。随着时间的变化,低保数据在不断增加和删除,需要对数据进行更新。
(二)数据采集。面对庞大的低保人群,数据采集的工作量是很大的,采集的数据要典型、内容尽量完整充实,这样最终的数据挖掘结果才会更有效和准确,数据采集过程中需要关注的一些问题如下:数据收集要以地区为单位,找出不同地区间低保人员在生活状况、年龄分布、性别、文化程度、家庭结构、身体健康状况等方面不同于其他群体的差异和特征,对重点困难地区加以帮扶和支持。
(三)数据清理。在采集数据和输入数据的过程中,不可避免的会出现数据错误、重复数据和数据不一致的问题,这些数据在数据挖掘中都是不符合要求的,数据清理的主要任务是填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。为了使本次挖掘结果达到预期目的,进行如下的清理:(1)如果数据中有大量缺失的属性,将缺失的属性值用同一个常数替换。如“Unknown”。先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。(2)对某些比较重要的属性,利用该属性的最可能的值填充缺失值。
有些属性的值在数据采集和数据输入的过程中空缺,但是缺失的这些值可以通过分析属性的历史数据来填补。在历史数据中,分析属性的哪个值在整个数值的比例是最高的,也就是这个值分布的密度是最高的,说明这个属性值出现的可能性是非常大的,就用这个值来填充空缺的值。
(四)数据转化。 原始表中没有年龄字段,通过户主信息表和家庭成员信息表中的身份证号计算年龄字段,采用下面的SQL语句来实现:Select身份证号,datepart(yy,getdate())-substring(身份证号,7,4)as年龄from低保数据对于低保人员信息的年龄字段,因为信息量巨大,为了有目的的进行数据挖掘,将年龄的取值离散化,进行有效的分类,将年龄取值划分为三个区间,每个区间为一个属性值,将年龄25-35的划分为“青年”,将36—59划分为中年,60以上为老年。
(五)数据规约。原始数据一般是非常大的,在海量的数据上进行数据挖掘和分析将需要很长的时间,数据规约是从数据集中挑选或过滤出具有代表性的数据,缩减挖掘的时间和成本,使数据挖掘的目标能缩小一些。规约之后,数据表示小得多,但最终数据挖掘的结果仍然接近地保持原数据的完整性。数据规约的策略有下面几种:
1.数据立方体聚集:对数据立方体中的数据寻找感兴趣的维度进行再聚集。
2.维归约:检测并删除没有关连、关连性弱或冗余的属性(维)。
3.数据压缩:使用编码机制把样本数据转换成另一种较小的数据流,减少数据冗余。
4.数值压缩:用替代的、较小的数据表示原有的数据。
因为挖掘对象户主信息表、家庭成员信息表、家庭信息表中的属性个数比较多,去掉数据中不重要的属性,像姓名、身份证号等信息。为了方便决策模型的建立,所以选择与其相关的这属性作为决策树建立的依据,形成新的低保信息分析数据表。
二、低保数据挖掘预期目标
在对低保数据进行数据挖掘前,首先要明确低保管理的决策需求,也就是确定数据挖掘的预期目标,之后才能决定数据挖掘需要解决的一系列问题。随着低保信息采集系统的运行和各种政策的不断加强和深入实施,低保制度得到了极大的发展和促进,同时在这个过程中积累了大量的数据,为了政策更好的实施,人们希望从数据中获取的信息也越来越多,不只是简单的数据的表面现象,更多的关注数据的质量和数据本身能包含的信息。
例如:1.低保人数与参加低保的时间、地区之间的关系。通过低保户数据,找到低保人数与时间之间的关系,低保资金发放地区之间的关系,为低保资金的发放提供政策上的支持。
三、总结
通过将数据挖掘技术应用于低保数据的统计,一方面可以将先进的计算机技术应用到低保统计工作中,提高了工作效率,更重要的是通过分析每年产生的大量数据,可以获取隐藏在其中的规律,对数据的构成和变化有一个综合而深层次的挖掘,找到贫困群体成为低保户的主要特征,对低保资金占有比例较大的群体给予更多的关注和帮扶。通过对历年的数据分析和预测,对未来低保人口的分布、人数以及人口构成有一个前瞻性的掌握。这些信息的提取,可以为低保政策的制定提供有说服力的依据。
参考文献:
[1]陈京民.数据仓库原理、设计与应用[M].中国水利水电出版社,2004:21—35.
[2]彭丽.数据挖掘中几种划分聚类算法的比较与改进[D].大连理工大学硕士学位论文,2008.
[3]印勇.决策支持分析新技术——数据挖掘[J].重庆邮电学院学报,2001增刊:70--74.
[4]姚家奕等.多维数据分析原理与应用[M].清华大学出版社,2004.
(作者单位:赵新华/兰州职业技术学院电子与信息工程系;张克柱/兰州职业技术学院现代服务系)