刘西清
摘要:数据管理中,由于很大数量的基数产生,而且数据的结构相对复杂,很容易导致数据缺失的问题。采用数据挖掘技术,可以对数据管理中所产生的数据进行更深层次加工,以提高数据质量。本论文针对数据挖掘技术应用于经济统计中的研究展开研究。
关键词:数据挖掘技术 预处理 决策树 经济统计
数据挖掘技术作为数据处理技术,就是针对数据仓库中的各种数据信息处理中选择合适的分析工具,以通过筛选而获得有用的信息。在经济统计中应用数据挖掘技术,可以对社会经济活动的运行情况进行分析,以使得统计信息能够满足社会各个领域的需求。
一、数据挖掘技术
信息环境下所产生的数据量逐渐增大,给数据信息的使用者带来了困难。在经济统计中,如果对这些信息进行处理,并获得有价值对信息成为亟待解决的问题。面对庞大的属于局信息,采用数据挖掘技术,可以通过对所获得的数据信息进行分析和技术处理后获得符合使用标准的数据信息,以满足使用者的需求。在经济统计中采用数据挖掘技术,可以提高数据信息质量,以使得数据信息能够更好地为中的社会经济发展服务。随着数据信息质量的提高,数据信息的使用效率也会提升,而且数据之间的内在关联性也会被建立起来。
二、经济统计中数据挖掘技术的应用
1.数据挖掘技术之预处理方法的应用
对数据进行预处理可以分为三个部分,即要做好数据清理工作,之后对有用的信息进行筛选,对统计数据中所存在的不全面的现象,就要将具有噪声的信息进行去除。经济统计中所获得的数据信息不同,所采用的数据挖掘技术也要有所不同。如果在经济统计的过程中所获得的数据中,数据点和噪声都是空值的时候,在进行数据处理的时候就可以采用均值法或者平滑法。两者之间的不同在于,均值法是将所获得的有效数据进行平均处理而获得的数值,而平滑法所使用的是经过加权处理后所获得的平均数。这种方法对数据对其结果的权重都要予以充分考虑,因此结果与真实值更加接近。这两种方法的运用,要根据实际需要进行选择。还有一种方法是数据集成,就是集合不同的数据而形成集体,在集合数据的同时,还能够对数据的准确性予以保证。数据集成在运用的过程中会存在一些问题,如果存在实体识别问题,由于不同的数据会以不同的数据模式呈现,就会出现模式集成问题;如果数据较为繁琐,存在多于的数据而使得数据质量较低,就是冗余问题的存在。在数据挖掘中,就要将经济统计数据与其他数据之間的关系精简,以使得数据库中所存有的数据量得到优化而提高数据的管理效率和应用价值。比如,在对于国民生产总值进行计算的时候,就要总体人口的属性合理利用,还要将国内生产总值计算出来。对冗余的属性进行判断的时候,要将相关度的对比关系充分地利用起来。其中,元组的个数为n,属性A的标准方差表示为“σA”,属性B的标准方差表示为“σB”。如果σA>O,σB>0,就意味着属性A与属性B之间存在着正相关性,随着属性A的逐渐增大,属性B也会有所增大。如果σA=0,σB=0,就意味着属性A与属性B之间并不存在相关性,相互之间并不存在必然的联系,两者是各自独立存在的。如果σA<0,σB<0,就意味着属性A与属性B之间存在着负相关性,随着属性A的增大,属性B就会相应地减小。
2.数据挖掘技术之决策树的应用
对数据采用数据挖掘技术的时候,首先要系统性地分析数据,将分析完成的数据输出。在进行数据分类的时候采用决策树,就是要将决策树的结构构建起来。首先,对数据的基本模型进行分析,之后采用训练集将决策树建立起来,而且要对数据的决策树进行精简处理。其次,对决策树进行分类,从决策树的根部开始数据分类,之后是树干的数据和树丫的数据的分类,直到所输入的数据能够满足条件。
比如,将某地区的企业在每年所上报的数据建立序列模式,得出企业当年的预测值。将企业所上报的数据以及预测值经过比较后得出差别率。如果差别率超过20%,则企业为A类;如果差别率介于10%至20%之间,则企业为B类;如果差别率低于10%,则企业为C类。根据企业规模的变化率以及企业可能发生的经营事件将决策树建立起来。差别率采用如下公式:
差别率=|上报数据预测值|/上报数据×100%
如果企业所上报的数据与预测值之间存在很大的差距,就要以这些企业作为主要的调查对象。
综上所述,中国进入到进一步深化改革开放的发展时期,要促进经济的快速发展,就要对先进的技术予以充分利用。在经济统计中应用数据挖掘技术,可以提高数据的有效利用率,以提高经济效益。endprint