【摘要】我国经济的快速发展,使得各行各业的经济管理更加规范有序,也更加精细化。但随着社会经济总量的增大与经济因素的复杂,原有的经济统计分析方式已不能满足日益发展经济市场的需要。所以数据挖掘技术应运而生,文章主要探讨数据挖掘技术在经济统计中的应用,通过分析数据挖掘技术的含义、数据挖掘技术在统计工作中的适用性等,指出数据挖掘技术在现代经济统计中的重要作用。
【关键词】数据挖掘技术;经济统计;宏观数据库;决策树方式
现代社会的经济统计工作对经济发展具有重大作用,经济统计工作的顺利完成能够指导政府、企业接下来的经济活动。目前的经济统计自身存在大量的数据信息,信息间又具有复杂的联系。所以经济统计工作的实施人员,只能对经济统计的数据理论进行分析,无法对经济统计理论进行深入挖掘。而数据挖掘技术填补了这方面的技术缺失,数据挖掘技术是新型的经济数据统计方法,不仅能够对经济统计的数据理论进行分析,而且能够处理大量的数据信息,并且将这些信息以简洁明了的形式表现出来;而且它还能将原有的资料进行统计整理,指出材料中存在的疏漏之处。综上所述,数据挖掘技术相较于其他经济统计方式而言,具有更加便捷全面的经济分析表现。
一、数据挖掘技术概述
数据挖掘技术指的是从大量的经济统计资料中,快速的找到自身能够使用的有效信息的技术。这种技术是对原有数据的一次深层加工与开发,从庞大的数据库中找到对自身有用的信息后,还要将其进行分析整合,最终将所需要的数据信息清楚排列在读者的面前。原始的经济统计信息数据库中的信息数据,具有信息量大、信息复杂程度高、关联性差、各种信息随机出现、数据信息时常出现错误等多方面的特征,而要从这样庞大复杂的数据库中找到对自身有用的信息是非常困难的。数据库中存在的信息若不能被合理的挑选并加以运用,那么数据库本身就会失去其原有的作用。
数据挖掘技术是涉及多种学科的复合技术形式,主要包括数理统计、数据库、模式识别、粗糙集、模糊数学等多种学科,但其主要的应用方面还是数据统计。数据挖掘技术对庞大杂乱的原始数据分析总结的方式,能够使那些与所需数据关联较为密切的原始数据自动进行提取,提取完成后就会对其按照一定的顺序排列,最终形成数据提取者所需要的数据。数据挖掘技术是数据库知识、模式识别系统、模糊概念技术等多种知识系统结合而成,这些知识系统都为行业尖端的知识体系。只有拥有强大的运算、筛选、整合能力,才能对数据库中的信息进行有效分析、提取与整理。
二、数据挖掘技术的基本特点
数据挖掘技术特点,具有以下几方面:(1)数据挖掘技术中所含的数据信息巨大,其能够处理的数据信息也非常大,信息处理可达到GB,TB的级别。(2)对于那些不确定想要查询什么信息的用户,只要用户输入简单的关键词,数据挖掘技术就能够从庞大的数据库中找到与用户所搜索信息联系最为紧密的资源,并将他们按照联系的密切程度依次排列。(3)数据挖掘能够对数据库中大量的信息进行分析,找出各种信息的内在关联;还能够将运用关联挖掘与各方面相关的数据,表明前一阶段经济形势的发展状况,还能预测未来经济形势的发展走向。(4)对于经济数据快速增长的局面,数据挖掘技术一方面扩大自身数据库以满足大范围搜索的需求,另一方面提高数据检索的精确程度,使用户能够快捷的从大量数据中找到自身最需要的数据。
三、数据挖掘技术在统计工作中适用性分析
(一)数据挖掘技术较高的有效性
数据挖掘技术是对原始的经济数据信息进行深度挖掘,提取对数据拥有者有用信息的技术。所以数据挖掘技术具有较强的针对性,能够在短时间内迅速锁定想要分析的数据目标。对于现实数据的处理,其主要有以下几种不同的处理方式:首先是将所有的经济数据信息通过优化整合,挑选出自身所需要的信息;还有就是针对现有的数据信息,通过整合分析得出所需要的结果。第一种数据分析方式从经济数据管理的角度出发的,主要是以固有数据信息的统计、分类为基础,在应用中将原本混乱的数据库信息进行科学、系统的归类,保证统计数据管理的高效性和使用的便利性;第二种数据分析方式是对现有的经济数据的再加工过程,以鲜明的数据统计、分析目标为指引,对原有数据的数据呈现模型、数据内容、与主体数据有关联的部分进行修改、删减、整理,形成针对数据选取目的、简洁明了的数据组合方式,供企业管理者与政府职员适当的选择使用。
(二)数据挖掘技术较强的综合应用性
以上分析表明,数据挖掘技术作为完整的数据信息分析系统,能够根据数据信息拥有者的不同需求,智能寻找各种有用信息加以分析总结,得出数据信息拥有者想要的结果。目前现代经济所蕴含的信息量庞大,企业部门又有着各不相同的信息需求。针对不同的信息需要挑选与整合信息,能够促进企业经营管理部门、政府经济管理部门等不同经济管理领域的迅速发展。但不同的经济管理领域、管理方式、管理权限间存在的差异,又使得数据挖掘技术不断扩充自身的服务范围与服务能力,满足各方面管理的要求。目前的数据挖掘技术不但要对经济管理部门所需要的数据信息进行检索、统计、分析、总结,还要将得到的数据以管理人员所需要的形式呈現出来;最终对这些数据形式进行处理分析,得出可靠的数据分析结论。数据挖掘技术不仅能满足上述企业管理人员与政府管理人员的数据分析规定,还能够输出最适合的数据形式,供企业与政府相关部门人员使用;同时以上数据分析与结论,还能通过电脑录入企业管理系统中,方便企业管理人员、高层领导以后的查阅使用。数据挖掘技术功能的强大,使其数据管理覆盖面逐渐扩大,在处理经济数据信息方面取得良好的效果。
(三)数据挖掘技术中的宏观数据库
目前企业与政府经济管理存在着较多问题,其中最主要问题为:企业多个经济管理部门的管理内容有着较大差异,各个经济管理部门间又没有紧密的连接,使得管理部门的数据不能交流与共享。同时我国的企业与政府的经济数据统计,还延续以往的经济统计方式,统计到的经济数据信息存在着明显的局限性,不能够对企业经济活动作出真实可靠的分析。而且多种经济信息的混杂,不仅造成经济信息间的交流障碍,也造成多种经济信息间的重复率高。这就使得信息统计方式需要从大量重复信息中不断进行筛选,最终才能获得自身所需要的信息。这不仅浪费大量挑选信息的时间,也造成信息选择上的困难与不准确。企业的经济数据信息统计若没有综合的信息统计方式,那么企业经济管理与经营发展就要陷入困难的阶段。而宏观经济统计数据库的出现解决这种难题,宏观经济统计数据库包括各种不同类型宏观经济数据指标,能够通过对整体经济信息的分析,给出企业存在的问题以及未来企业的发展方向。宏观经济统计数据库中融合多种数据信息,提供给数据挖掘技术强大的数据支撑。数据挖掘技术利用宏观经济统计数据库中的数据内容,完整数据的挑选与分析工作。
四、数据挖掘技术在经济统计中的应用
目前企业与政府的经济管理,主要需要以下几方面的数据资源:首先是真实的经济数据信息,其次是经济数据信息要对社会经济发展具有实际的借鉴作用。而数据挖掘技术很好满足以上两方面的要求,它不仅能够挑选出最全面、真实、有效的数据信息,还能针对信息作出合理的分析。目前数据挖掘技术已经日趋完善,具有极强的经济适用性,其主要的应用方式有以下几种:
(一)数据挖掘技术的预处理方式
数据挖掘技术对于经济数据信息统计,首先需要做的工作为经济数据信息的预处理。经济数据信息的预处理也可以简单的称为数据信息的筛选。企业数据库中存在的数据信息具有各种各样的问题,比如:数据信息存在错误、数据信息不够精简、数据信息重复率较高、数据信息与事实差距较大等。数据信息存在的多种问题,需要数据挖掘技术对其进行预处理。数据信息预处理的方面很多,对于那些错误率高、冗余度高、重复率高的数据信息进行主动过滤,将各种经济统计数据信息间差别较大内容进行处理,最终使数据信息符合数据使用者的要求。
而处理以上数据中错误率、冗余度与重复率最常用的方法,有以下几种:均值法、平滑法和预测法,本文重点介绍的数据处理方式为均值法。均值法指的是运用现代分析技术中的模糊理念,对数据库存在的基础数据进行空值、噪声等方面问题的处理;通过用数据库中所有该属性已知的属性均值,来填补基础数据存在的空白部分。以上处理方式能够使基础信息得到较完整方整理,在对经济管理数据信息整理完毕后,再对这些按照规律排布的数据进行分析,得出可靠的结果。均值法的计算公式为:
Ci=(i-1)∑(i-k)Cj|K (Ci :当前数据点的取值;Cj:当前数据点前后不为空的数据点;K:当前数据点所取的参考数据点数量。)
平滑法是对不断获得的实际数据和原预测数据给以加权平均,使预测结果更接近于实际情况的预测方法,又称光滑法或递推修正法。数据信息处理中的平滑法,主要使用加权平均的方式考虑各个数据对最终结果的影响。根据不同数据占整个数据体系权重的高低,整理出最接近真实情况的数据结果。平滑法的计算公式为:
Ci=(i-1)∑(i-k)WjCj|(i-1)∑(i-k)Wj (Wj:Cj数据点的权值。)
(二)数据挖掘技术的集成化处理方式
数据挖掘技术需要根据不同地区企业的不同情况,进行经济数据信息的统计。目前我国不同地区有不同的经济数据统计标准,针对不同标准如何对数据进行集成,成为数据挖掘技术最关心的问题之一。数据信息的集成工作,需要在符合社会经济数据信息真实性的基础上进行。数据集成活动需要注意以下几方面情况:
1.模式集成。目前的经济数据信息来源多种多样,不仅政府官方会不定时进行经济数据信息发布,更多民间组织也会进行经济数据信息的发布。众多的经济数据信息使得数据识别工作进展困难,数据挖掘技术需要对不同来源的数据信息进行识别;还要从众多的数据信息中,挑选出与数据拥有者检索内容关联度紧密的数据信息。
2.冗余问题。数据挖掘技术,是对原始数据进行筛选与加工处理的技术。数据挖掘技术处理冗余问题方式为:通过分析找出与检索条件相关度较高的数据资料,并将這些资料适当的删减与整合,成为精简的数据体系。这种做法目的是使数据库中的整体数据量维持在较低水平,同时也使降低数据库中冗余数据的最好方式。对于经济数据而言,冗余数据包括方方面面的数据信息。它不仅包含那些真实程度低、重复率高、错误率高的信息,也包含那些能够用其他形式计算出来的数据信息。比如:人均国民生产总值能够运用国内生产总值、总人口属性两者运算计算,所以该信息即为冗余数据信息。
(三)数据挖掘技术的决策树方式
数据挖掘技术需要在对经济数据统计分析后,输出符合信息使用者需要的数据信息。而决策树方式即为输出数据信息的有效形式,决策树能够快速对所需要信息进行分离,然后以树状图方式表现出来。决策树建构过程包括以下几方面:将所有的数据信息整理,挑选出重要信息建立出决策树体系;将所有的数据信息进行分类,根据不同方向对各类信息进行等级排布。通过细化的等级排布,挑选出对信息使用者有用的信息,并进行分析总结。对决策树的类别分布,需要在不同分布阶段进行数据挑选工作。决策树的数据分布完成标志为:决策树中某一分支上的数据输运同一类别;决策树中的数据已经达到无可分割的地步。在决策树分割完成后,需要对整个决策树进行修剪工作:剪掉那些对所求目标关联度不大的数据,使整个决策树体系呈现出统一状态。
五、结语
数据挖掘技术依靠企业、社会方面提供经济信息,通过精简化的处理、分析、总结,得出企业发展所需要的数据信息。目前数据挖掘技术不仅能够对大量信息进行处理,还能根据用户所需要的形式进行不同转换。这种强大的信息转换系统,依托数据库知识、模式识别系统、模糊概念技术等多种知识系统,形成功能强大的数据库信息处理体系。但数据挖掘技术仍存在着用户界面操作困难、面向群体范围小、软件学习难度大等多方面问题,因此需要不断对其进行优化,才能为用户提供更加方便快捷的服务。
参考文献
[1]高丽,王丽伟.数据挖掘技术在国内图书馆应用领域的研究[J].数字技术与应用,2015,(12).
[2]肖明.大数据时代下数据挖掘技术在企业中的应用[J].中国管理信息化,2015,(2).
[3]梁雪霆.数据挖掘技术的计算机网络病毒防御技术研究[J].科技经济市场,2016,(1).
[4]阳馨.高校管理中应用数据挖掘技术的途径研究[J].数字技术与应用,2016,(1).
作者简介:杨文燕(1992-),女,重庆人,本科在读,研究方向:经济统计。