王致远
摘 要:本文对数据挖掘技术进行简要介绍,并对技术特点进行分析,最后阐述其在研究生招生信息挖掘中的应用流程与方法,通过确定目标、数据准备、数据挖掘、数据评估等对有意义、有价值的统计信息进行挖掘,力求能够对经济统计有所帮助。
关键词:数据挖掘技术;经济统计;应用方法
一、数据挖掘技术简介
数据挖掘技术的应用原理较为简单,主要是将原本复杂的数据进行精简,然后将有价值的、满足实际需求的信息提取出来,经过整理与分析后进行利用,达到提高数据利用率的目的。该技术在应用中需要先进技术的支持,如模糊概念、模块识别、数据库系统、知识筛选技术等,通过相应算法的应用,使原始数据得到有效的挖掘整理,最终形成一套简洁明了的统计数据,为使用者的数据提取与应用提供极大的便利[1]。
二、经济统计中数据挖掘技术的特点
(一)工作效率较高
在经济统计方面,数据挖掘技术的应用具有较大优势,受该技术自身特点影响,与其他技术相比,在工作效率方面的优势较为显著。该技术作为一种新型的数据深加工技术,自身的目的性较强,在实际应用中,通常以两种形式展现,一是对经济类数据的高效处理,二是对现有数据的高效处理,无论二者中的哪一种,均可在经济统计领域中得以充分体现,呈现出较强的高效性。
(二)拥有充足的数据支持
将数据挖掘技术引入经济统计中,其对宏观数据具有较强的适应性,如同拥有一个展示功能的平台,以更加新颖、高效的方式展示自身特性。在经济统计领域中,对数据分析的准确性有严格的要求,并且在处理速度方面也有规定,而挖掘技术的应用刚好能满足这一条件,它拥有充足的数据支持,经过分析和统计的数据更加科学高效。
(三)综合应用性良好
现阶段,数据挖掘技术逐渐渗透到诸多领域,具有较强的综合应用性能,主要体现在数据物理分析、经济统计、数学统计等方面。该技术蕴含较大的挖掘能力、统计能力,还具有强大的自动分析与统计作用,可帮助使用者良好高效地完成数据处理工作。将该技术应用到经济统计中,在经济数据挖掘、整理与归类等方面发挥极大作用,为使用者的工作带来极大的便利[2]。
三、经济统计中数据挖掘技术的应用
(一)应用流程
1.确定目标。在数据挖掘技术应用的初始时期,应由经济领域的专家学者对被挖掘的数据进行目标定位,定位效果对数据挖掘结果具有决定性作用。可见,初始目标确定不可忽视,应在定义的过程中,对算法进行推算,确保目标准确无误。此外,定义要求是在现实需求的基础上推理而成。
2.数据准备。在挖掘技术应用中,数据准备十分关键,且花费的时间最长,主要分为三个阶段来完成,即数据选取、数据处理与变化分析。在数据选取方面,可将宏观数据库中的全部信息进行筛选,并定义为目标区数据;在数据处理中,对排列后的信息进行初步筛选,所选择的数据应与要求相符;在变换分析方面,针对选取出的数据进行精简,属于数据深入选取,最后得出与目标相符的信息。
3.数据挖掘。该阶段的主要目标在于預定算法,利用合理的算法对变换的数据源进行选择后,再进行深入挖掘。在算法初步预定完成后,便可开展数据模块计算,该流程需要专家与专业挖掘人员来完成,因此该项工作也是挖掘的核心所在。
4.数据评估。通过上述步骤的实施得出最终结果,由使用者对该结果进行分析,将分析结果全面展示出来,并对数据价值进行评估,经过严格的选取后将有意义、有价值的信息保存下来,将无效信息剔除。若经过上述操作后得出的数据与要求不符,系统将自动返回上一步,如此反复循环,直至数据与要求相符。
(二)对研究生招生信息的挖掘
在本文研究中对浙江宁波考点的报考数据(2015—2019年)进行数据挖掘与分析,主要采用以下几种挖掘技术。
1.预处理方法。在应用预处理方法时,需结合数据挖掘技术,才可实现预期目标,对当地研究生招生信息进行深入有效的挖掘。在数据预处理过程中,可采用均值处理的方式,将数据中的噪声和数据点空值剔除,数据中的空白得到弥补。当挖掘系统的基础数据结构完善时,统计分析数据的真实准确性才可得到切实保障,数据点取值公式为:
式中,Ci代表的是数据点空值;k代表的是实际权值。在采用平滑法进行数据处理时,可对数据空值与噪声值进行统一计算,并与加权平均数机制融合,对数据影响权重值进行提取,确保实际计算结果真实可靠。
2.集成处理法。该方法主要体现在两个层面,一是冗余问题,二是模式集成。在挖掘研究生招生信息时会对数据进行集成处理,为后续工作提供便利。同时,对于经过预处理后的信息应进行冗余清除,确保数据库中信息量处于较低的水平。对模式集成来说,经济活动中的数据量庞大、类型众多,应系统地对经济数据集成结果进行处理,在应用挖掘技术时,对比元数据模块,使识别率得到切实的保障,与质量标准规定相符合。在冗余问题方面,从本质上来看,数据挖掘属于深加工过程,要想提高信息价值,应构建技术模型,对正向关系进行精简,对冗余属性进行综合分析,使数据得到细化处理。以研究生招生信息为例,利用报考学位类别与生源地进行计算,需要对数据进行精简,公式为:
式中,rAB代表的是冗余属性;A与B属性的平均值可用与来表示;σA与σB代表的是A与B属性的标准方差。如若所得的rAB数值超过0,则二者属性为正比例关系;如若rAB的数值为0,说明二者无直接联系,即处于独立状态;如若所得的rAB数值小于0,则二者属性为反比例关系,且rAB的绝对值越大,说明二者间的关系越紧密。
3.决策树法。决策树属于应用较为频繁的方法,先利用训练集构建决策树,在此基础上进行数据分类,还应做好后面的“剪枝”工作。在决策树结构建立时,可从两个方面着手:一方面,构建数据输出模型,利用训练集建立决策树,并对其进行精简;另一方面,针对已经建成的决策树,应进行数据分类,从树根处开始,由下至上到达树枝。在应用过程中,应充分发挥训练集的作用,立足于实际问题与参数,科学有效地构建可行性的分析方法,在较短的时间内构建数据分析模型。同时,还应利用决策树对数据进行归类,使递归优势得到充分发挥,可输出与归类要求相符的数据。通过数据挖掘可知,在报考专业硕士学位中,主要集中在以下几个专业:工程硕士为53%,教育硕士为5.3%,公共管理硕士为6.0%,法律硕士为7.7%,农业推广为6.0%。值得注意的是,归类条件较为严格,在节点数据的级别相同时,处于停止条件,在具有分类属性时,对输入数据进行二次分割,即停止分类。在此过程中,利用决策树完成数据统计,定期进行“剪枝”,规避起伏影响,最大限度地提高数据稳定性与实效性。
综上所述,在现代化经济发展中,经济统计价值逐渐提升,需要积极引入数据挖掘技术,立足于市场实际情况,挖掘和分析有意义、有价值的信息,构建有效性较强的经济决策,为经济统计活动的开展提供充足的信息支持,促进数据挖掘技术的不断更新优化,为国内市场经济稳健发展贡献更多的力量。
参考文献
[1]董静.试析数据挖掘技术在经济统计中的应用[J].商,2018(31):227-228.
[2]张丽丽.试析数据挖掘技术在经济统计中的应用[J].中国商贸,2018(01):13-14.