张震
【摘要】在社会经济的不断发展下,各种数据信息的数据量已经超越了人们所能够收集的极限。面对这种情况,相关研究人员正在不断进行探索,在如何利用庞大数据挖掘出有用的信息方面、如何创造出有用的信息挖掘技术、如何才能创造出有用的价值等方面已经有所成就。科技人员研发出的数据挖掘技术,能够让使用者在使用这项技术时,让数据变得更加整洁利落。所以,本文就将针对数据挖掘技术的内涵特点进行分析,并探究其在经济统计中的应用。
【关键词】数据挖掘技术;经济统计;应用探究
前言:在这个大数据时代,想要收集一些准确有用的信息,需要通过一些技术知识的支持,统计学就能够帮助人们在经济社会中,筛选一些有用的信息。在经济统计中,通常会收集数据的运行信息,并将有用的信息整理到数据库中。由于数据有空值与噪声,这对于数据的收集会起到阻碍作用,但是为了让数据有效准确,在挖掘数据前需要进行预处理工作。
1. 数据挖掘技术在经济統计中的内涵及特点分析
1.1 数据挖掘技术的内涵
数据挖掘,就是数据的深加工,对数据信息精细化的过程。数据挖掘技术的作用是,面对现有的大数据,进行数据深层次的开发,并在众多的数据库中,整理出自身需要的数据,对自身有用的数据,将一些零散的数据、一些不完整的数据进行规整化。因为数据具有随机性与噪声性,所以在众多的数据中很容易出现模糊的数据。但是通过使用数据挖掘技术,能够深度挖掘数据中的有用信息,并且能够将数据中的数据进一步地提炼,让数据变得更加清晰更加有用。
在利用数据挖掘技术处理信息时,需要在经济数据转换的基础上,利用统计学、神经网络学等其它学科的技术进行辅助。所以,数据挖掘技术也是一种具有学科交叉的技术。数据挖掘技术能够被广泛地应用在统计学科中,能够让收集到的数据更有利于统计分析,能够提高使用者在数据分析时的效率,让整个数据分析过程更加简便化。
1.2 数据挖掘技术的特点
数据挖掘技术具有三个方面的特点:第一,数据本身就蕴藏有效信息,只是会被众多数据信息隐藏起来。所以,使用数据挖掘技术时,需要处理的信息量也是非常巨大的,通常可以看到用TB或是GB来形容大数据。第二,在成功建立起数据库后,可以通过关键词的方式,搜索有用数据,这样可以查找到不少关于自身需要的信息,可以进一步缩小信息的搜索范围,让数据收集变得更加高效。第三,由于经济社会的信息在不断扩充,信息库所要储存的信息量也就越来越大,这就要求信息库也需要不断扩充容量满足信息生产的需求。除此之外,为了方便使用者更快寻找到所需信息,需要提高对信息搜索的准确性。
2. 数据挖掘技术的应用
2.1 预处理方法运用
数据的预处理包括数据变换、数据集成、数据清理等三个部分。数据变换就是通过不同方法对数据进行转化,使转化后的数据能满足数据挖掘的需求。在数据变换中包括两点的内容,即数据规模化与数据泛化。在数据规模化中还可以深入地划分为最大化规范、零均值规范、最小化规范等。而数据泛化是将高层次的数据转化为低层次的数据,其中需要关注连续性方面的问题。
所谓的数据集成就是将不同的数据集合在一起,以便形成一个完整的数据总体。在数据集成中需要关注,数据集成的准确性与确保数据能够集成这两个问题。由于社会信息量的不断增长,提供数据的源头也越来越多。数据不仅可以从官方中获得,也可以从个人中获得,还可以从社会主体中获得。在这些不同的数据来源中,经常会面对数据冗余问题与模式集成问题。数据冗余就是存在多余的数据,所以为了让数据库中存在的信息合理化,就需要让数据保持最少化,将多余重复的信息剔除。模式集成就是实体在识别时可能会出现的问题。对于经济数据的挖掘来说,这是一种经济数据的深加工,能够让呈现出的结果更加清晰明了,更加简便化。
所谓的数据清理就是将收集到的数据进行筛选,将一些无用数据或是不全面的数据剔除。在剔除这些无效数据时,通常会使用频率统计法、平滑法、预测法以及均值法等四种不同的方法。在实际的数据清理中,针对不同的情况需要使用不同的方法。比如,在经济统计数据中如果存在大量的空值与噪声数据,就可以采用均值法或平滑法。均值法与平滑法的不同点在于,在使用时平滑法是通过加权平均数进行的,在效果上,平滑法能够让数据更具真实性。而均值法在使用时是通过均值弥补数据的空缺进行的,这样也同样可以得到准确性高的数据。
2.2 决策树方法
决策树是能够快速分类信息的方法,在经济数据中使用能够得到比较高的效率,因为决策树能够让数据有一个更加直观的呈现。如果想要让收集到的数据更具有价值,就尽可能地让数据收集方法变得更加规范,让数据的分析能够进行系统性的分析。在挖掘数据的程序中,除了数据分析之外,同样重要的是数据输出。因为通过决策树输出数据的是会在实际过程中使用的数据,所以这种输出数据的质量也可以说是在使用过程时的效率问题。尤其对于经济的决策管理者而言,需要强有力的数据作为支撑,才能够对经济进行有效调控。
在使用决策树对经济数据进行分析时,需要先从分析数据的基本模型与数据分类两个方面,建构一个完整的决策树结构。在构建决策树时要求做到精简,在数据分类时需要同决策树的根部开始到树枝结束,在这种递归方式的分类中,需要在开展树枝时同步完成。在使用决策树的实际过程中,一方面需要注意数据挖掘预测方面的问题,另一方面,数据分类中的问题也是不可以忽视的。成功构建决策树后,应该要根据实际使用,展开调查工作,让决策树更贴合实际的使用。如果想要在实际使用决策树的过程中,让决策树停止运行可以从两个方面考虑:第一,就是一个节点中的所有数据都被归分在同一类别。第二,在分类属性中,已经不可以再次对数据进行分割。
3. 结论
根据上文论述的内容,可以知道在经济数据的统计分析中,如果能够有效利用数据挖掘技术,将会使得数据信息的价值最大化,还能够提高信息的收集效率,让使用者感受到技术带来的便利。所以,如果能够在经济统计中有效应用预处理方法与决策树方法,将会让经济统计数据发挥到最大价值。
参考文献:
[1]吉立爽.数据挖掘技术在经济统计中的应用研究[J].中国市场,2020(08):195-196.
[2]刘秀华. 浅谈数据挖掘技术在经济统计中的应用[J].商场现代化. 2014(23).
[3]郝岩.数据挖掘技术在经济统计中的应用探究[J].现代经济信息. 2013(11).