胡杰飞
(美国罗格斯大学,新泽西州 08854)
在国家经济迅猛发展的大背景下,经济统计调查面临的数据量在不断增加,数据源也变得越来越复杂。因此必须要采用数据挖掘技术,才能更好地满足经济统计调查的需求。通过加强数据挖掘技术在经济统计调查中的应用分析,能够促使数据挖掘技术发挥应有价值,提高数据经济统计分析质量水平。
(1)数据挖掘技术能够处理海量的数据信息,有利于减轻统计调查人员的工作量,便于统计调查人员从海量的经济数据中挖掘出更有价值的信息,在提高经济统计调查效果的同时,还能够有效提升经济统计调查效率。(2)数据挖掘技术具有搜索与数据信息预测功能,从而能够对市场决策起到一定的辅助作用。在实际进行数据调查统计分析的过程中,一方面,可利用数据挖掘技术搜索功能所自带的“关键词联想搜索机制”,帮助统计调查人员在短时间内就能够搜索到想要的数据信息[1]。另一方面,借助数据挖掘技术的预测功能,能够在不同统计调查数据信息之间,找出隐藏的规律,建立相应联系,从而合理预测后续的经济趋势走向,充分发挥经济统计调查的作用价值。(3)数据挖掘技术本身具有较强的综合性功能价值,便于统计调查人员在进行经济数据统计分析时,实现对数据信息的分类、整理、开发与利用,且这些数据信息可长期存储,从而满足不同部门的应用需求。
所谓数据的集成化处理,简单来说就是通过加强各种数据信息的整合,让杂乱无章的数据信息按照某种规律排列,变得井井有条。但在国家经济迅猛发展的大背景下,经济数据信息变得更加复杂,数据信息来源也更加多变,这些都增加了数据信息的集成难度。究其原因在于,很多经济数据在来源方面,并不仅源自于官方的数据统计局,实际来源较为复杂,因此在应用数据挖掘技术的集成功能性,必须要加强对经济数据信息的识别。例如,在实际应用数据挖掘的技术中,在相应数据库中,需要明确“sfd-id”和其他数据库中“std-no”象征的数据实体是否一致。在集成分析的过程中,通过对数据库之间的数据信息元数据进行比较分析,能够更好地保障数据识别的质量。并针对在原始数据中,具有正相关关系的数据,实现高效的处理,更加便于经济统计调查人员进行数据信息的应用与分析。
对于决策树方法而言,本身是一种非常直观的数据分离方法,在实际应用该方法的过程中,完成决策树的建立非常关键。在实际建立决策树的过程中,应着重把握以下两点:
(1)在训练集的帮助下,完成一颗决策树的建立,并对其进行精简,建立数据输出探究模型[2]。(2)在已经建立好的决策树帮助下,针对输入数据信息,按照决策规律进行分类。上述分类过程,属于一个循序渐进的过程。一般是从决策树的根部开始,逐渐分类递进至决策树的枝丫,直到分类的数据满足某种条件为止。达到终止分割条件有两条:1)在同一个节点之上,所有的数据都属于同一种类别;2)针对输入数据,已经无法再次进行属性分割。一般在完成决策树的构建后,还需要对决策树的“枝丫”进行修剪。通过进行“剪枝”处理,能够有效降低对输入数据带来的起伏影响。
在数据经济统计调查中,针对数据挖掘技术的应用,线性回归分析策略也是一种比较常用的策略。而进行回归分析的主要目的,便是为了进一步明确两种及以上的变量之间,相互影响的一种变量关系。在线性回归策略的帮助下,能够建立变量之间的线性回归方程。通过进行相应的因素探究,便于统计调查人员合理判断数据变量之间的主要关系与次要关系,用于经济数据调查辅助决策。不仅如此,通过进行相应的检验,降低误差,才能够将线性回归方程作为预测模型,完成对数据信息的预测分析。一般情况下,在实际进行数据挖掘时,回归分析策略常用于解释市场占有率、销售数额等经济数据信息,借助线性回归函数,准确表达出上述变量之间的关系,便于进行统计调查分析。例如,针对一些简单的线性回归分析,比如某个自变量x与因变量y,两者之间具有正相关关系,利用这一关系,我们能够获得直线方程,让所有的数据点趋近于这条之间,具体了采用y=a+bx表示,其中a表示截距,b是相应的关系系数。另一方面,还可以进行Logistic回归分析,运用这种回归分析方法,应满足以下两种条件:(1)目标对象之间相互独立;(2)自变量与LogitP之间具有线性关系。此外,还应注意,若研究设计为队列研究,针对横断面,需要进行对照分析,在采用Logistic回归分析方法时,应保证观察时间一致。当前随着统计学技术的不断发展进步,大数据应用越来越成熟,即使在样本量不多的情况下,也能够应用Logistic回归分析方法,且能够获得良好的分析效果。但在实际应用时还应注意,针对相应的分析变量,应控制在一定范围内,并且变量的分类也不宜过多,如此才能达到更好地应用分析效果。
在实际进行经济统计调查中,针对数据挖掘技术的应用,无论是政府统计,还是部门统计,当前应用体系均越来越成熟,并且收集了海量的数据资源。为进一步推动数据挖掘技术的深度应用,还需要统计部门加强对这些数据资源的梳理,结合实际,明确对大数据实际需求与应用方式。在此基础上,统计部门还应深入研究、整理各政府部门的行政记录数据资源,并以业务部门经济统计调查实际需求为依据,筛选出关键数据资源。后续还应扩大数据的收集梳理范围,比如医疗、卫生等公共服务部门的数据资源。最后,针对私人部门大数据资源,统计部门也要加强相应的梳理工作,从而充分把握全社会经济数据资源的渠道分布、规模、结构等情况,为数据挖掘技术的深度应用奠定坚实的基础,有效提高经济统计调查水平。
虽然如今在互联网迅猛发展的大背景下,大数据环境发展日益成熟,但在经济统计调查分析的过程中,还应确保相应的数据满足基本质量要求。在这一过程中,国家统计局可以与国家大数据中心进行协同合作,结合经济统计调查实际需要,制定大数据应用官方统计的相应质量标准。与此同时,在相应标准中还应包括对错误数据、极端数据、缺失数据的处理方法,从而有效防止采用不科学方法,在后续经济数据分析中形成路径依赖。在数据质量标准的指引之下,分地区、分部门对相关数据资源的质量进行科学评估,这对数据挖掘技术在经济统计调查中高质量数据应用有着较为积极的影响,更有利于数据挖掘技术作用价值的发挥。
经济统计调查是一项需要长期坚持的工作,在这一过程中,实际应用大数据资源也在随着经济形势的发展变化而不断发生变化。这意味着在经济统计调查中应用数据挖掘技术,需要政府提供源源不断的数据资源支持。而在当下,降低大数据资源的获取成本,已经是政府部门亟待解决的一项问题。尤其是对政府统计部门而言,虽然可采用低成本的行政手段获取相应的公共服务部门数据[3]。但针对私人部门数据,还应在提供合理回报的条件下,低价或免费获取,为达到这一目的,建议成立一个能够将数据价值变现的机构,用于专门收集私人部门数据,获取更多大数据资源,助力数据挖掘技术在经济统计调查中的深度应用。
经济统计调查是一项较为复杂系统的工作,在实际开展该项工作的过程中,应加强对数据挖掘技术的应用,从而能减轻统计调查负担,提高工作效率。在实际应用时,还应掌握相应的技术方法,并采用一些有效建议,促使数据挖掘技术实现深入应用,进一步提高经济调查统计的质量水平。