杨鹏鹏
[摘 要]随着我国经济水平的不断发展和综合国力的不断提高,对我国的经济状况进行普查成为时代的需求。全国经济普查是党中央、国务院作出的一项重大国情调查。通过对我国的经济普查,能够更加清楚地认识到我国的经济发展水平、我国的基本国情以及我国的综合国力。本文从中国经济普查的意义着手,简单阐述了数据挖掘的内涵,并对中国经济普查数据挖掘的思路、方法以及研究内容进行了简单的阐述。
[关键词]经济普查;数据挖掘;方法研究
[DOI]10.13939/j.cnki.zgsc.2015.39.025
1 中国经济普查的意义
自从改革开放以来,我国的经济水平得到了突飞猛进的发展,综合国力也得到大幅提升,这就使得我国经济普查成为时代发展的需求。全国经济普查是党中央、国务院作出的一项重大国情调查。通过对我国的经济普查,能够更加清楚地认识到我国的经济发展水平、我国的基本国情以及我国的综合国力;通过我国的经济普查,能够对我国的现代经济发展以及规律有一个全面的了解和把握;通过对我国经济发展状况的分析和研究,制定出符合我国基本国情的经济政策和制度,通过宏观调控来促进我国的经济增长,提升我国的经济发展水平,推动我国社会的可持续发展。
2 数据挖掘的内涵、内容与方法
2.1 数据挖掘的内涵
通过对我国的经济普查,得到了海量的经济普查数据,为了将这些数据变成有实用价值和参考意义的可利用信息,需要采取一定的数据挖掘工具和方法,通过对海量经济数据库内存储内容进行提取和整理,挖掘出有意义、有价值的信息知识。因此,信息处理技术领域中的数据挖掘技术越来越受到人们的重视。
数据挖掘的内涵主要从两个方面来说明。从技术方面而言,数据挖掘是指从大量真实有效的、随机模糊的、不完全的数据源中提取出可以被人们接受和运用的、隐含在巨大数据源中而人们事先不清楚的信息和知识的过程。从商业方面而言,数据挖掘主要是为了辅助商业决策,从大量的商业数据库中,按照商业发展的目标界定,抽取、转换和分析处理有关数据信息,从而揭示出隐含在海量商业数据库中的规律性,并且采用各种先进技术进一步将其规模化的过程。其中这些数据库资料可以是各种形式的,如文本、图像、图形等。通常选取发现知识的方法可以是数学的、非数学的、演绎的、归纳的等。数据挖掘不是一门单纯的技术,而是要用到多门学科的知识。数据挖掘不仅需要对信息数据进行简单的查询,还要在挖掘知识和决策需求的牵引下,综合利用各个领域的综合技能技术,如人工智能、可视化技术、数据库技术、并行计算、数理统计等。
2.2 数据挖掘的研究内容
中国经济普查的数据挖掘方法主要是通过综合运用各种数据库理论知识、数据挖掘技术及理论知识以及相关的回归理论知识等,寻求和探索出一条最适宜中国经济普查的数据挖掘技术的途径。通过这些理论知识的研究和应用,构建一套比较成熟的数据挖掘技术和系统。总体而言,中国经济普查的数据挖掘方法研究内容包括以下几个方面:①对中国经济普查相关的数据挖掘技术进行全面了解和分析,确定其可行性,针对经济普查数据挖掘技术,充分了解和分析其理论知识和实际应用中的可操作性,并且将中国经济普查数据挖掘技术与国外的先进技术进行比较和综合评估。②对全国经济普查的相关数据和内容进行全面的了解和分析,明确经济普查相关数据的分类标准,将各种数据表的有关审核关系进行合理有效地统计,确定经济普查工作过程中的处理方式和方案,全面收集和掌握全国经济普查的有关数据,为之后的数据挖掘技术开发提供必要的理论和数据基础。③建立全国经济普查的数据库,通过综合运用各种先进的分析处理和统计工具,分析其一般过程,建立一个相对比较完善的经济普查数据挖掘系统框架。通过将中国经济普查数据作为研究基础,构建相关的数据仓库,通过SQL工具针对相关数据进行一定的预处理,选择数据挖掘的基本算法。
2.3 数据挖掘的研究思路与方法
本文中数据挖掘主要是从中国经济普查的海量数据库着手,通过利用各种先进的数据挖掘技术,寻求出一条最适宜我国经济普查的相关挖掘技术的途径。通过全国经济普查得来的海量数据库作为研究依据,利用各种先进的数据挖掘技术,并选择比较适宜的数据挖掘工具,从而对中国经济普查进行数据挖掘技术的相关研究。通过研究,了解和掌握构建中国经济普查数据库的过程以及建立和健全一套相适宜的挖掘技术的过程。对中国经济普查的数据挖掘方法主要有数据挖掘技术、数据仓库技术以及统计学相关技术和理论。在进行中国经济普查数据挖掘过程中,应该针对中国经济普查的具体情况,选择比较先进的数据挖掘工具软件SQL Server 2000 Analysis Services。通过该软件对中国经济普查的海量数据库中的典型数据进行一定的预处理,从而研究出适宜我国经济普查的数据挖掘方法。
3 如何通过数据挖掘保证经济普查的数据质量
3.1 注重抽样方法的科学性
科学的抽样方法对有效评估数据质量至关重要。在实施质量抽查之前,首先要在费用和精度的权衡下确定合适的样本量;其次要采用科学的抽样方法,抽出最能反映总体结构的样本。经济普查事后质量抽查阶段,除了全国和各省制订统一的抽样方案外,省级以下普查机构也应当与国家抽查方案保持一致,这样有利于地方与国家质量评估结果的衔接与可比。
3.2 加强审核,控制质量
一是在录入前,要对普查表进行人工审核,做到普查表不重不漏。二是在数据处理阶段要加强数据审核。通过有经验的业务人员与计算机结合的审核方式,达到事半功倍的效果。三是加强对汇总表审核和数据存储。对汇总表的审核主要应用大数法则,审核汇总数的逻辑性和客观性,对于汇总结果有问题的数据,及时查明原因并核查校正,并对校正情况进行记录,建立经济普查数据库及基本单位名录库。
3.3 建立普查数据质量评价体系
建立普查数据质量评价体系是极其必要的。首先,统计机构组织有义务建立数据质量评价体系,并依据数据质量评价体系,进而提供统计数据质量报告。其次,统计机构组织自身也需评价其统计数据质量,进而监测其工作改进结果,且将该结果反馈到下一阶段统计工作中,这样其工作才会得到不断的改进。若统计机构组织缺乏先进的政府统计数据质量评价体系,而仅依靠主观感觉抑或根据个别质量特征予以笼统判断,则其结论难以令人信服,最终则会带来诸多损失。
3.4 充分发挥基本单位名录库在经济普查和日常统计工作中的作用
尽管国家统计局普查中心对名录库建设十分重视,但各级统计机构维护和建设的积极性并不高。究其原因,是名录库没有在国民经济核算和专业统计调查中得到很好的应用,形不成动力和压力。因此,建议国家统计局下更大的决心,作出硬性规定,要求各专业统一使用名录库,不能各行其是,这样才有利于推动名录库建设。
4 结 论
通过中国经济普查,能够对我国的现代经济发展以及规律有一个全面的了解和把握,通过对我国经济发展状况的分析和研究,制定出符合我国基本国情的经济政策和制度,进而促进我国的经济发展水平,推动我国社会的可持续发展。同时,对中国经济普查的数据方法研究不但能解决我国目前一些严峻的经济问题,还具有很高的学术价值,具有巨大的发展前景。在实际工作中,应该充分利用各种先进的技术对中国经济普查数据进行更全面和深层的挖掘分析和研究。
参考文献:
[1]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004.
[2]吕俊松.浅谈提高统计数据质量[J].中国统计,2014(3).
[3]陈海平,毕翠芬.统计数据质量控制研究[J].经济研究导刊,2014(13).