金美琳
摘 要 经过研究前3次的经济普查方法,发现现有的经济普查方式太过复杂,消耗大量的人力、物力和财力,并且对经济普查大数据的分析没有一套健全并且相适宜的挖掘技术。本文从大数据时代的经济普查入手,简单阐述了大数据时代以计算为中心的理念要逐渐转变为以数据为中心,形成数据思维,并扼要分析了经济普查的大数据的情况,并对中国经济普查的数据挖掘方法进行了简单的阐述。
关键词 大数据;经济普查;数据挖掘
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2016)162-0067-01
1 大数据时代的经济普查
经过前3次的全国经济普查,我国克服重重困难,终于建立了较完全的经济普查体系。但是,随着我国人口的增多、经济的增长,经济普查所得到的数据也随之增多。那么要想在大数据时代下,保证经济普查的结果能够有利于我国的经济的快速发展,就需要利用高效、可靠的数据挖掘工具,结合切实可行的数据挖掘方法。
2 经济普查大数据状况
近几年中国的经济发展迅速,实时记录中国经济的属性特征、结构特点和变化规律显然是巨大的系统工程。普查对象是在我国境内从事第二产业、第三产业的全部法人单位、产业活动单位和个体经营户。普查主要内容包括单位基本属性、就业人员等。
从图1和图2可以看出,每次经济普查得到的数据逐渐增多,运用怎样的数据挖掘方法,使得到的数据发挥到最大的价值是我们值得思考的问题。
3 大数据时代经济普查的数据挖掘方法
3.1 数据挖掘
数据挖掘从其字面上看是指利用工具去挖掘数据中隐藏的、未被人发现的东西。深层次方面讲,数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。其优点有以下2点:数据挖掘这项技术是指从大量有效的数据中提取出可以被人们利用的、隐藏在庞大的数据源中模糊的知识和信息的过程;数据挖掘技术是一项结合多门学科知识,对各种形式、各种内容的数据资料进行再深入挖掘的一个可利用在社会各个领域的、功能强大的综合技术。
3.2 数据挖掘方法
在进行经济普查数据挖掘过程中,应该针对我国经济普查的实际情况,选择比较先进、方便、适合的数据挖掘工具软件,再通过运用各种数据挖掘工具软件对经济普查中的典型数据进行一定的预处理,从而研究出适宜我国经济普查的数据挖掘方法。以下是目前比较先进的数据挖掘工具和方法:
1)SQL Server 2000 Analysis Services:该软件是微软为迅速提供可伸缩性电子商务、企业及数据仓库解决方案而开发的完整数据库与分析软件产品。它提供了一款完善的数据管理和数据分析解决方案。它极大地缩短了用户开发电子商务、数据仓库应用的时间。具有高效的数据分析性能、灵活的业务扩展性、操作系统集成的安全性、客户管理工具的易用性、快速的开发与生产投入等优点。此外,按照设计可以部署和维护强大的、易于管理、支持商务的Web站点提供最好的性能。
2)SAS:它是一款统计分析软件。其软件模组中SAS系统是一个模块化、集成化的大型模组软件系统,它主要完成以数据为中心的数据访问、数据管理、数据呈现、数据分析这四大方面的任务。SAS系统还具有灵活的功能扩展接口和强大的功能模块,通过增加不同的模块为用户提供了更多的功能;通过SAS的智能型绘图系统和各种有关统计方面的函数,使用户对数据有了更直观、透彻的了解与分析。
3)决策树:它主要由决策点、状态点和结果节点构成。运用决策树的前提要求使用者已知各种情况发生概率,然后通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。决策树具有易于理解和实现、决策分析时间短、测定模型可信度便捷等优点。但由于分析的过程比较粗略,就产生了对连续性的字段预测困难、对有时间顺序的数据要预处理、错误率高等问题。
4)SPSS Clementine:在Clementine这个数据挖掘平台,通过迅速建立有效的预测性模型,应用于商业活动中,可以帮助人们改进决策方法和决策过程。Clementine拥有显著的投资回报率和强大的数据挖掘功能等优点。相同条件下,与那些仅仅关注模型的外在表现却往往忽略数据挖掘在整个流程中的应用价值的其它数据挖掘工具相比,其功能无可取代的数据挖掘算法,使数据挖掘贯穿始终。
5)Intelligent Miner:它采用了多种统计方法和挖掘算法。它能处理的数据类型有:结构化数据(如:数据库表,数据库视图等)和半结构化或非结构化数据(如:顾客信件,在线服务等)。利用其独一无二的世界领先技术,例如发现关联、自动生成典型数据集、发现序列规律、概念性分类和可视化呈现,可以自动地完成数据选择、数据转换、数据挖掘结果表达这一全套数据挖掘操作。
根据以上对数据挖掘方法的深入研究分析,利用SQL Server 2000Analysis Services数据挖掘工具更适宜我国经济普查的数据挖掘。
参考文献
[1]第一次全国经济普查主要数据公报(第一、二、三号),国家统计局,2005.
[2]第二次全国经济普查主要数据公报(第一、二、三号),国家统计局,2009.
[3]第三次全国经济普查主要数据公报(第一、二、三号),国家统计局,2014.
[4]张雪英.国外先进数据挖掘工具的比较分析[J].计算机工程,2003,29(16):1-3.
[5]杨鹏鹏.中国经济普查的数据挖掘方法研究[J].中国市场,2015(39):25-26.
[6]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析.统计研究,2014,31(2):10-19.