“五经普”数据清洗的JSA 技术实现
——以江西省一套表调查单位监测平台为例

2023-03-10 08:29李渊本邓露露陈唯蓉
内蒙古统计 2023年5期
关键词:数据表普查数据处理

文/李渊本 邓露露 陈唯蓉

一、引言

在对统计数据进行清洗时, 面临着数据量大、操作重复性高、处理步骤繁琐等问题, 如何低成本、高质量、高效率地完成统计数据清洗工作, 尤其是在人手不足、信息技术手段较弱、软硬件配置不高的基层统计部门, 通过充分利用现有的统计办公手段, 进行统计数据快速清洗, 其方法值得研究。本文以江西省一套表调查单位监测平台数据快速清洗为例, 通过统计日常办公的WPS 表格软件, 运用JSA 技术对WPS 表格二次开发, 探索出对统计普查数据整合、筛选、去重、计算、转换等一套行之有效的数据清洗方法, 有助于基层统计部门数据处理的提速增效。

二、WPS 表格软件及JSA 宏特点

WPS 表格软件因强大的功能与友好的交互界面,被广泛地应用到统计部门办公场景之中。利用该软件可以完成信息保存、数据计算、数据处理、数据分析等任务。虽然WPS 表格已经集成了较多的数据处理功能,但在许多统计数据处理场景下,为了机械操作、重复步骤投入大量的人力、物力和时间,严重影响工作效率。若将此类工作内容的处理方式转化为利用JSA 技术进行WPS 二次开发程序自动操作完成,将极大提升统计数据处理工作效能。具体来说有如下三项优点。

一是用户软件友好度高。作为国人自研办公软件,金山WPS 已经在机关单位中得到广泛部署(如图示1),其操作上更符合国人信息化办公习惯,相较于微软Excel 软件,用户使用上更具亲切感,软件友好度更高。

图1 WPS 表格说明

二是方法便捷易上手。由于基层统计人才建设相对薄弱,能够熟练运用专业数据业务软件和具有编程能力的人才相对较少,WPS 表格二次开发程序通过点击JSA 宏编辑器二次开发的用户界面窗口的相应命令按钮即可完成操作,用户上手快,极大简化了其操作步骤。

三是可在类似数据处理场景中多次使用。无需另行安装和学习新的软件, 复制带有JSA 宏的WPS 表格文件进行操作,就可以实现其他相类似的数据清洗的完整流程。

三、数据清洗基本流程

数据是构成信息的基本形式,特别是统计调查中的数据。如何从海量数据中提取有价值信息,数据清洗就显得尤为重要[1]。数据清洗是指对数据进行处理和加工, 以使其适合进行进一步的数据操作和分析,它可以消除数据错误和噪声,并提高统计数据质量和统计分析精度,是提升数据质量的有效途径。

数据清洗基本流程有以下几个方面。一是对源数据的读取后进行数据整合,包括对CSV 文件,WPS 表格、Excel 工作簿以及MS SQL 等数据文件的数据读取和整合。二是对合并后的源数据进行筛选选择需要目标数据的行或者列。三是对筛选出的目标数据进行数字去重处理,通过关键字段得到数据的唯一值。四是对筛选出的目标数据进行计算,比如对相同指标字段求和的数据计算。五是对数据进行数据转换,对日期格式或者单元格格式的转换,以及对整个数据集的文件格式的转换。

数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到数据质量和最终效果[2]。在具体实践中, 数据清洗通常会占据数据处理过程60%-80% 的时间, 因此, 数据清洗工作不仅非常必要,也是整项数据处理工作的重点与难点。

四、监测平台数据清洗功能需求和设计思路

数据清洗是指通过一系列操作,将原始数据转为可以进行分析的数据集的过程。从数据源头进行数据源清洗,可以避免数据错误对后续数据汇总、数据使用、数据分析等环节产生影响[3]。本文以监测平台数据清洗为例,数据清洗可以分为数据整合、数据筛选、数据去重、数据计算、数据转换五个步骤。其功能需求(如图示2)和设计思路如下。

图2 功能模块树状图

第一步,从监测平台下载税务部门提供的每月“达标市场主体一般纳税人”、每月“达标市场主体小规模纳税人”数据表,并对照源数据与导入模板表头的字段指标,调整没有对应的字段,这步很关键,表头的每一个字段都要对应上。进行数据整合操作,形成完整的数据集,保存于模板数据工作表中。

第二步,对模板数据工作表中的数据集,由于“统一社会信用代码”与统计普查对象是一一对应关系,通过“统一社会信用代码”字段进行筛选,把“统一社会信用代码”相同的普查对象筛选出来,并高亮标记红色。

第三步,此时在模板数据表所在的工作簿中,新插入工作表,并命名为“辅助表1”,将高亮红色标记的“统一社会信用代码”相同的普查对象数据信息移(复制)至“辅助表1”,再通过“统一社会信用代码”字段进行去重操作,达到对普查对象进行去重的目的,此时,辅助表1 工作表中只有相同普查对象的唯一值。

第四步,此时在模板数据表所在的工作簿中,再新插入一张工作表,并命名为“辅助表2”,将高亮红色标记的“统一社会信用代码”相同的普查对象数据信息移(剪切)至“辅助表2”工作表,与“辅助表1”工作表关联,对统一社会信用代码相同的单位涉及增值税销售额的“全部销售额”“按适用税率计税销售额”“按简易办法计税销售额”“免抵退办法出口销售额”“免税销售额”“进项税额”“销项税额”等7项指标字段进行相加计算,数据计算结果保存在“辅助表1”工作表中,并将其数据结果移至模板数据表中,此时模板数据表中数据集为完整的监测平台数据。

第五步,对模板数据表中数据进行数据转换,例如,把涉及增值税销售额的指标源数据单位“元”全部转换为“万元”,把源数据日期格式“YYYY/M/D”转换为“五经普”模板所要求的格式“YYYY-MM-DD”等。完成监测平台数据清洗后,将模板工作表的xlsx文件格式转换为CSV 文件格式,与统计基本单位名录库数据合并生成单位清查基础库。

五、数据清洗的JSA 技术实现

(一)数据整合

通过数据整合将分散的数据集合在一起,将以上数据集合转换为统一的WPS 表格格式, 并保存在同一张WPS 表格工作表中。需要使用SelectedSheets.Move()方法,整体移动数据表汇总到一张工作表中,使用Selection.Copy()、ActiveSheet.Paste() 方法,对工作表内所需数据进行复制。

(二)数据筛选

对工作表数据进行数据查找, 做重复项查找的字段为“统一社会信用代码”, 筛选出重复项数据并高亮标记为红色。需要使用Columns.Item("A:A").Select()方法,对重复项筛选所在列的数据选择,使用Selection.FormatConditions.Item(1).Interior.Color= (0, 0, 255)代码对重复值高亮标记为红色。

(三)数据去重

使用RemoveDuplicates() 方法, 对“统一社会信用代码”字段的重复项进行去重,得出一张“统一社会信用代码”唯一值的数据表,并以此数据表为基础表进行下一步的数据计算操作。

(四)数据计算

通过“统一社会信用代码”字段筛选出重复项数据后,按照“统一社会信用代码”字段中相同单位涉及增值税销售额的指标进行相加,指标共有7 项。使 用Selection.Formula = "=SUMIF()" 方 法, 对SUMIF 公式进行引用,使用Selection.AutoFill()方法,自动填充所有其他数据进行相同计算,最后得到计算后的数据。

(五)数据转换

由于一套表中数据的单位和格式与“五经普”要求略有不同,因此要将模板工作表数据进行转换,以满足“五经普”要求。通过PasteSpecial() 方法, 进行“选择性粘贴”,将数据的通用格式转换为数值格式;第二步,将数据值除以10000,使得数值单位从“元”转换为“万元”;第三步,将数值保留有效小数后两位;最后,通过NumberFormatLocal()方法将原日期格式改成“五经普”所要求格式。使用ActiveWorkbook.SaveAs()方法,最后将工作簿文件转换为CSV 文件。

六、总结

综上所述,利用JSA 宏技术手段从源头上把控数据质量, 提升普查数据处理能力, 科学、规范、高效推进普查工作,做到一套表调查单位不重不漏,增减变动情况在单位库中准确反映,确保单位清查基础库数据的全面、真实、有效。该信息化技术实现数据快速清洗的方法,在其他统计调查数据处理工作中也非常实用,只要通过简单的代码修改,数据整合、数据筛选、数据去重、数据计算、数据转换等功能模块就可在相类似的数据处理过程中使用,因此,该实践对于提升统计调查数据处理效率有着较大的应用价值,值得进一步丰富完善和大力推广。下一步,笔者将继续积极探索现代化信息技术手段在统计调查工作中的应用,不断加强信息技术在统计工作的应用力度,提高数据处理能力,提升统计调查工作效能,为“五经普”的顺利实施和现代化统计事业贡献应有力量。

注:“五经普”全称为第五次全国经济普查

猜你喜欢
数据表普查数据处理
立即全面普查 警惕二代粘虫发生
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
胡春华强调:确保脱贫攻坚普查取得圆满成功
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
湖北省新冠肺炎疫情数据表
基于列控工程数据表建立线路拓扑关系的研究
关于农业文化遗产普查与保护的思考
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
图表
学习调查要“四会”