文/周艳会 张磊 尹党辉
普查是为特定目的而专门组织的全面调查,是系统、全面、准确掌握某特定领域情况的有效手段。但普查内容的设定、普查信息的收集方式、普查数据的有效性校验和汇总,以及对普查结果的统计分析,则是得到有用普查结果的关键。下面以某行业体系内信息系统普查为例,介绍一种有效实用的普查方式及普查信息汇总统计的软件设计方法,在实践中,本普查方法和据此设计研制出的普查数据处理系统,为该专项信息普查作出了重要贡献。
普查具有时效性,应事先规定所查信息是哪个时间点之前的数据,且应规定普查数据多长时间内收集完成,否则普查数据可能会不准确;普查范围包括被普查的单位范围和信息填报原则,确定普查范围和信息填报原则很重要,能从源头上避免更多的重复信息收集,同时减少工作量。例如,只要求各级综合部门填报数据,每级单位只填写本级产生的数据,不可填写下级上报和上级下发的内容。
普查内容和主要普查指标,决定了整个普查的方向和方法。本示例中,普查内容是本行业体系内,在用在研的信息系统的基本情况和数据项,包括:
(1)信息系统部署应用情况,主要包括系统名称、主要功能、开发单位、部署应用范围、使用部门和岗位。
(2)信息系统功能模块组成情况,主要包括系统功能层次、功能模块名称、功能说明、输入输出数据表。
(3)信息系统基本数据项情况,主要包括系统基本数据表(不包括生成的统计表和过程表)所含全部数据项的名称、含义、数据类型、取值范围、数据流向。
(4)系统技术文档电子版(需求分析报告、概要设计文档、详细设计文档、数据库设计文档、用户手册)、系统安装盘留存情况。
本次普查的重要指标是本行业信息系统的数量和分布情况,各类数据项的内容和数量等。本示例在研究信息系统数量和数据时,采用业务主题的方式分类,主要分为人员类、物资类、经费类、设施类等,所以,在研究信息系统和数据项时,可根据单位和业务主题进行分析;数据库类型根据实际常用的数据库来设,包 括Access、Sql Server、mysql、Οracle等;使用范围列出从大到小的规范用词,可复选。
因为被普查单位遍布全国各地,内部网络联通性不一定很理想,需要填写的普查信息也不适合在公共网络上传输,所以制定Excel格式模板,便于灵活填写和汇集。制定模板的原则,一是简洁易填,二是要反映核心问题。普查模板的主要设计要求是:
(1)明确区分数据来源。以每一单位的名称(代码)、位置(代码)作为本单位上报普查信息的首页。每一信息系统设定必填的关键项,并把必填项规范为数据字典,信息系统类别便是必填项之一。
(2)充分使用Excel的数据有效性校验和提示功能,将普查模板所有需填写的信息进行规范,便于汇总和统计。例如:将可能的、规范的或输入复杂的填写内容,利用数据有效性的序列功能,作为预置选项;遇到填写一定类型或范围内的数值时,如整数范围、小数范围、文本长度等,利用数据有效性校验,在对应单元格加入对数据类型和长度的规定,并设置信息提示;实在无法内置选项但又容易填错的,应在模板中设定数据类型,并提示填写格式,如日期、时间的填写内容。
数据结构应与普查模板相对应,比如要设计单位表、信息系统基本情况表,数据项基本情况表等相关联的表结构。
本普查系统是个小的独立系统,可网上部署,异地多用户使用。根据需求,数据结构设计如图1所示。
(1)系统数据。用来进行系统运行维护和管理的数据。包括系统用户、用户权限、日志等。
图1:数据结构设计图
图2:普查过程、系统功能及使用流程图
(2)基准数据。是本系统的基础标准数据,主要包括单位基础信息、信息系统分类、操作系统类型、数据库类型等基础标准和字典信息。
(3)普查数据。普查结果数据,主要包括通过普查模板填写的信息系统基本情况数据,数据项信息等。
(4)统计数据。主要存储用来进行统计分析的数据模型和统计分析计算的结果数据。
本示例的普查过程、系统功能及使用流程如图2。
即对普查收集上来的数据进行合格性检查和初步规范。通过网络、邮件或光盘等渠道报来的电子版原始数据,按单位顺序备份到专用文件夹中,然后进行数据检查和初步规范。
首先要读取数据,从第一行数据的第一列开始,逐项数据读取,检查收集到的普查数据,并判断是否符合填写要求,符合要求,则移到下一列,一行检查完后,移到下一行继续检查,直至文件尾,如果不符合要求,则提示出错的当前行、列及错误信息内容。必要时需要打开原文件,进行修改。
最常见的问题包括:数据项的数据类型、长度不符合要求、日期时间和数值的填写错误导致无法转换成相应格式等。一般进行系统功能检查前,先进行人工检视,人工检视是根据普查模板和普查要求,通篇浏览全部数据,若有较明确的数据问题,则立即修正。
通过数据检查的普查数据,经过数据格式转换、内容转换等操作,将Excel格式的非结构化数据存入Οracle格式的结构化数据表中,在此过程中若有问题导致读入导常,应编制详细的提示信息,将错误所在位置和问题显示出来,便于修改。
规范数据主要有两项任务:一是去重,一般普查数据重复率较高,信息系统应通过关键项判别去重,例如可用报送单位名称+信息系统类别+研制单位+研制时间等,判别并删除重复信息;数据项去重的工作量较大,可以用模糊查询列出全部相关或类似的数据项,然后人工辨别,删除重复项或照着类似项。二是规范代码,因部分收集来的信息会有误,可以按照一定的规则,进行统一修改,规范存入数据库的数据。
根据统计方式,本示例的统计方法分为模型统计与条件统计。
(1)模型统计。模型统计要求先设定统计模型,然后根据预设的模型进行一次统计、多次展现。这类统计一般较复杂,统计模式相对固定。常用在一些统计数据较多的复杂统计综合表中,每一表格与不同的统计模型、统计结果数据对应,每次重新统计,对应更新统计结果数据。
(2)条件统计。条件统计一般与查询相结合,设置单项或组合条件后,可以查询得出条件范围内的结果数据列表,也可以在此基础上进行统计,得出统计数据。
Excel的接口,主要用于普查数据表输入、数据字典表导入。
查询结果输出、统计分析结果输出等。查询结果一般以列表形式输出,统计分析结果包括统计图形和统计表。统计图输出可以是柱形图、折线图、饼图、雷达图、圆环图等,统计表应根据需求,输出对应统计结果表,如按单位统计的信息系统分布表、按业务主题统计的数据项表等。
系统部署可采用网上集中部署,分散授权使用的方式,简化工作流程,便于信息收集和处理。