基于Excel和Oracle的专项普查及数据处理系统设计

2019-10-08 05:48周艳会张磊尹党辉
电子技术与软件工程 2019年15期
关键词:数据项普查信息系统

文/周艳会 张磊 尹党辉

普查是为特定目的而专门组织的全面调查,是系统、全面、准确掌握某特定领域情况的有效手段。但普查内容的设定、普查信息的收集方式、普查数据的有效性校验和汇总,以及对普查结果的统计分析,则是得到有用普查结果的关键。下面以某行业体系内信息系统普查为例,介绍一种有效实用的普查方式及普查信息汇总统计的软件设计方法,在实践中,本普查方法和据此设计研制出的普查数据处理系统,为该专项信息普查作出了重要贡献。

1 普查模板的设计和下发

1.1 确定普查时间点、期限和范围

普查具有时效性,应事先规定所查信息是哪个时间点之前的数据,且应规定普查数据多长时间内收集完成,否则普查数据可能会不准确;普查范围包括被普查的单位范围和信息填报原则,确定普查范围和信息填报原则很重要,能从源头上避免更多的重复信息收集,同时减少工作量。例如,只要求各级综合部门填报数据,每级单位只填写本级产生的数据,不可填写下级上报和上级下发的内容。

1.2 确定普查内容和主要指标

普查内容和主要普查指标,决定了整个普查的方向和方法。本示例中,普查内容是本行业体系内,在用在研的信息系统的基本情况和数据项,包括:

(1)信息系统部署应用情况,主要包括系统名称、主要功能、开发单位、部署应用范围、使用部门和岗位。

(2)信息系统功能模块组成情况,主要包括系统功能层次、功能模块名称、功能说明、输入输出数据表。

(3)信息系统基本数据项情况,主要包括系统基本数据表(不包括生成的统计表和过程表)所含全部数据项的名称、含义、数据类型、取值范围、数据流向。

(4)系统技术文档电子版(需求分析报告、概要设计文档、详细设计文档、数据库设计文档、用户手册)、系统安装盘留存情况。

本次普查的重要指标是本行业信息系统的数量和分布情况,各类数据项的内容和数量等。本示例在研究信息系统数量和数据时,采用业务主题的方式分类,主要分为人员类、物资类、经费类、设施类等,所以,在研究信息系统和数据项时,可根据单位和业务主题进行分析;数据库类型根据实际常用的数据库来设,包 括Access、Sql Server、mysql、Οracle等;使用范围列出从大到小的规范用词,可复选。

1.3 制定普查模板

因为被普查单位遍布全国各地,内部网络联通性不一定很理想,需要填写的普查信息也不适合在公共网络上传输,所以制定Excel格式模板,便于灵活填写和汇集。制定模板的原则,一是简洁易填,二是要反映核心问题。普查模板的主要设计要求是:

(1)明确区分数据来源。以每一单位的名称(代码)、位置(代码)作为本单位上报普查信息的首页。每一信息系统设定必填的关键项,并把必填项规范为数据字典,信息系统类别便是必填项之一。

(2)充分使用Excel的数据有效性校验和提示功能,将普查模板所有需填写的信息进行规范,便于汇总和统计。例如:将可能的、规范的或输入复杂的填写内容,利用数据有效性的序列功能,作为预置选项;遇到填写一定类型或范围内的数值时,如整数范围、小数范围、文本长度等,利用数据有效性校验,在对应单元格加入对数据类型和长度的规定,并设置信息提示;实在无法内置选项但又容易填错的,应在模板中设定数据类型,并提示填写格式,如日期、时间的填写内容。

2 数据结构设计

数据结构应与普查模板相对应,比如要设计单位表、信息系统基本情况表,数据项基本情况表等相关联的表结构。

本普查系统是个小的独立系统,可网上部署,异地多用户使用。根据需求,数据结构设计如图1所示。

(1)系统数据。用来进行系统运行维护和管理的数据。包括系统用户、用户权限、日志等。

图1:数据结构设计图

图2:普查过程、系统功能及使用流程图

(2)基准数据。是本系统的基础标准数据,主要包括单位基础信息、信息系统分类、操作系统类型、数据库类型等基础标准和字典信息。

(3)普查数据。普查结果数据,主要包括通过普查模板填写的信息系统基本情况数据,数据项信息等。

(4)统计数据。主要存储用来进行统计分析的数据模型和统计分析计算的结果数据。

3 系统功能设计

本示例的普查过程、系统功能及使用流程如图2。

3.1 数据检查

即对普查收集上来的数据进行合格性检查和初步规范。通过网络、邮件或光盘等渠道报来的电子版原始数据,按单位顺序备份到专用文件夹中,然后进行数据检查和初步规范。

首先要读取数据,从第一行数据的第一列开始,逐项数据读取,检查收集到的普查数据,并判断是否符合填写要求,符合要求,则移到下一列,一行检查完后,移到下一行继续检查,直至文件尾,如果不符合要求,则提示出错的当前行、列及错误信息内容。必要时需要打开原文件,进行修改。

最常见的问题包括:数据项的数据类型、长度不符合要求、日期时间和数值的填写错误导致无法转换成相应格式等。一般进行系统功能检查前,先进行人工检视,人工检视是根据普查模板和普查要求,通篇浏览全部数据,若有较明确的数据问题,则立即修正。

3.2 汇总入库

通过数据检查的普查数据,经过数据格式转换、内容转换等操作,将Excel格式的非结构化数据存入Οracle格式的结构化数据表中,在此过程中若有问题导致读入导常,应编制详细的提示信息,将错误所在位置和问题显示出来,便于修改。

3.3 数据规范

规范数据主要有两项任务:一是去重,一般普查数据重复率较高,信息系统应通过关键项判别去重,例如可用报送单位名称+信息系统类别+研制单位+研制时间等,判别并删除重复信息;数据项去重的工作量较大,可以用模糊查询列出全部相关或类似的数据项,然后人工辨别,删除重复项或照着类似项。二是规范代码,因部分收集来的信息会有误,可以按照一定的规则,进行统一修改,规范存入数据库的数据。

3.4 统计与查询

根据统计方式,本示例的统计方法分为模型统计与条件统计。

(1)模型统计。模型统计要求先设定统计模型,然后根据预设的模型进行一次统计、多次展现。这类统计一般较复杂,统计模式相对固定。常用在一些统计数据较多的复杂统计综合表中,每一表格与不同的统计模型、统计结果数据对应,每次重新统计,对应更新统计结果数据。

(2)条件统计。条件统计一般与查询相结合,设置单项或组合条件后,可以查询得出条件范围内的结果数据列表,也可以在此基础上进行统计,得出统计数据。

4 输入输出和部署

4.1 输入

Excel的接口,主要用于普查数据表输入、数据字典表导入。

4.2 输出

查询结果输出、统计分析结果输出等。查询结果一般以列表形式输出,统计分析结果包括统计图形和统计表。统计图输出可以是柱形图、折线图、饼图、雷达图、圆环图等,统计表应根据需求,输出对应统计结果表,如按单位统计的信息系统分布表、按业务主题统计的数据项表等。

4.3 部署和使用

系统部署可采用网上集中部署,分散授权使用的方式,简化工作流程,便于信息收集和处理。

猜你喜欢
数据项普查信息系统
立即全面普查 警惕二代粘虫发生
企业信息系统安全防护
胡春华强调:确保脱贫攻坚普查取得圆满成功
一种多功能抽签选择器软件系统设计与实现
非完整数据库Skyline-join查询*
基于Python的Asterix Cat 021数据格式解析分析与实现
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
关于农业文化遗产普查与保护的思考
基于SG-I6000的信息系统运检自动化诊断实践