一种超大城市政府人口库数据架构设计

2022-08-18 01:56王衍祺
无线互联科技 2022年11期
关键词:数据模型人口编码

王衍祺,王 尧

(航天科工网络信息发展有限公司,北京 100143)

0 引言

随着超大城市流动人口逐年增多,政府各部门掌握流动人口的相关背景信息孤岛式存在,导致管理人口政府部门管理和服务容易跟不上、跟不紧。 为提升社会综合治理水平,首先要做到人口底数清,需构建权威的人口库。 人口库是政务信息四大基础库之一,目前人口库建模多为地方性标准[1]。 数据安全法、个人信息保护法对人口信息保护提出明确要求,如何在保护好个人信息的条件下融通各部门数据,建立政府统一的人口库,已成为政府治理城市的重要抓手。 传统构建人口大宽表的集中式[2]存在知悉范围过大情况。本文分析超大城市人口数据基础上,提出一种人口库数据架构和建模方法;此方法可数据全程加密,数据分散建模与存储,使用时根据业务事项构建人口块数据[3],进行数据整合与授权,确保信息安全。

1 超大城市政府人口库建设需求

1.1 概述

某市已建立企业、社会组织、事业单位及个人的数据库,初步发挥出了应有的作用。 由于各部门之间条块分割严重、标准不统一,造成领域的条状数据烟囱林立,数据散落在各个业务部门,数据分割现象严重,无法形成治理合力。

1.2 建设目标

构建“底数清”的人口库数据架构和数据模型,融合各部门条状数据,确保个人信息安全,实现数据按需使用,支持政府精细化人口社会治理及政府服务等业务应用。

2 架构设计

2.1 总体架构设计

人口库自底向上分为原始库、基础库和应用库,通过构建人口数据核心层,减少与底层数据源的耦合,快速响应上层数据应用需求,支持现有及新增数据主题建设,人口库总体架构如图1 所示。

原始库存储来自各部门的原始数据,并进行数据标准化,包括空值、异常值、多源数据不一致等处理,形成统一的数据基础。

基础库包括人口数据核心层以及人口颗粒数据和人口块数据。 人口数据核心层以人为核心,通过维度建模方式,将与人相关的信息抽象成自然人的基础特征、身份和关系等以及政府服务和管理管理相关的信息,构建人口的多维视图。 其中,人口基础信息实现对自然人的唯一标识,统一人口编码等;基础特征包括生理特征、社会特征等,身份和关系相关信息包括政治资格身份、政治面貌等社会身份以及血缘关系、财产关系、物权关系等社会关系的集合;政府服务围绕自然人从出生到死亡整个生命周期过程,划分为生育收养、科研教育、就业创业等阶段,每个阶段再细化建模;管理属性面向综合社会治理,以司法案件、综治事件等为基础,对重大人群进行分类分级。 基于人口数据核心层,进行数据离散化,拆解成无法再分的颗粒,作为数据使用和授权的基础。 面向业务事项需求,将多个颗粒组装成人口块数据,实现数据融合。

应用库基于基础库,面向业务场景进行组装、分析,构建各类专题库,经授权后对外提供数据服务。

数据经采集、整编、标准化处理后,形成规范的数据,通过数据建模加工,形成各类主题库数据,据此构建各类特色专题应用,处理流程如图2 所示。

图2 数据处理流程

2.2 数据建模设计

采用业务自顶向下梳理与自底向上数据盘点相结合的方式,参考人口相关规范[1-3]和数据模型,结合城市人口管理需求,从业务层将人口属性划分为基础特征、身份和关系、政府服务、管理属性等分组,通过维度建模方法,以人口为核心,结合数据源盘点情况补充相关属性,构建人口数据模型,实现信息整合。 数据模型设计如图3 所示。

图3 数据模型设计

人口基础信息表,基于户籍人口信息、网格办人口采集信息、社保信息等进行去重合并,结合业务规则筛选出现住人口信息。 设计人口编码算法,针对身份证、护照、港澳台通行证等不同证件,形成统一的人口编码标识,关联各属性分组。 对应基础特征分组,根据国家相关标准,对人口的生理特征、社会特征等属性进行补充。 身份和关系包括政治面貌、政治资格、行为能力等法定身份,以及血缘关系、继承关系、监护人关系等人与人之间的关系,产权关系、物权关系、债权关系等人与物的关系等。 政府服务对象围绕人的整个生命周期进行建模,通过人口唯一编码关联生育收养、教育科研、就业创业等不同阶段的数据。 管理属性分组涉及司法案件、综合治理重点事件及重点人等信息,建立人与事件的关系,构建数据模型。

人口颗粒对应一类无法再分的数据,颗粒取值对应维度建模中的维度值,如男性颗粒存储性别=男性的人口编码信息。 人口块数据实现多源数据的整合,基于人口编码对颗粒数据进行关联融合,形成具有一定业务属性的多维信息集合,如人口社会特征块包括民族、国籍、行业、职称等。

与传统数仓构建大宽表方式不同,本建模思路从业务角度对人口数据进行拆分,突出业务关键信息,每个属性表只记录一类无法再拆解的业务信息,实现数据分散存储;通过构建人口唯一编码,按需进行数据关联融合,形成人口颗粒和块数据。

2.3 数据安全设计

2.3.1 数据加密存储与处理

采用国密算法SM4 对接入平台的所有数据进行加密处理,包括前置机、原始库、基础库及上层应用库,且支持不同层采用不同的密钥管理。 前置库临时存储增量更新数据,定期删除;原始库、基础库通过认证的处理组件对密文进行计算,只有应用库经授权后对外提供服务。

2.3.2 数据分散存储,根据业务事项授权使用

人口颗粒数据—数据打标结果分散存储,每个颗粒对应一个独立的表,只存储根据证件号码生成的人口唯一编码(非原始证件号码);根据业务事项构建人口块数据,实现多源数据按需融合,通过业务事项实现块数据按需使用。

2.4 数据处理性能设计

超大城市数据存在数据量大、加密数据处理效率低等问题,通过将需要处理的数据进行细粒度筛选可跳过不满足条件的数据已提升数据处理效率,比如数据存储可使用hive orc 格式或者parquet 格式,数据处理可利用支持分布式内存计算的spark 引擎。

3 应用

人口库综合各类数据资源,结合法定数据的基础上可形成各行各业的法定库,全方位刻画人员画像,为具体业务提供法定支撑,如各行业从业资格审查;也可从人口库精确提取人口统计信息,为政府进行社会治理、人员管理、改善政府的公共服务,提高服务质量等工作提供智能决策支持。

4 结语

随着大城市群人口的迅速发展,政府人口治理充满了新的挑战与机遇。 本文在考虑个人信息安全的条件下,提出了一种数据颗粒化解耦、块化融合的人口库数据架构和建模方法,此架构可有效保障个人信息数据使用尺度,也可以为超大城市人口库建设、助力政府精细化治理城市提供架构参考。

猜你喜欢
数据模型人口编码
《世界人口日》
人口转型为何在加速 精读
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare
面板数据模型截面相关检验方法综述
人口最少的国家
1723 万人,我国人口数据下滑引关注
加热炉炉内跟踪数据模型优化