面向地理实体的广州市“实有”人房数据库建设

2022-01-17 06:37毛海亚何正国程国荣
地理空间信息 2021年12期
关键词:尺度实体房屋

毛海亚,何正国,程国荣,黄 铎

(1. 广州市规划和自然资源自动化中心,广东 广州 510030;2. 广州邦城信息技术有限公司,广东 广州 510640;3. 华南理工大学建筑学院,广东 广州 510641;4.亚热带建筑科学国家重点实验室,广东 广州 510641)

“实有”人房数据在城市细微空间粒度的地理实体,特别是个体人口的表达方面,是对传统意义上城市基础数据的一次创新,也是推动城市精细化管理的重要基础。本文从“实有”人房数据应用需求出发,着重分析了面向地理实体的“实有”人房数据库建设中数据质量标准建设、地理实体空间化、多尺度实体数据管理、数据更新等方面的内容。基于制定“实有”人房数据处理方法及规则,构建数据库中的对象关系,设计“实有”人房数据库结构,形成以地理实体为核心的多粒度数据库,为下一步“实有”人房数据库应用提供了规则与范例[1-3]。

1 需求分析

建设面向地理实体的“实有”人房数据库的前提,是基于具有独立编码的人、房等地理实体单元,构建实体单元之间的规则。在此基础上,建立地理实体单元的数据质量及清洗标准,以及数据库的多尺度建库与“实有”数据更新规则。以此,建立统一数据质量标准,人、房多实体关联、多粒度数据集成以及定期更新的地理实体数据库。

1.1 数据质量控制

由于地理实体单元的最小粒度划分,其数据采集具有数据量大,数据精度控制在计算和成本上都有着较大的难度[4]。在广州市“实有”人房数据采集过程中,市域层面特别是“实有人口”数据量巨大,且采集与处理过程中存在标准不一,数据录入缺乏审核等导致数据质量存在问题。同时,由于“实有人口”基于个体居民的数据采集,有别于传统人口数据采集中以行政单元的人口统计为数据采集单元,其数据质量和标准化成为“实有”人房数据采集与处理中需要首先解决的问题。依据“实有”人房数据质量评估所存在的问题,主要从数据完整性、一致性、准确性等方面构建“实有”人房数据地理实体单元的清洗标准,以提高“实有”人房数据的可用性,如图1 所示。

图1 “实有”人房数据清洗标准构建

1.2 地理实体空间化

地理实体是能够进行编码且有关联位置和属性信息的独立实体[3],其中独立的编码是“实有”人房数据作为地理实体的前提,同时统一的实体编码能够作为“实有”人房数据之间连接的桥梁。地理实体是由其几何形态、语义特征和属性信息加以描述的[1],在“实有”人房数据地理实体的构建中对地理实体的描述(包括空间位置、几何形态、属性特征、要素关系及时态特征),从不同的角度来强化对地理实体的描述,如图2 所示。

图2 以人口实体单元为中心的数据处理与空间化

“实有”人房原始数据表达了每个地理实体单元的独立编码以及对应社会与经济属性信息。基于这一关联表构建关系链与空间映射,“实有人口”通过“实有房屋”空间化来获取空间属性。其中“实有房屋”包括“实有房屋栋”和“实有房屋套”两部分。“实有房屋”空间化的过程,是以地名地址引擎作为空间信息与其他非空间信息的桥梁[5],首先将“实有房屋栋”的空间地址通过地名地址引擎产生标准地址代码,然后“实有房屋栋”通过地址代码关联到标准门牌地址库获取空间属性,“实有房屋套”通过房屋栋和房屋套间的从属关系间接获取空间属性,实现“实有房屋”的空间化并进而实现“实有人口”的空间化。

1.3 多尺度实体数据管理

“传统”测绘向“新型”测绘转变的核心特征之一,是以地物类型化到地理实体独立化的转变,这一过程中需要处理海量数据的属性表达与独立实体可视化这一挑战[6]。应用实践中,单一空间粒度与比例尺的地理实体表达不能满足地理实体表达模式的需求,需要构建多粒度的时空实体[7]。“实有”人房数据中,特别是“实有人口”数据在广州市数据量巨大,难以单一尺度处理,需要建立人口数据的多尺度的空间数据模型。

多尺度实体数据创建及管理是在“实有人口”实现空间化的基础上开展,首先聚合特定空间单元中的原始人口点数据作为聚合点的属性信息(包括各性别人数、各人口类型人数、各年龄阶段人数、劳动人口、育龄妇女人口等),实现原始尺度基础上下一尺度的空间变换与属性聚合。在新的尺度数据基础上,以该尺度人口聚合点重新划分规则格网生成更小比例尺聚合点图层,以此规则在新的聚合点图层中重复以上过程,生成从大到小比例尺下对应的聚合点图层,如图3所示。

图3 多尺度实体人口数据生成

形成不同尺度人口聚合点图层是求解聚合点空间位置及属性信息的过程,在每个格网单元中,聚合点的空间坐标采用加权平均数的方式,权重为该点人口总数,聚合点的属性字段为格网单元中所有点对应字段之和,计算公式如下:

式(1)、(2)中,X、Y表示聚合点的坐标;xn、yn为一个抽稀单元中第n个点的原始点坐标;mn为抽稀单元中第n个人口点人口总数;mi为当前格网中所有点的总人数的算数平均数。(3)式中f为聚合点中字段f对应的值,fi为该抽稀单元中第i个原始人口点对应的f字段值,即聚合点f字段的值为格网单元中所有原始人口点f字段之和。依据不同比例尺将聚合每一层聚合点数据保存为库中的空间表,每条空间表的中的记录表示某一数据尺度下对应规则格网中所有地理实体的统计信息。形成了多粒度的人口数据,能够为不同尺度下的数据访问提供快速的响应。

1.4 数据更新

在“实有”人房数据中,“实有人口”处于流动状态,因而同时具有时态性。考虑数据特别是人口数据的海量规模,“实有”人房数据更新模式为以一定周期为时间节点的定时增量更新策略。基于原始“实有”人房表单数据生成初始空间数据库基础上,以定时更新模式对“实有”人房空间数据库进行增量更新。更新过程以更新脚本的方式运行,按照数据处理规则,经过更新数据抽取、数据清洗、空间落地、更新地理实体及相关等步骤对原始采集数据进行处理得到空间化的“实有人口”及“实有房屋”数据,并更新到“实有”人房空间数据库,同时将当前现势库通过更新时间标签存储到历史库中。在具体的更新周期控制方面,依据数据本体的时态特征并考虑数据推送及采集的实际情况,确定“实有”人房应用数据库的更新周期为一周。

更新过程中,原始“实有”人房数据库中存储着“实有人口”及“实有房屋”中所有时间序列的表单数据,当原始“实有”人房数据库更新完成后,触发“实有”人房数据库的更新程序。首先通过更新数据对应的更新时间戳对比当前数据库查找更新要素,将更新的地理实体写入到历史库中,并对提取的更新数据按照数据清洗流程以及已更新的对象关系进行空间化,最后进行多尺度实体数据生成,完成数据的时态更新,如图4 所示。

图4 “实有”人房数据库更新机制

2 数据库设计与建设

2.1 概念设计

广州市“实有”人房数据中地理实体的基础属性,主要包括实体标识信息和属性信息这两部分,用来标志地理实体和表示实体相关属性,如在“实有人口”中,用人口ID 作为“实有人口”的唯一标识,人口类型、年龄、户籍等信息表述人口实体的相关属性,实体的空间属性存储着实体对象的空间几何信息及位置信息,通过对象标识信息映射到空间几何信息上。表1列举了广州市“实有”人房数据库中的表单内容,图 5用ER 图来表示数据库中的实体及其关系。

图5 “实有”人房实体数据库ER 模型

表1 “实有”人房数据库表单内容

2.2 结构设计

以广州市“实有”人房数据库中人口信息表中“人口ID”作为主键,其他字段如人口类型、年龄、性别等为属性字段,同时包括空间属性用来存储人口的空间信息;关系信息表包括人房关系,在人房关系中使用人口ID 字段和房屋栋ID 字段的关联来存储人口与房屋之间的关系,统计信息表包括基于门牌的人口统计信息表;空间信息表是在属性信息表和统计信息表的基础上通过添加空间字段,该字段存储着地理实体的空间位置信息。在每个地理实体对应的属性表中保存着该地理实体的更新时间。

在空间信息表中存在不同粒度的人口统计数据,不同的比例尺对应着数据库中不同的数据粒度的空间表,在该表中格网标号为该数据的唯一标识符,代表抽稀时的格网,表名表示某一数据粒度下相对应的比例尺,除此之外的属性为该粒度下人口的基本属性。基于不同的行政边界对人口数据进行统计,生成不同等级行政区域的人口数据统计表,提供基于行政边界人口数据的快速查询,如图6 所示。

图6 “实有”人房数据库物理结构

3 应用实例

在上述数据处理方法和数据库模型的支撑下,建立广州市“实有”人房地理实体数据库,该数据库整合了人口、房屋,同时通过数据库中统一的实体编码,实现广州市以人、房为核心数据展示及分析平台。如图7、8 所示为人口信息热力图功能及建筑物查询功能。

图7 基于“实有人口”的人口热力图生成功能

1)实现快速查询分析某个区域中的人口结构及分布情况,支持通过行政区划边界、自定义空间范围来快速生成人口的数据统计。

2)实现快速查询地理实体的空间位置,并通过统一的实体编码实现以人查房、以房查人等关联查询。

3)实现建筑物查询功能,通过房屋套与房屋栋之间的从属关系来生成房屋套组成的楼盘表。

4)实现服务设施人口均等化分析功能,借助现有道路数据,快速生成服务设施服务范围,并对服务设施覆盖的人口进行统计分析。

5)实现多比例尺下人口信息热力图的显示,并通过多粒度数据集成的方式提供快速的数据响应与分析。

图8 基于“实有房屋”的房屋栋查询功能

4 结 语

本文基于广州“实有”人房数据库建设的研究,从数据质量、地理实体空间化、多尺度实体数据管理、数据更新这4 个方面来阐述“实有”人房实体数据库建设需求,分析了数据库建设过程中的数据处理及更新方法,实现“实有人口”及“实有房屋”以个体为单位的空间落点。并基于此,阐述了“实有”人房数据库的逻辑结构及物理结构,建立了“实有”人房数据库的具体应用支撑。在后续的研究工作中,针对应用实践中不断增加的“实有”人房数据需求,需要持续优化数据库结构模型并据此构建创新应用数据模型,为更好地发挥“实有”人房数据库应用实践提供支撑。

猜你喜欢
尺度实体房屋
UMAMMA历史房屋改造
房屋
财产的五大尺度和五重应对
前海自贸区:金融服务实体
转租房屋,出现问题由谁负责?
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
宇宙的尺度
奇怪又有趣的房屋