贾泽露,朱 毅,唐文武
(1.宝安区政务服务数据管理局,广东 深圳 518000;2.吉奥时空信息技术股份有限公司 湖北 武汉 430223)
块数据作为大数据发展的更高形态,是一种数据治理的理念和方法,实际就是数据的条块结合,其本质主要体现为平台化,关联性集聚和数据开放共享[1]。通过块数据,把原来分散在各个职能部门的人、事、物、组织按照区、街道、社区、网格的管理层级落图入块,即将人口、企业和事件都落入到楼栋、房间,而且将数据互相关联[2]。在块数据系统里选择宝安任何一个社区的任意一间房屋,都可以清楚看到房间里人、事、物、企业的详细信息,真正做到了“底数清、情况明”,强化了基层的数据意识,建立起用数据说话、用数据管理、用数据决策、用数据创新的治理理念,推动精准治理[3]。
人和房是社会治理最核心的两大要素,借助块数据打破数据壁垒,搭建了宝安区精细化治理的智能数字底座,实现了人房绑定,以人查房,以房查人。
传统意义上的基础地理数据缺乏语义关系表达,无法满足地理知识智能推理的需要,急需研制将地理信息组织从数据架构发展为地理语义网及知识架构的技术体系,实现地理信息服务智能化的目标。通过为现有的基础地理数据库配置语义信息,构建地理实体(数据)库,使其升级为具有一定智能推理能力的地理知识库。只有在地理实体语义框架支持下,将当前地理信息的组织方式由数据架构发展为知识架构,才能为日益增加的相关行业用户或公众用户提供专业、权威且智能的地理信息数据服务与应用推理计算服务。
地理实体空间语义模型将主要从地理认知入手,从满足多尺度表达和地理信息分析应用的角度重新定义地理单元实体的表达规则。能够综合反映地理单元实体之间粒度、层次及空间、属性、拓扑等关系的地理单元实体关系模型,规范各行业对通用的框架性地理单位实体的表达,从而更有效地实现时空信息的共享交换。
基于地理实体技术和理念,通过数据语义映射,模板化,自动化抽取,辅助编辑等过程,将区域管理单元的基础测绘数据的碎片数据转换为可统计、可计算、可分析、可挂接专题属性的地理实体数据[4];采用区域管理单元代替业务工作中的地址概念,升级社会治理空间块内涵、外延,充实块数据空间块;厘清业务现状、需求,分析所需空间单元具体要求与规格,基于特定业务属性与规则建立社会和城市治理所需空间单元。建立统一的地名地址、管理区域与业务信息的关联方法,夯实块数据底座。
人、地、事、物、组织在基层社会治理场景中可映射为人、房或某个自定义的区域、企业、城市事件和城市部件。这些实体两两之间形成了基于社会治理场景的23类关联关系,如图1所示。
图1 社会治理要素关联关系类型
基于这些关系类型可进一步分解为若干符合社会治理业务场景需求的地理实体对象实例,通过对这些对象实例建模,构建面向基层社会治理要素的地理地板,为下一步的关系模式匹配提供数据模型支撑。
依据地理实体的空间特性以及地图上的形态表达,提取出地理实体空间上语义特征,创新性形成科学合理的新型空间数据分类标准体系,并统一赋码标识后关联人、房(区域)、企业、事件、部件(IOT)的对象实例建模形成地理实体空间语义模型。通过地理实体空间语义模型的构建,支撑宝安区生产生态体系的建设,完整覆盖各职能部门管理对象空间覆盖需求,为“底数清”打下了理论出处。
如图2 所示,首先将城市治理过程中的人、房(区域)、企业、事件、部件(IOT)通过经纬度、地址进行空间落图;其次,对现实世界中具有空间位置、共同属性的独立自然或人工地物的地理实体按空间特性、形态表达提取出“水系实体、交通实体、建筑物(房屋)实体、院落实体、管线实体、植被实体、境界和政区实体、管理服务区域实体、城市建设实体”等分类体系,并进行统一分类编码、唯一标识编码;然后,将落图后的人、房(区域)、企业、事件、部件(IOT)与编码标识后的地理实体进行编码计算、空间运算建立地理实体空间语义关系表;最后,结合社会治理场景的23类关联关系,通过编码关联、模型计算、空间运算等形成服务于城市治理的语义模型服务。
图2 城市治理过程中语义模型的构成原理
基层社会治理“网格化”业务开展以来,极大提升了管理效率,多年来该方法的有效性已普遍得到验证,将该思路泛化到更为普遍的“地理单元”概念下,是近几年来的重要发展方向。
“地理单元”即地理实体在基层社会治理场景中的一种业务实现,具备空间信息的社会治理要素,可通过“空间关联”计算的方式将其与地理实体融合,即在融入同一个地理实体的不同社会治理要素之间建立了关联关系,形成新的融合数据集,如图3所示。
图3 多尺度空间关系计算示意图
1)多尺度地理单元。社区是社会的基本单元,更是连接个人与社会,个人与国家的桥梁和纽带,社区内的不同治理主体之间强调权责对等性,即不同治理层级之间有较为明确的范围界限[5]。社区往下更小的基层社会治理地理单元尺度是网格,在社区内优化网格和巡办机制,提升精细化管理水平,由社区根据地理特点、管辖对象等不同因子,科学划分子网格[6]。通过识别不同人、房(区域)、企业、事件、部件(IOT)等实体共同的地理位置、管辖范围,有助于多元联动管理,压实主体责任。而描述责任主体位置和范围的“地理单元”是多类型、多尺度的,特别是描述基层责任主体的“地理单元”,会随业务规则变化而变化,进而导致实体与其空间关系的变化,责任主体也随之变化。
2)空间关联计算。空间关联计算是要建立社会治理要素的点位置与多尺度地理单元面要素的灵活适配关系。当前,地理单元范围调整、治理要素位置变化后底层技术实现的主要方法是采用Spatial Join 叠置分析来进行空间关联、属性的追加。
3)融合数据集。融合数据集是要在空间关联计算的基础上,建立人、房(区域)、企业、事件、部件(IOT)与多尺度地理单元的空间关系、实体属性的数据表集合。数据表集合一般需要将多尺度地理单元的唯一编码标识存储到Elastic Search 中提供高实时的搜索与数据分析能力。例如人(身份证号码、居住地址统一地址编码)、房(区域)(房屋统一地址编码)、企业(社会信用统一代码、注册地址统一地址编码)、事件(事件编码、发生地统一地址编码)、部件(IOT)(部件编码、统一地址编码)。多尺度地理单元为数据在不同尺度上进行融合提供了灵活性,如“网格化管理”场景中,不同地区因业务发展会划分出不同类型的网格,在网格的上、下级又分别设定了社区和院落等存在包含关系的多级“地理单元”,社会治理要素可根据不同业务的管理粒度与不同尺度的“地理单元”融合,实现灵活适配。
以社会管理要素统一地址标准为载体,以统一地址编码实现相同地址不同表述之间的相互映射,解决不同行业的标准地址以及老百姓习惯用语等非标准地址之间的互通互用问题[7]。构建统一地址的目的是为不具备空间信息的社会治理要素赋予空间信息,进而通过空间计算形成要素之间的关联[8]。即利用空间信息具有唯一性的特点能够成为关联和承载其他政务信息的载体[9],建立地理实体唯一标识和地址的关联关系。地址匹配技术已发展多年,一些算法模型在特定领域中已有较好的表现,但在基层社会治理领域,因涉及的地址类型复杂多样,基于传统模型需要构建的训练样本大增,否则存在泛化效果不佳的问题。
1)正负训练样本技术。本项目研发了根据统一地址库自动构建正负训练样本技术,大幅降低人工构建训练样本成本,实现更深层次地提取地址语义,提高地址匹配的精确度。具体流程为:①将标准地址输入到训练样本构造模块;②选择“省∕市∕区∕街道∕社区∕小区∕楼栋∕门牌号”的地理要素进行替换,并置为标签0;③从8个替换结果中标签为0的数据中随机选择1 个;④选择“行政编码”地理要素进行替换,例如将“前海路0199 号”替换为“前海路2000号”,后面小区、楼栋、门牌不变的置为标签1,否则置为标签0;⑤不做任何更改的地址置为标签1;⑥将“行政编码”地理要素替换且置为标签1的数据与不做任何更改的数据汇聚一起,从2 个替换结果中随机选择1 个;⑦随机删除0~3 个行政地理要素,删除的要素中不包含小区地理要素、楼栋地理要素以及门牌地理要素,则标签不变;反之,如果删除的要素中包含小区地理要素、楼栋地理要素以及门牌地理要素,则标签记为0;⑧随机选取一个标签为1和一个标签为0的样本成为正负训练样本。
基于自动构造的训练样本,训练推断模型,从统一地址库中匹配正确的地址,并赋予坐标,用于多尺度空间计算,而且计算结果随着空间尺度的变化而改变;空间度量关系能被用来描述单个地理实体或者地理实体之间的关系[9],实现最终的社会治理要素关联融合。
2)地址智能搜索引擎。基于Elastic Search 研创一套地址智能搜索引擎,如图4 所示,实现地址、空间位置、编码3 个参数之间的互查能力。输入三者中的某一个参数,能够查询满足条件地址信息,根据地址关键字或者地址编码进行地址搜索,支持指定不同的地址方案和地址类型进行搜索。同时支持附近地址搜索,通过在地图上面点击右键,触发搜索附近地址的查询,通过空间信息查询所选位置周围的地址并在地图上进行标记。真正让地址数据应用至业务系统中,让智能化的搜索将地址查询提升至好用、易用的状态。
图4 地址智能搜索引擎示意图
宝安区利用数字底座关键技术积极开发基层社会治理、人口普查核实、疫情防控重点人员核查、产业空间优化升级、“四上”企业推荐、建筑安全排查等政府特色应用。
1)在进一步管好“重点人”、“重点事”、“重点区域”的基层社会治理方面,通过应用地理实体空间语义模型将全区精神障碍患者、社区矫正人员、吸毒人员信息通过经纬度、地址进行落图落房,借助空间关联计算关联部门和社区对应的责任人,开展协同帮扶和管控。以家事情感纠纷调处应用为例,基于多尺度空间计算模型整合包括网格办、妇联、公安、司法、法院等力量,实现在社区、网格、院落、房(区域)等多尺度空间的协同介入办理率达100%,巡查整治数量比过往增加了6 倍,处置率达到了98%。
2)在助力国家“七人普”信息核实工作方面,应用多尺度地址匹配与位置关联技术将宝安区17.3万条楼栋建筑物的空间数据、属性数据及楼栋内实有居住户数等信息对接到全国人口普查系统,提高了普查员上门进行人口信息核实的数据准确性。
3)在疫情防控重点人员核查方面,应用多尺度地址匹配与位置关联技术对公安提供的180 万条人口数据进行了清洗、去重、匹配和上图。以其中的湖北籍返深人员核查为例,实现对多方来源下发的29万人员进行精准落图定格,最终确认11 万精准核查任务。地址匹配与位置关联技术不仅能支撑“初筛人员”轨迹回放,还可以实现在10 min 内编制生成并导出高清实景“高风险区防外溢图”供领导防疫决策指挥。
4)在商事主体监管及产业空间优化升级方面,一是应用多尺度地址匹配与位置关联技术建立统一地址服务从源头杜绝了商事主体虚假注册,实现新增商事主体地址准确率已经达到了100%;二是应用地理实体空间语义模型、多尺度空间计算模型将全区1 754个产业园区落块上图,融合园区楼栋使用用途、建筑面积、租金、层高、承重等信息开发“宝i 企”小程序,实现为园区、企业提供“贝壳找房式”的供需匹配服务,自上线运行以来用户访问次数累计达704万人次。
5)在“四上”企业推荐方面,应用多尺度空间计算模型对企业的水电气、纳税、社保、信用等信息进行融合,构建出分析模型挖掘出责任主体“地理单元”内的“四上”企业推送给工信、科创、供电、水务等部门,由职能部门负责对企业扶持政策的制定、供水供电供气的扩建与保障,帮扶这些企业的持续发展达到规上规模,截至目前,全区“四上”企业8 000多家。
6)在开展房屋分类分级监管方面,应用多尺度地址匹配与位置关联技术将全区17.3万栋建筑的安全检测档案与楼栋建立了一一关联,以支撑对全区重要场所的建筑安全排查工作。此外,还开展了人才房、保障住房跟踪管理,对发现的167 套人才房、保障房、政府物业资产违规注册的企业进行了清退。
随着信息化建设的推进,各种专题信息库和公共信息库的建设已初具成效,在这些信息库中70~80%是与地理位置有关的地理空间数据,具有地理空间参照作用的地理信息底座在各类专业和公共信息库的业务运行中起着关键作用。知识共享和重用已成为地理信息领域热点问题。随着引入地理实体来解决地理信息认知、知识表达,信息关联方面的研究和应用课题,地理实体的语义研究和应用开始受到广泛重视。宝安区利用地理实体的理论,在宝安区块数据和数字底座建设过程中就进行了应用实践,取得了良好的效果。研究的主要成果如下:
1)通过分析适合城市治理和数字孪生城市应用中地理实体数据,以及其代表的地理单元的层次、粒度、划分、关系等,设计了适用于政务大数据治理的地理实体空间语义模型,形成了适用于宝安的地理实体数据分类标准规范。在此基础上可以开展数字底座的建设。
2)地理实体语义,最重要的作用是准确、完备描述基层责任主体的“地理单元”。因责任主体随业务规则变化而变化,进而导致人、地、事、物、组织等关联关系发生变化,是政务活动和城市治理中经常发生的场景,需要掌握和反映这些变化。因此专门设计多尺度空间计算模型来解决这个多维度信息变化而造成的信息关联障碍。
3)多尺度地址匹配与位置关联技术很好的解决了地理实体构成的数字底座与其他行业委办局信息的关联匹配问题。