知识图谱驱动的多类型城市体检协同方法研究

2022-06-08 03:44宋知达姜冬睿崔博庶茅明睿WANGTengSONGZhidaJIANGDongruiCUIBoshuMAOMingrui
上海城市规划 2022年1期
关键词:数据源图谱指标体系

王 腾 宋知达 姜冬睿 崔博庶 茅明睿 WANG Teng,SONG Zhida,JIANG Dongrui,CUI Boshu,MAO Mingrui

0 引言

2017年2月,习近平总书记视察北京市城市规划建设工作时,提出建立“城市体检”评估机制,自此,城市体检得到中央部委和地方的高度重视。住房和城乡建设部(以下简称“住建部”)从城市人居视角出发,不断扩大城市体检试点;自然资源部(以下简称“自资部”)则主推国土空间规划城市体检评估,并发布了《国土空间规划城市体检评估规程》;各地方也涌现了具有地方特色的城市体检或体检类工作,如北京市于2017年发布的《北京城市总体规划(2016年—2035年)》提出“一年一体检,五年一评估”,并较早开展了地方性体检评估工作。这些城市体检实践都有助于及时发现“城市病”,为城市治理提供依据,并积累了较多的研究成果[1-3]。但是,不同部门主导的不同类型城市体检在数据、指标和算法上存在重合或相似之处,导致地方城市在开展多类型体检工作中重复投入人力与物力,工作人员容易对不同体系的相似内容产生认知困惑,对社会公示的体检结果也难以保证口径一致。目前,国内尚无多类型城市体检问题的讨论和回应。在此背景下,本文试图在厘清现有主流城市体检体系的基础上,探索利用知识图谱技术实现多类型城市体检体系的协同。知识图谱技术作为一种揭示实体之间关系的语义网络,为表达、组织、管理与利用海量的信息和数据提供了一种有效的方式,近年来得到各专业领域的关注,有学者利用知识图谱开展城市研究的指标识别与设计工作[4-5]。

1 多类型体检体系的问题与多检协同

1.1 当前主要城市体检体系概述

现有的主流城市体检主要有住建部、自资部和地方3套体系。其中住建部城市体检体系是住建部为实现城市人居环境常态化监测,及时发现、解决城市问题而制定的工作制度和技术方法,至2021年已在58个城市试点。自资部城市体检是自资部为“健全国土空间规划实时监测、定期评估、动态维护制度”[6]而开展的城市体检评估。由于自资部是国土空间规划的主管部门,城市体检评估作为国土空间规划的下游政策工具,其针对性十分明确。地方体检方面,北京市是最早开始城市体检探索的城市之一。由于首都的特殊性,以及北京市规划和自然资源委员会权责的独特性及探索先行性,其体检体系与住建部和自资部差异较大,充分体现首都特色,城市体检成果主要用于评估总体规划实施效果,同时支持年度建设计划的制定[7]。总体上看,各类型的城市体检评估都作为城市问题诊断的参考依据,且都从不同角度挖掘城市发展中需改善的问题,形成一套完善、自洽的城市治理方案,助力城市健康发展,在组织流程、原则导向、内容成果、指标体系、数据获取等方面存在许多共同点。

1.2 多类型城市体检产生的问题

由于不同类型城市体检体系的指标存在重叠和相似之处,不同的城市体检体系在解决各自关注问题的同时,也引发了重复性工作和权威性受质疑等问题。首先,城市体检内容覆盖城市的方方面面,各城市体检数据获取过程中需要多部门的广泛参与和支持。但不同体检在工作内容构成、组织动员流程、指标与数据体系等方面存在相同或相似之处,势必增加重复工作。尤其是对于来自各政府部门的社会统计数据、部门专业数据,不同的体检团队需各自获取,既浪费工作团队的精力,也会给政府部门增加工作量。此外,由于数据出口、版本和算法的差异,可能导致相同或类似的体检指标产生不同的结果,影响城市体检工作的权威性。从技术角度看,重复性和权威性问题产生的主要原因源于3方面。

第一,指标不打通。不同体检指标体系在制定和运行时缺乏沟通协调,既存在完全相同的指标,如住建部、自资部和北京市体检指标中均包括“全社会R&D支出占GDP比重”和“人均避难场所面积”等指标,也包括名称不同内涵相似的指标、在数据源和算法存在联系的指标。如果能建立所有指标间的相互关系,那么在某一类型的城市体检先行开展后,其他类型的城市体检可直接或间接使用已有成果,甚至不同类型的城市体检可以统筹安排。

第二,数据难共享。数据是体检工作的基础,住建部和自资部的城市体检数据源都包括经济社会发展统计数据和社会大数据,其中涵盖了大量相同的底层数据。由于体检工作的组织方式原因,其开展团队、收集过程、数据提供方填报过程一般都是独立的,所以可能存在重复收集、重复调研、重复填报等问题,而通过数据共享可以避免很大部分的重复劳动。

第三,算法不统一。不同指标体系制定了各指标的算法,名称或关注问题相似的指标算法存在差异。如住建部的“公园绿地服务半径覆盖率”和自资部的“公园绿地、广场步行5分钟覆盖率”都关注公园绿地的服务覆盖情况,但算法完全不同。虽然不同指标关注点存在区别,算法和最终结果可以不同,但为避免混淆导致的错误和质疑,一方面体检团队需要深刻理解不同指标体系中相似指标的差异,另一方面也要在对外收集数据和成果发布时做好说明。

为解决以上问题,需统筹指标、数据和计算各环节,探索能否将不同城市体检体系整合,以提升城市体检效率,节约社会资源。

1.3 问题响应:多检协同

基于多类型城市体检存在的问题,本文借鉴规划领域针对多类型规划不协调而提出的“多规协同”[8-10],提出“多检协同”概念,即将不同城市体检体系纳入统一框架,通过技术和机制的统筹,实现不同类型体检的协调开展。“多检协同”不是将所有体检整合为一个体检体系,而是通过不同城市体检体系之间的协作与合作,实现资源高效利用。协同的内容包括城市体检的不同环节,可分为机制管理协同和技术协同两大部分,本文仅涉及后者,包括指标、数据和算法上的协同。

多类型城市体检体系问题的解决具有现实紧迫性。多检协同既是协调技术冲突和冗余的有效手段,也是形成政策合力、解决政出多门,从而更好地开展城市治理的时代响应。通过协同,可以有效解决当下多类型城市体检评估体系并行导致的问题,减少资源重复投入,推动更高效的城市治理。

多检协同也具有现实可行性。由于各类型的城市体检根本目的一致,工作原则、组织方式、指标体系、数据源等具有共同点,本文引入知识图谱技术,以解决多检协同中的知识和语义关系问题。

2 知识图谱技术及其应用价值

知识图谱是一种基于图模型的方式来描述知识,并通过关系来构建知识之间联系的大规模语义网络,包括知识构建、知识存储、知识融合、知识表达、知识挖掘等具体技术[11]。相较于传统的大数据结构,知识图谱在基于规则化知识的基础上能够覆盖更加复杂的知识结构,在存储知识的同时存储知识之间的各种关系,使得计算机能够更进一步理解和解释具有复杂关系的知识体系。

如前文所述,在多检协同的工作中最重要的是建立不同城市体检体系之间的联系,将不同城市体检指标、数据和计算置于同一框架中。而知识图谱技术的核心优势在于对复杂关系网络的理解能力和对知识关系更强的构建能力,能够完美对应协同的要求。知识图谱技术在多城市体检协同工作中具体包括4个方面的应用价值:一是通过知识表达关系网梳理并全面理解数据和指标,发现不同类型体检指标的联系与共性,打通不同指标体系之间的壁垒;二是通过使用知识图谱的图数据库存储,可以建立完整的全数据—指标库,实现数据和指标的全面共享和调用;三是在构建好知识库后,通过知识融合技术,可以在知识更新过程中避免知识冗余和关系冲突,保证知识的准确性和一致性;四是通过图谱知识问答技术,可以实现城市体检领域的相关规则、知识、标准的快速查询,大大减少工作人员对经验的依赖性。

综上所述,基于知识图谱技术打通数据、指标和算法的联系,能够实现更有效的体检知识关系表达和更科学的分析反馈,可以减少资源的重复投入,高效地实现体检工作的各项要求。因此,在多检协同中引入知识图谱技术是可行的。

3 知识图谱驱动的多检协同方法

基于知识图谱技术特性和多检协同需解决的问题,本文尝试从知识图谱实现多检协同的数据工作流程角度展开论述。知识图谱位于整个多检协同流程的上层,是加工后城市体检内容的管理工具和多维度信息聚集的辅助决策中心。多检协同方法又按照数据协同、指标协同和算法协同3大类进行流程设计,形成了纵向和横向的多维关系网络(见图1)。

图1 知识图谱驱动的多检协同方法流程图Fig.1 Flow chart of multi-type city examination synergy method driven by knowledge graph

3.1 数据协同

数据是体检计算的原料,因而多检协同的第一步是实现数据协同。数据协同是指把不同领域(自然空间、城市空间、社会、经济、政治、文化等)、不同来源(政府部门、互联网平台、实地调研、物联网感知)、通过不同途径(人工填报录入、大数据批量获取、部门协调)获取的多元异构数据(结构化、半结构化、非结构化),经过清洗和整理,以统一标准化的格式录入数据库中。基于图关系技术,将需要实现协同的体检指标体系中涉及的各类型数据进行梳理,将其加入城市体检知识库,从而实现基于知识图谱的多源体检数据的有机统一管理。

在城市体检实际工作中,一个指标可能有一个数据来源,也存在一个指标需要多个数据来源,通过复杂算法或相互参考校核得出指标结果的情况。为了在满足体检合规要求的同时丰富体检内容,需要从数据源入手,了解数据的可行性,发现备选和替代方案,进行指标所用数据的统筹设计。使用传统的数据库管理,由于数据在时间、空间等各个层级上的可实现性不同,数据协同、打通下沉并统一管理的难度很高。而知识图谱管理的优势就在于能够打破传统数据表之间的隔阂,以基本的数据类型为抓手,更容易按照需求对体检可用的数据进行统一查看和管理。在知识图谱中,三元组是建立知识之间联系的基本单位,其基本形式为“实体—关系—实体”或“实体—属性—属性值”,如“空气质量数据—对应关系—空气优良天数比率指标”就建立起了数据源和指标的对应关系,同理还可以建立特征标签、时空范围等指标属性与指标的对应关系,便于工作人员从数据源头着手,进行指标的统筹。

3.2 指标协同

3.2.1 底层指标抽取

前文多类型城市体检体系问题的分析中,提及不同体检指标体系之间名称、内涵、算法和数据源上的各种联系。因此,笔者通过提取出“底层指标”,作为搭建指标体系最基础的单元和连接节点,来实现整个指标体系的整合和重建。这里的“底层指标”指的是将各指标体系中最下面一级的指标做进一步抽取,得到不需经过二次计算的原始数值。例如,住建部体检指标体系最下级指标“城市新增商品住宅与新增人口住房需求比”,实际上是由“城市新增商品住宅量”与“新增人口住房需求量”两个“底层指标”相除计算得出的。

具体操作中,笔者尝试在知识图谱中运用自然语言处理技术,结合指标名称特征、算法描述、数据源,抽取出“底层指标”实体,将加入多检协同的所有指标体系都打散,构建涵盖全面的综合指标表,并在数据库中进行统一存储。

3.2.2 指标属性管理

传统的大数据方法基于结构化的数据,通过读取表格、字段的方式满足城市体检的指标计算和管理需求。但如果面临多指标体系、复杂数据来源,单一的结构化数据无法关联不同来源数据,很难发现层级丰富、表达方式多样的指标间存在的联系。知识图谱中的数据和指标作为主体都有各自相应属性,以属性为索引,可以更加深入地了解指标的内涵,发现数据和指标、指标和指标的联系,可为城市体检工作人员理解体检指标体系、根据实际需求设计指标体系提供关键依据。

指标属性通常包括其数据来源、归属体系、空间颗粒度(市、区县、街乡镇等)、时间颗粒度(年度、半年度、季度;连续累计、瞬时截面等)、特征标签(如“环境”类指标、“公共服务”类指标等)。以“城市道路网密度”为例,数据来源为互联网地图,其指标空间颗粒度为街乡镇,时间颗粒度为年度,特征标签为交通设施类。

3.2.3 指标关系管理

在实际应用中,对指标关系(包括层级、类型、数据源和内涵等方面)的全面和深入了解,是体检参与人员理解和设计体检指标体系的另一个关键。传统的数据可视化表达往往采用树状图的模式对结构化数据进行展示,包含多层级和跨层级的复杂结构,无法对关系型概念形成良好支撑。而知识图谱基于三元组的知识构建,具有极强的关系表达能力,擅长处理多层级的复杂系统,可以通过可视化表达展示多层级的复杂关系。通过城市体检指标网状关系图,既能实现同一指标体系内的上下级关系打通,也能按照指标内涵、指标特征建立跨指标体系的相互关系。例如,在“公共服务”领域下,通过知识图谱可以管理多指标体系下此领域包含的所有指标,其中包括自资部的“社区小学步行10分钟覆盖率”“社区文化活动设施步行15分钟覆盖率”和住建部的“公园绿地服务半径覆盖率”。

3.3 计算协同

3.3.1 算法一致性设计

由于专项体检和不同城市的差异性,实际的城市体检工作中往往会有深入且具差异性的专项业务需求,但算法设计的一致性是计算协同的前提。结合问题分析中发现的算法关联和计算结果的判读需要,本文梳理了指标计算类型、参考值/阈值、算法公式、去量纲/归一化、权重等5类算法设计标准和知识,并形成完整的城市体检算法关系网络,可以充分支持不同体检体系之间计算结果的互相利用和新增专项分析算法的实现。

(1)计算类型

以计算方法分类,指标可分为达标型、引导型和评价型。达标型指标结果只有达标与不达标两种二元变量,然后直接给予评价或赋予标准指标值。例如“空气质量优良天数”指标,按照国务院要求,参与评估的城市空气优良天数不低于292天的,直接给予“达标”的评价,低于292天的则给予“不达标”的评价。引导型指标是指在值域内的几个关键特征节点设立阈值,通过不同阈值的设定,为达到或优于关键阈值的结果赋对应的得分。例如“万人城市文化面积(m²/万人)”指标,≥2 500为优秀得分即100分,2 000—2 500之间为达标得分即60—100分,<2 000得分则为0—60分。评价型指标是指在指标结果值域中不特意设置节点,通过数值高低得出指标得分、评价好坏。例如,“实施专业化物业管理的住宅小区占比”,对于0%—100%的指标值域,可以直接给予0—100分的评价。

(2)参考值/阈值

达标型、引导型指标的节点可以被称为参考值或阈值。评价型指标则需要考虑使指标结果有意义的最大值和最小值,它们也可以被称为参考值。例如,北京市的体检指标体系想要设定“空气质量优良天数”指标,参考值和阈值包括3类:规定值,如国务院《“十三五”生态环境保护规划》和《打赢蓝天保卫战三年行动计划》规定,2020年地级及以上城市空气质量优良天数比率达到80%;对标值,2020年36个样本城市的结果,最低是58%,最高是98%;历史值,如北京过去10年空气质量优良的天数比例、以往体检指标体系计算的该指标结果。很多时候,在难以找到合适的规定值和对标值的时候,历史值的作用就特别显著。

图2 跨指标体系的知识图谱管理——以“公共服务”为例Fig.2 Sketch map of multi-index management in knowledge graph focusing on "public service"

(3)算法公式

即指标结果实现的数学方法,除了各类具体算法,还有通用性算法,如采用人均统计或地均统计,计算平均值或中值等。

(4)去量纲/归一化

体检指标体系属于多层级指标体系,往往需要下级指标的数值结果向上级聚合,得出上级指标的得分数值。这就首先需要去量纲/归一化。去量纲指的是去除数据单位之间的不统一,将数据统一变换为无单位(统一单位)的数据集。数据归一化指的是将数据按比例缩放,使之落入一个特定的区间,便于不同单位或量级的指标能够进行比较和加权。去量纲/归一化有多种数学方法,如线性函数归一化、零均值标准化等。在实际体检应用中,还要考虑空间、时间、指标特征等因素,就更需要有多方面的知识参照来辅助算法的设计。

(5)权重

不同的下级指标在一个上级指标的框架内重要性不同,用来量化这个重要性的数值即为权重。权重设定是下级指标向上级聚合的第二步。常用的权重设计方法包括主观的经验打分和专家打分法,以及客观的从指标的数值统计特征进行权重设定的方法,如利用数据的信息浓缩原理、通过方差解释率进行权重设定的因子分析和主成分法,利用数字的相对大小信息进行权重设定的AHP层次法和优序图法,利用数据熵值信息即信息量大小进行权重设定的熵权法等。不管是主观的打分法还是客观的数值特征设定方法,都需要尽量多的知识/信息/数据,而知识图谱可以极大地扩充它们的来源,从而提升其科学性和全面性。

3.3.2 指标自动/关联计算

体检相关的知识、指标内容和算法保存在知识图谱系统中,数据和指标计算结果可以保存在与知识图谱连接的数据库中。因而可以通过基于知识图谱开发的指标配置工具,实现指标的自动/关联计算,配置城市体检的指标内容、算法及完成计算,提高计算效率和成果复用性。指标配置工具以知识图谱为基础,核心目的是实现具体业务指标配置和知识图谱底层知识逻辑之间的解耦。通过指标配置工具,可以实现各体检项目中所有配置的统一管理,把来自知识图谱的指标内容、算法、权重、数据源等原料,通过与实际项目背景的结合,调整配置,然后调用数据库的数据源,进行自动计算。

通过这样的方式,一方面,已有的指标体系可以作为默认模板,计算时可以直接套用模板进行计算,提升效率。另一方面,由于在实际的城市体检过程中,设计良好并在实际应用中受到认可的指标体系往往会被长期重复使用,可以用配置工具便捷地调用历史计算配置,在进行简单的数据源重新配置之后可实现快速的再次计算。当新一次的体检结果生成后,通过参考对比知识图谱中存储的历史版本参考值、临界值等,指标内容和算法可以被调试、优化和迭代。除此之外,基于对指标间关系的梳理,利用多检协同知识图谱可以实现不同体检体系的、但有相同数据源指标的关联计算,即一次计算实现了所有相关指标的更新,进而解决重复工作的问题。

4 知识图谱驱动的多检协同实现结果

基于前文提出的方法和技术,以住建部、自资部和北京市城市体检为协同对象,研究构建了城市体检知识图谱并形成相应的可视化应用系统。在指标层面效果最为直接,知识图谱驱动的多检协同工作中打通了住建部、自资部和北京市3大体检指标体系(见图3)。最终构建的多检协同知识图谱包含3大体检指标体系300余个不同类型的知识和438种知识之间的关系。在知识图谱系统中,能够查看任何一个城市体检指标体系下的各级指标,也能够直观地看到不同指标体系之间是否存在关系和存在何种关系,同时支持对指标的检索查看(见图4-图5)。

图3 城市体检指标体系综合及局部放大Fig.3 Panorama and partial enlarged drawing of city examination indexes in knowledge graph

图4 检索“绿色”相关指标图谱结果Fig.4 Indicators' result of the retrieval of "green"

图5 自资部、住建部城市体检一级指标联系图Fig.5 Linkage diagram of level 1 indicators of Ministry of Natural Resources and Ministry of Housing and Urban-Rural Development

如表1显示,根据图谱指标、数据和算法关系,可以将所有指标归纳为7种类型。据此,可以直接合并超过20项完全相同或内容相同的指标,并实现其余超过20项指标的关联计算,一定程度上解决了重复投入的问题。

表1 住建部、自资部和北京市城市体检指标体系异同梳理结果①如果指标相同或相似被记为多次,如果有两个指标体系中存在关系即被考虑和统计。Tab.1 Similarities and differences of MNR,MOHURD and Beijing city examination indicator systems

在数据层面,由于构建了所有指标的指标与数据关系,确定了指标及其对应的数据类型、来源、空间尺度、更新频率、标准值和计算方法等一系列关系,图谱网络代替了原来城市体检中的指标表、数据源表、算法表等多个表(虽然这些表同时也存在)。通过体检图谱系统,可以查看任一数据所关联的指标和数据获取方式(见图6)。

图6 手机信令数据相关数据来源和底层指标Fig.6 Data source and underlying indicators of mobile phone signaling data

在计算层面,得益于指标关系和指标与数据关系网络的构建,通过体检知识图谱可以将数据源、计算得到的指标结果自动联系,在一定条件下数据源更新后指标可实现自动计算更新,而算法更新后体检指标也可实现半自动计算,以及通过关联计算避免重复收集数据和计算的情况。

最后,城市体检图谱的建设实际上形成了知识库,即知识共享平台。平台支持对城市体检指标、数据和算法等所有相关问题的查询检索,平台利用问题聚类、语义匹配等算法模型,快速定位到问题的答案,并给出问题建议。通过知识图谱建设,可以实现相关人员城市体检知识的高效检索学习、业务工作效率的辅助提升、领域规律的发掘认知和问题解决,让城市体检工作不再仅依赖于个体经验,从而进一步提升知识迁移速度(见图7)。

图7 多检协同知识图谱系统智能问答界面Fig.7 Intelligent question &answer interface of multi-type city examination synergy system

5 总结和讨论

5.1 研究总结

针对多类型城市体检并行开展中可能出现的问题,本文创新性地提出多检协同的理念。为实现该理念,引入知识图谱技术,设计了知识图谱驱动的多检协同的方法流程和技术框架,并以住建部、自资部和北京市的城市体检指标体系为案例和素材,搭建了多检协同知识图谱系统。该知识图谱系统可以形象揭示各体检体系之间的联系和差异,实现多种城市体检体系之间的协同数据管理、协同指标管理、协同计算和自动更新,有效避免数据重复收集和重复计算的问题。综上,本文在理念、方法和技术层面均有一定创新,具有较大的研究和应用价值。

本文也存在一些不足。一是人工梳理指标关系工作中,由于对不同类型体检的知识储备和亲身实践有限,在关系构建中可能存在偏差。二是仅解决了数据、指标和计算的协同,不能保证后续城市病诊断和城市治理的协同。在今后的研究过程中将继续深入相关工作。

5.2 思考与讨论

当前,城市体检研究和实践仍在不断进行,多类型城市体检并存现象将长期存在。本文提出的多检协同不是城市体检的权宜之计,亦非终极形态,而是针对现实问题提出的方法性对策。本文的多检协同理念给予各体检体系同样的尊重,充分挖掘各体系指标的内在联系和深层次含义,在技术实现的同时为从业者提供了一种审视和理解各体系的方法,为目前各城市普遍面临的多套体检体系的协同开展提供了技术参考,也有助于各体检体系自身的优化和完善。

特别强调的是,本文主要从技术层面探讨多检协同,其真正实现需要强有力的机制保障。如果部门间采取关门工作、各成一派的工作模式,各体检体系就无法从根源实现协同。希望将来的城市体检工作无论在技术上还是机制上都能有所协同,甚至如同城市规划从“多规协同”发展为“多规合一”,城市体检能由“多检协同”演化为“多检合一”,使协同成为体检工作的内在基因。

猜你喜欢
数据源图谱指标体系
高清大脑皮层发育新图谱绘成
基于图对比注意力网络的知识图谱补全
2022城市商业魅力指标体系
绘一张成长图谱
一种多源数据融合过程中的实体关联性计算方法
网络空间攻防对联合作战体系支援度评估指标体系构建
建筑工程造价指标体系构建与应用探究
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
供给侧改革指标体系初探