杨丽娜,池天河,彭 玲
(1.中国科学院 空天信息创新研究院,北京 100094)
城市数据是记录城市自然环境、社会经济、人类活动等多源要素的重要载体,承载了城市对象从衍生到消亡的全生命周期变化,蕴含着巨大价值。随着感知技术和计算环境的成熟,基础地理信息数据、公共专题数据、实时监测数据等多源感知大数据在城市里迅速累积,其中基础地理信息数据包括影像数据、矢量数据、地名数据、高程数据、三维数据、街景数据和国情普查等;公共专题数据主要包括人口、法人、民生兴趣点以及宏观经济数据;实时监测数据包括生态环境、自然资源、交通运输、城市管理、综合执法等领域的群智实时监测数据信息[1]。
在城市数据信息总量急剧增长、数据类型多样化的背景下,建立智慧城市数据平台、实现多源感知数据的高效管理应用得到了各方的高度重视。2014年国家八部委颁布的《关于促进智慧城市健康发展的指导意见》[2]明确提出“加快推进信息资源共享与更新,以城市统一的地理空间框架和人口、法人等信息资源为基础,叠加各部门、各行业相关业务信息,加快促进跨部门协同应用”。2015年国务院颁布的《促进大数据发展行动纲要》再次提出“加强顶层设计和统筹协调,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放”。2019年国家自然资源部发布的《智慧城市时空大数据平台建设技术大纲》[3]对智慧城市数据平台的重要作用进行了明确定位,“它既是智慧城市不可或缺的、基础性的信息资源,又是其他信息交换共享与协同应用的载体,为其他信息在三维空间和时间交织构成的四维环境中提供时空基础,实现基于统一时空基础下的规划、布局、分析和决策”。2020年《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》首次将数据作为一种新型生产要素纳入到中央文件,充分说明数据已从社会经济发展的助力工具转变为核心动能。2022年《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确提出“以数字化助推城乡发展和治理模式创新……构建城市数据资源体系,推进城市数据大脑建设”。数据驱动的数字化转型创新活动将有效重塑未来城市发展的新格局。
目前,智慧城市数据平台建设在我国各地如火如荼地开展,其主流模式[4-6]为:通过构建一个具备收集、治理、展示功能的时空大数据软件系统,对城市多源感知数据进行收集汇聚和清洗治理,实现数据体系化梳理和目录化管理,进而基于大小屏将大数据及其时空变化情况依托于“一张图”分主题进行可视化展示;此外,部分地区还构建了共享开放平台[7-8],在共享开放目录框架下,以统一标准为政府部门和社会公众提供数据对内共享与对外开放服务,实现可复用信息资源的初级共享开放。尽管当前的智慧城市数据平台建设已取得一定成效,但城市数据多来源、多类型、多模态、大规模、高维度、高频次、碎片化的特性,给数据集成应用带来了极大困难,往往存在“数据总量多、价值发掘弱”的现象;当前研究建设对数据“从收到用”全链条的价值发掘缺乏体系化整体性的理论架构,难以有序有效指导智慧城市多源感知数据的高价值应用实践工作。
为进一步提升当前智慧城市数据平台建设水平,将快速更新的城市数据“活化”为服务于智慧城市建设的综合响应决策能力,本文从理论层面提出了一套涵盖数据汇聚、通联、洞察、焕活、延拓五大方面的智慧城市数据活力价值体系,并将该理论框架成功应用于中新天津生态城智慧城市数据平台建设中,加快促进了跨部门协同应用和数据共享开放,并为城市级综合决策分析提供了数据支撑。
智慧城市数据活力价值体系ALIVE有序总结了智慧城市数据价值体现和释放路径的五大方面,即汇聚、通联、洞察、焕活和延拓。
共享是智慧城市数据价值释放的重要途经。以共享为目的的数据汇聚,则是在数据共享开放管理的指导下,将分布在不同数据源中的多种城市公共数据通过网络安全传输聚合在一起的一种数据收集模式,是智慧城市数据价值体现的重要基础和首要任务。
1)数据内容。拥有丰富完整的数据内容,才能形成全面综合的城市智慧。智慧城市数据汇聚的最大特征为“全”,如图1所示。
图1 汇聚数据的主要特征
首先,数据种类“全包含”。城市多源感知数据涉及地理感知数据(基础地理信息数据、高分辨率遥感影像数据、倾斜摄影数据等)、公共政务数据(城建住房、生态环境、公共安全、科技创新等)、物联感知数据(交通卡口监测、环境监测、能源监测等)、社会感知数据(人口热力、人口出行、车辆定位等)等,这些数据都需在数据政策引导下、激励制度驱动下、管理细则把控下、安全规范约束下,实现“应收尽收”和体系化管理。
其次,地理空间“全覆盖”。当前的智慧城市建设中,精细化城市管理的触角已从广阔的室外空间延伸到更加复杂的室内空间,因此城市数据的汇聚,不仅包括城市全域的各种室外数据,还需包括更加精细的室内数据,如室内地图数据、人员物品定位数据、设施运行数据等。城市室内外各种数据基于统一的地理空间框架,实现数据的全域覆盖和无缝叠加。
再次,时间维度“全周期”。任何城市对象(人、事、地、物、组织)都面临从衍生到消亡的客观规律,因此城市对象也应按照“一物一码”的原则进行唯一编码,并尽可能持续性地获取相关数据,从微观上实现城市对象的全生命周期管理,从宏观上实现时间序列的城市脉动分析、规律发掘和辅助决策。
2)关键技术。数据汇聚工作一定要有一套健壮的数据平台基础设施来支撑包括Oracle、PostgreSQL、Kafka、Hbase、文件等在内的城市数十种主流多源异构数据的快速接入,如图2所示。数据汇聚任务包括数据库直联、文件上传等多种模式,支持整个数据库或单个数据表的全量或增量数据的批量同步,同时对周期性或实时更新的数据进行数据自动探测和汇聚任务自适应启动,保障数据汇聚的完整性、及时性和有效性。汇聚任务建议采用可视化配置方式构建和流程化管理,使得任务管理者可随时掌握汇聚进度与状态、及时调整干预。
图2 数据汇聚技术框架
尽管数据汇聚工作实现了不同网络环境下数据的互通,但获得的城市原始公共数据仍存在数据孤立零散、质量不高的问题,迫切需要通过数据治理提升数据质量,抽取关键信息,并以此为基础,突破数据之间的壁垒,实现全域数据通联,为后续数据价值发挥奠定基础。
以知识为牵引的全域数据通联,是基于链接数据的主体思想、以知识图谱为技术手段、利用规范语义表达来描述数据间关联性的一种图谱组织模式,如图3所示。它可将各种没有显性相关关系的数据转化为特征明显、高度关联的高质量知识,从而为城市数据应用提供具有深度和广度的智能搜索功能和知识表达能力。
图3 数据通联示意图
城市全域数据图谱的构建,主要可从空间关联和属性关联两个方面着手开展。
1)空间关联。一方面,对于蕴含空间位置信息的非空间数据,通过语义解析和位置解析方法挖掘隐含的空间位置信息,并基于统一的基础地理信息框架,实现非空间数据的空间化,如根据企业的相关信息,制作生成以企业注册地址为参考的点要素矢量数据;另一方面,分析各空间数据对象E1与重要的城市基础地理信息要素E2(地块、建筑、道路等)之间的空间位置拓扑关系R(包含、相邻、相交等),利用空间分析方法挖掘并建立空间数据对象之间的知识三元组(E1~R~E2),进而从地理空间的维度建立城市对象的知识图谱。
2)属性关联。根据数据字段之间的相关性,建立数据表之间的关联关系。在数据量不大的情况下,可根据数据治理者的实际经验,通过指定两个数据表(T1、T2)的相关属性字段(T1.F1和T2.F2),人工构建数据表之间的关联关系(R');但在海量城市数据参与的情况下,人工方式效率低下且易出错,因此可根据治理后的数据表字段元数据描述信息,利用文本匹配方法计算两个表字段之间的文本相似度,从而为数据治理者构建属性关联关系提供高相似度的属性字段推荐。由此,建立数据表之间的知识三元组(T1.F1~R'~T2.F2),利用T1.F1=T2.F2的查询条件,在两个数据表(T1、T2)中找到具有关联关系的数据记录;再利用直接映射或R2RML映射规则将结构化的关联数据记录映射为RDFs数据模型,从而得到一系列能表征属性数据之间关联关系的知识三元组,从属性信息的维度建立城市对象的知识图谱。
由于矢量格式的地理空间数据天然具有几何空间图形和属性信息表格两大内容,因此以地理空间数据为枢纽,城市对象的空间知识图谱和属性知识图谱可无缝融合对接。
在汇聚治理城市全域公共数据后,通过数据分析洞察进一步挖掘隐含在数据中的知识,成为智慧城市数据价值体现的重要渠道。数据分析模型通常可分为4类:
1)描述评估模型,主要用于描述并揭示城市运行现状、规律以及模式。一般情况下,包括3种分析方法。①单指标分析,即将城市单一指标数据进行多模式可视化表达,进而揭示其自身特征与规律,如通过对基于空间格网的手机信令统计数据进行空间可视化,可直观显示城市范围内的人口聚集情况;在地理空间上绘制城市地铁刷卡数据或出租车载客数据“起点—终点”的空间分布强度图,探究城市的职住平衡情况[9-10];基于交通拥堵数据,生成按照时间变化的趋势走向图和拥堵地段空间分布图,总结城市交通拥堵的多种模式与空间特征[11]。②多指标分析,即对多个指标共同作用的场景模式进行分类识别,如通过统计公园社交媒体签到数据的数量和强度,并考虑公园的不同类型和交通条件,进而对居民游园偏好进行分类分析[12];基于遥感影像数据提取城市植被覆盖专题,并将其与社会经济指标数据进行空间叠加分析,对植被分布的社会公平性进行分类评估[13];利用商业调查数据和社会经济数据聚类得到购物消费空间的新分类方式[14]。③综合指标分析,即将多个指标转化为一个综合指标对城市某一特征进行总体评价,包括指标遴选、指标正向化、指标无量纲化、指标权重设置和加权综合等步骤,如利用城市的手机信令、交通卡口、政务对接等多源感知数据构建包含人口、交通、企业、商业、建设等多个维度的城市活力综合分析模型,并利用专家打分和熵权相结合的方法,为每个维度下的计算指标设置权重,再通过TOPSIS方法赋予城市地理空间格网以综合活力数值[15],最终在时空场景下利用“三维跃动”的方式形象客观地展示城市在连续时空中的活力变化。
2)诊断发掘模型,侧重于将城市两个或多个指标纳入统一分析场景,利用数据挖掘手段发现指标间的相关、因果等关系,对城市运行状况及其关键因素进行发现与诊断剖析。例如,通过获取街道级别的房价和交通设施数量、到便民设施的距离等指标进行空间可视化和回归分析,探究影响房价的主要因素[16];将根据问卷调查数据估算的碳排放数据与家庭特征、住房特征相结合,通过回归分析得到家庭能耗碳排放差异的主要原因[17]。
3)模拟预测模型,侧重于根据城市历史记录建立预测模型,对特定条件的未来城市需求或运行情况进行模拟和预测。例如,基于城市的人口、经济、公共交通数据,采用随机森林算法和CA-Markov模型开展城市多情景模拟,揭示未来城市用地情况[18];将历史气象数据和站点数据相结合作为特征因子,采用机器学习或其他模型预测季节性干旱、PM2.5水平等气象情况[19-20];通过对新冠疫情传播情况和各地健康状况的统计,生成随时间累积的感染数量,并建立相关预测模型,了解新冠疫情在农村地区的传播趋势[21];将停车需求时空分布、充电需求、电动汽车驾驶特性纳入蒙特卡洛模型,模拟得到电动汽车充电负荷预测[22]。
4)统筹决策模型。针对智慧城市建设与发展中面临的公共设施布局、工程项目选址、车辆运行调度等方面的统筹决策需求,有针对性地构建优化模型,并进行智能计算,提供不同发展场景下的优化方案,辅助城市经济效益、生态环境等多目标均衡可持续发展。例如,基于老年人口、交通路网和养老机构数据,以各需求点到养老设施的可达性差异最小化为目标,采用粒子群优化算法求解,得到养老设施布局优化[23];利用镇土地利用变更调查图,基于点轴理论引入空间引力模型合理确定了农村居民点的整治范围和布局优化方向[24];基于GIS空间数据以及社会经济统计数据等开展基于启发式算法的土地利用优化配置,促进土地利用数量结构与空间布局向可持续方向发展[25];基于出租车出行数据集,引入车辆共享网络的概念,确定在不耽误乘客的情况下服务所有旅程所需的最小车辆数量[26]。
在面向服务的体系结构(SOA)中,服务通常是指一组可通过标准接口(Web Service和Rest Service)和消息传递协议进行访问的数据内容或软件功能[27],从而达到支持分布式异构系统互操作的目的。
作为智慧城市的数据底座,数据平台具有服务注册、审批、管理、调度、监控等核心能力,可为城市多个系统提供统一标准的数据应用服务,不仅能大幅降低各应用系统的数据采集治理成本、有效提升系统构建效率,更有助于形成从数据汇聚到服务应用的完整闭环以及循环反哺的良性机制,保障数据平台有机生长的原动力。
利用数据平台所提供的各类数据服务可快速构建城市级综合应用场景系统。例如,新冠疫情期间,利用数据平台提供的社区人口、交通车辆、区内企业、工地施工等多维数据服务构建集态势呈现、风险分析于一体的疫情防控系统,可为疫情精准防控提供丰富的数据决策参考。
智慧城市数据平台建设,已从“分散建设”阶段发展到“集约建设”阶段,在数字经济建设场景下,则会进一步迈进“群智建设”阶段,即由政府、企业、公众等多方通过共建共享和运营增效来实现平台效能的优化提升。
为了迎接智慧城市建设新阶段的到来,需在进一步夯实数据基础、活化政府应用的同时,在标准体系、安全审计、管理规范的全面保障下,面向城市居民、企业单位和科研机构提供更加优质的标准数据服务和高价值数据授权运营,吸引科技头部企业入驻,创建优质数字营商环境,打造智慧城市群智创新版。
2012年起中新天津生态城持续性优化构建了一套智慧城市数据汇聚服务平台。该平台基于分布式高性能数据存储环境,以时空一张图为基础,通过图形化配置界面实现分布异构的全域数据资源高效汇聚与智能治理;治理后的数据,在共享开放目录框架下,以统一标准为政府部门和社会公众提供数据对内共享与对外开放服务,实现可复用信息资源共享开放。同时,利用大数据分析洞察城市脉动规律,为领导提供决策信息支撑。平台主体建设内容如图4所示。
图4 中新天津生态城智慧城市数据汇聚平台架构
平台从ALIVE数据价值体系的5个方面开展了系列工作,如图5所示。在汇聚方面,按照“应收尽收”的总体思想,实现了生态城天空地人一体化的全域全要素数据汇聚能力。截至2022年7月,数据汇聚平台已汇集了时间序列的高分辨率遥感、倾斜摄影、城市街景、政务地图、2.5维地图、北斗定位、手机信令等多源城市感知数据,并与生态城28个部门单位的70多套信息化系统进行了无缝对接,涉及数据主题22类、数据记录近50亿条。在通联方面,通过数据治理和知识抽取,根据空间关系和属性连接构建了面向交通、社区的知识图谱,初步打通了数据之间的壁垒,为城市数据查询提供了更有深度和广度的智能搜索结果。在洞察方面,平台从环境、交通、旅游、教育、能源等多个维度建立了数十项城市脉动指标,并形成多期专题分析报告,为生态城宏观决策提供了信息支撑。在焕活方面,基于规范化数据审批流程,平台以安全的数据服务方式,为生态城城市大脑系统、智慧交通平台、CIM平台、智慧消防综合管理平台、智慧社区平台等19套应用系统提供了数据支撑,并在2020—2022年的科技抗疫工作中发挥了综合场景敏捷构建的重要作用。在延拓方面,通过数据开放平台,将具备开放条件的数据面向社会公众提供服务,并与多个国内科研机构形成数据应用合作,将生态城的数据价值向更广阔的领域释放。
图5 中新天津生态城智慧城市数据价值呈现成果示意图
智慧城市数据活力价值体系从汇聚、通联、洞察、焕活、延拓5个方面总结构建了城市数据价值体现与释放路径的理论框架。其中,汇聚瞄准数据共享的核心需求,侧重城市多源公共数据的采集管理与组织承载,是数据获取管理的重要手段;通联立足于打破数据壁垒的关键任务,在统一时空框架下构建图属语义灵活关联的数据链网,进而支持广范围、深层次的数据检索呈现;洞察着重于采用多种数据分析模型和计算方法,挖掘数据的隐含价值,是智慧城市数据价值体现的重要渠道;焕活直接面向智慧城市各项应用,依托数据底座平台提供标准规范和灵活便捷的多源数据服务,并为城市级综合应用场景构建提供敏捷高效的解决方案;延拓则面向未来的智慧城市“群智建设”模式,通过政府、企业、公众多方共建共享和运营增效实现数据平台优化,进一步激发城市数据价值,提升城市发展效能。
面向未来,数据平台建设作为一项重要的新基建,是城市建设和数字经济发展的重要基础。建议各地智慧城市数据平台建设在政府一把手的推动下、政府专班的组织下,集成专家知识做好具有全局性和前瞻性的顶层规划设计;并在汇聚、通联、洞察、焕活、延拓5个方面分步实施、持续推动、迭代优化,从而使城市数据价值得以最大程度的发挥。