罗绍辉 黄平友
摘要:该文通过分析、梳理城建档案信息化现状,综合城市人文、历史、空间地理信息等数据,以“人-房-地”一体化框架为基础,提出了城建档案知识图谱服务平台的总体架构和功能设计,通过数据挖掘分析,将城建档案中海量数据结构化,构建集城市设计、建设、规划、管理与社会治理、人文服务于一体的综合性城建档案知识图谱服务平台。该平台通过多维数据自动关联、图谱网格多元联系以及空间信息协同分析,可以实现信息处理、检索与展示、智能查询与分析统计等知识图谱服务。
关键词:时空数据 知识图谱 城建档案 平台
城建档案是在城市规划、建设及管理活动中形成的具有保存价值的文字、图纸、图像、声像等,是城市建设发展的真实历史记录。[1]各档案馆要利用当前技术深入挖掘城建档案价值,首先应建立海量城建档案信息数据库,编制相应标准,如重庆市城建档案馆于2017年颁布了《建设工程档案信息数据采集标准》[2];其次应制定电子档案接收制度,如上海市浦东新区档案局2018年开展了“基于BIM技术的三维城建档案接收保管和应用模式研究”[3];最后应引入大数据、地理信息、数据挖掘等技术,如青岛市档案局于2017年开展了“大数据背景下档案信息资源挖掘策略与方法研究”[4]。
时空地理信息系统使人们能够更好地实现地理实体时间和空间信息的动态表达与建模,是地理空间分析、地理知识表达和挖掘的基础。[5]国内开展的基于地理信息技术(GIS)的城建档案管理系统研究[6],未将时空数据充分与档案的历史、现在、未来相结合形成四位一体的管理模式。知识图谱(Knowledge Graph)则可以弥补以上不足,它是一种基于图数据库的数据结构,使用三元组形式组织数据,将实体表示为顶点的集合,实体之间的关系表示为边的集合,以结构化的形式对知识进行展示。
目前某市城建档案馆在这方面的做法值得借鉴。某市城建档案馆馆藏档案超过140万卷,均已完成数字化扫描和电子目录著录,并且其已将档案中的重要信息提取、挂接到城市地理信息数据,形成关联关系,构建了全市范围的城建档案时空大数据库,形成了某市城建档案知识图谱服务平台。该平台整合某市城建大数据平台现有城建档案数据,融合人员、单位、公共设施、历史文化、政策法规等多种数据源,将异构、稀疏、多样和海量的数据转化成知识图谱,利用图数据库、数据挖掘、信息分析等关键技术,形成以图的形式表现客观世界中的实体(概念、人、事物)及其之间关系的知识库。本文通过梳理城建档案知识图谱的实体、属性和关系信息,提出建立城建档案数据和各级用户的交互知识图谱服务平台,以期为城建档案“知识化”提供新思路。
(一)平台总体架构
以城建档案可视化服务为目标,城建档案知识图谱服务平台采用分层思想和模块化结构,高内聚低耦合,总体设计上分用户层、业务层、数据层和硬件层四层。该平台充分结合城建档案管理特点,以工程建设全过程档案归集为主线,使数据自底向上流动,总体架构图如图1所示。用户层按不同角色区分系统设计的各种用户;业务层是系统建设的核心,含城建档案关联分析、城建档案异常检测、智能问答以及可视化分析与展现等业务模块以及基础数据管理和系统管理等系统模块;数据层包括源数据管理、数据清洗、知识图谱框架管理、知识图谱构建等模块;硬件层是系统提供各项服务并实现正常运行的基础,通过相关的硬件设施来提供基础服务。
(二)平台体系架构
该平台在功能设计上采用可扩展的多层体系,共分为五层:表示层、业务逻辑层、通用构件层、资源访问层和资源层。表示层提供数据展现服务,将业务层提取的业务数据展现给系统用户;业务逻辑层由各业务逻辑模块组成,实现系统的业务功能;通用構件层将系统公用的功能抽取出来,以构件的方式实现模块的重用,提高系统重用性;资源访问层提供对系统数据资源的访问接口,通过调用接口访问相应数据资源;资源层由系统涉及的各种数据资源构成,包括基础数据、字典数据、知识图谱等。
(三)“人-房-地”知识图谱模型设计
知识图谱模型设计是构建知识图谱的关键,采用实体-联系模型(E-R图模型)构建“人-房-地”的知识图谱基本框架,展示实体集合和联系集合。每个En? tity代表一个实体类型,字段则为实体属性,如果字段为外键字段,则代表与其他实体的一种关系。
围绕着“人-房-地”知识图谱基本架构,我们将其梳理成三个数据域的数据源:城建档案数据源、城市地理信息数据源(包括“点-线-面”地理信息数据)和住建基础数据源,并基于Power Designer设计了数据源的表结构。之后,我们以城建档案数据源为核心来构建城建档案知识图谱,形成城建档案数据源物理模型。
城建档案知识图谱平台基于馆存城建档案中房建、用地数据标准化处理,使住房用地空间位置与公共服务、市政、交通设施匹配,形成以地块为基本空间单元的“人-房-地”体征数据库。这样“人-房-地”对应后,就可以形成在同一空间单元具有唯一性的人口、建筑和用地相互关联关系。
该平台通过将城建档案中海量的非结构化和半结构化数据进行结构化,构建城建档案知识图谱,并且通过基于知识图谱的信息检索和推理,提供面向城建档案业务人员的城建档案流程智能关联、地块历史数据关联等知识服务。
该平台利用知识图谱技术,将分散在住建、城建档案、城市地理信息等各领域的数据进行汇聚融合,并构建以“人-房-地”为核心的城建档案知识图谱系统,提供智能应用服务。
(一)知识图谱Schema可视化
该平台可以实现按需求可视化调整知识图谱结构,我们可在平台上通过拖拽的方式自助创建图数据库集群、创建图的Schema、导入图数据,设计知识图谱的实体、属性和关系信息,如图2所示。对于实体,我们可设计其实体名称及实体属性信息,包括属性名称、属性类型(数值型、字符型、布尔型、时间日期型等)、最大最小值、是否必需、是否为显示字段等,通过在实体之间连线操作,实现实体间关系的设计可视化。
(二)逐级探索及双实体关联分析
该平台对知识图谱中的“项目-地块-单位”等信息进行关联分析,并可视化展示其分析结果,实现城建档案信息逐级探索功能。我们通过输入检索条件确定起始节点,即可获得该节点属性信息。
实体类型包括单位、项目、地块、小区、楼栋5类共10种组合,我们通过选择实体类型并在系统中输入实体名称可查询该实体所有属性的信息,并了解实体(档案名称、属性等)之间的关系。
(三)基于地块的知识图谱可视化展示
通过将可视化展示功能与南宁市城建大数据平台融合,可以在电子地图上展示地块的关联图谱信息。如图3所示,查询结果关系图可列表显示图形中所有实体,并且我们选择某个实体后,可以获得该实体的所有属性信息。
(四)异常检测分析
平台通过图谱推理,设置异常检测规则阈值,判断异常数据。该功能可用于项目合规性检测、楼栋的安全性检测(如检测电梯过保或者幕墙过保的楼栋信息)、危房预警分析(根据预设的危房判定规则对所有建筑物进行危房判定,预警提示符合条件的建筑物)、相似事故预警分析(通过分析历史安全事故信息,抽取其特征值,并将特征值在知识图谱中进行近似匹配,对近似度较高的建筑物或项目进行预警提示)。
在“存量数字化,增量电子化”的信息化进程中,档案“知识化”越来越引起人们重视。[7]基于图数据库的知识图谱在处理海量数据多对多的复杂实体联系场景中有着高性能、灵活、敏捷的天然优势。城建档案知识图谱服务平台有别于一般的城建档案系统,具有深度知识推理能力和逐步扩展的认知能力,基于知识图谱服务平台提供的信息检索和推理能力提供城建档案检索、智能关联、异常检测分析等知识服务,可以有效提高服务效率,扩展城建档案在各行业的应用,进而可以拓展服务领域。伴随“互联网+”与城建档案的深度融合,后续我们可以基于知识图谱去探索图学习、图计算的能力,为平台用户提供更多挖掘城建档案图数据价值的功能,推动城建档案管理朝着智能化的方向前进。
*本文系2020年国家档案局科技项目“基于时空数据的智慧城市档案知识图谱构建及应用服务体系研究”(项目编号:2020-X-053)阶段性研究成果。
注释及参考文献:
[1]王静岩.浅谈关于海量城建档案数据的深度挖掘和分析[J].土木建筑工程信息技术,2018,10(3):108-111.
[2]徐惦耕,张颖.大数据时代城建档案在城市建设管理活动中的作用[J].重庆建筑,2019,18(9):41-43.
[3]杨继东.基于BIM技术的三维城建档案接收保管和利用模式研究[J].数字与缩微影像,2017(3):11-15.
[4]楊来青.大数据背景下档案信息资源挖掘策略与方法研究[J].中国档案,2018(8):60-61.
[5]邬群勇,孙梅,崔磊.时空数据模型研究综述[J].地球科学进展,2016,31(10):1001-1011.
[6]黄欢宏,陈启文.基于GIS的城建档案管理系统研究与开发——以城建档案空间导视管理系统建设项目为例[J].城建档案,2018(11):36-38.
[7]孙沁.“互联网+”时代档案利用服务工作变革的几点思考[J].北京档案,2020(2):32-34.
作者单位:1.南宁市勘测设计院集团有限公司2.南宁市城市建设档案馆