杨孟翰 王方民 刘康甯 陈林
(重庆市地理信息和遥感应用中心,重庆 401147)
本文介绍了一种用于表示地理实体和社会实体的知识图谱的本体设计和相关应用场景。传统地理信息系统(GIS)在城市规划、环境监测和灾害管理等多个领域都扮演着重要角色。然而,当今社会的高速发展和行业融合带来了跨领域合作的必然趋势,也给GIS系统带来诸多挑战。例如,处理日益复杂的空间数据(包括卫星影像、地图和基于位置的服务等不同类型的数据);在整合其他领域各类数据时,遭遇越来越多的困难。通常在使用GIS 的同时,还需借助其他领域的专家进行辅助,才能实现较为复杂和跨领域的分析[1]。综上所述,GIS 的实用性和应用范 围受到了巨大限制。
为应对这些挑战,研究人员开始把目光投向知识图谱。知识图谱是一种灵活且可扩展的数据建模和应用方式,对于多源异构数据的整合、查询和应用分析、知识服务等方向都有非常强大的能力。知识图谱源自人工智能领域,并由谷歌和微软等搜索引擎推广[2]。在知识图谱中,信息不再以一组组不相关的数据点的形式呈现,而是以更结构化、互联的方式来表示,同时,数据以节点及其关系和属性的形式进行表达,从而创造出图形结构,实现更有效的数据处理和分析。知识图谱已经在各个领域展现了其价值,例如自然语言处理、数据集成和知识管理等[3]。
本文主要研究地理实体和社会实体知识图谱的本体设计和应用方向。本体设计包括本体的构建方法、概念和关系的层级设计、本体设计的表达及本体的评估方法。同时本文还分析了地理实体和社会实体知识图谱的应用方向。在研究多源异质数据融合、空间查询、城市规划、灾害评估管理等相关应用场景后,确认了地理实体和社会实体知识图谱的意义和发展方向。
本体是对一定范围内的概念和关系进行知识表示的一种形式,是构建知识图谱的关键。在知识图谱中,本体主要用于定义和组织图谱中所代表的实体和关系,以提供对不同领域的用户和场景中实体和关系含义的共同理解,从而实现数据融合的功能[4]。本体的构建还可以确保图谱中数据的一致性、准确性和完整性,并为有效的推理、推断和决策提供支持[4]。所谓的 “本体库”是指包含无数概念和概念关系的库,本体是数据集成、共享和发现的主要工具,本体本身也可以被重复利用[5]。因此,本体设计需要相关领域的专业知识和专业的表达方式。
构建知识图谱的本体设计目前包括自顶向下、自底向上和中间开展的方法[6]。自顶向下的方法首先需要从领域的高层次概念入手,然后逐渐建立具体和详细的概念和关系。当领域已经被明确定义,且对需要表示的概念和关系有清晰认识时,自顶向下的方法非常有效。自底向上的方法则是从具体的实例和关系入手,然后将其归纳为更抽象的概念和关系。这种方法通常可以发现新的概念和关系。当领域复杂而不确定时,自底向上方法的效果通常更为理想。中间开展的方法,也被称为混合方法,结合了自顶向下和自底向上方法的特点,从提供领域一般框架的中层概念开始,随着发现新的概念和关系的增加,添加新的概念和关系[7]。本体设计不仅需要领域专业知识,还需要专业的知识表示技能,其目的是为了定义和组织知识图谱中所代表的实体和关系,提供对不同领域的用户和场景中实体和关系含义的共同理解,并确保知识图谱中数据的一致性、准确性和完整性,为有效地推理、推断和决策提供支持[4]。本体本身可以被重复利用,构建本体库可以促进数据集成、共享和发现[5]。
对于地理实体和社会实体知识图谱而言,中间开展的方法是最好的选择。这种方法适用于建立地理实体和社会实体的一般框架,同时又能够根据发现的新概念和关系,灵活地添加新的概念和关系。地理实体和社会实体知识图谱包含一些定义明确的概念和关系(如空间关系),也可能包含一些更复杂、不太明确的概念和关系(如社会关系)。中间开展的方法可以在本体中平衡这些不同类型的概念和关系,同时充分考虑领域的复杂性和不确定性,提高本体的准确性和完整性。因此,中间开展的方法在地理实体和社会实体知识图谱的本体设计中具有很大的优势。
本研究的本体设计主要包含三个方面:实体对象的层级分类设计、关系的类别设计以及属性的设计。
本研究使用了分类法来设计实体对象的层级分类。分类法是一种基于实体共享特征或属性进行分类和分组的方法[8]。在地理实体和社会实体知识图谱中,对象通过分类法分为地理实体和社会实体,这两个分类提供了对地理和社会现象的详细描述。在地理实体的分类中,实体分为地物实体和地理单元,并对这两个大类进一步细分,构建了详细明确的层级结构。而在社会实体中,则根据所属领域进行分类,如教育和法人领域等,并在每个领域进一步搭建该领域的层级和分类。这些分类和层级的设计为知识图谱的查询、分析和演算提供了强有力的支持,也是知识图谱能够被任何知识背景的用户所使用的重要原因之一。
在本体设计中,关系类别的设计非常关键,它提供了实体对象间不同类型关系的框架和层级。在地理实体和社会实体知识图谱的本体设计中,关系类别被设计为三个主要类别,即空间关系、社会关系和承载关系,每个类别又包含不同的子类别。例如,空间关系类别进一步细分为拓扑、连接、方向和距离关系,且每个子类别又包含多种具体关系,如拓扑关系包括包含、相邻和相交等关系。这些子类别的设计让空间关系的表示更加精准。社会关系被分为上下级关系、行业管理关系和权属关系等,每个关系类别下都有具体的关系名称,如上下级关系包括“上级单位”和“主管部门”等关系。地理实体和社会实体知识图谱的关系设计还包含承载关系,该关系对于将社会实体连接到地理实体方面起着至关重要的作用。承载关系主要展示了社会实体与所处地理实体之间的关系,是空间数据和其他社会、经济、人文等领域数据进行融合的重要途径,可在数据中完成对真实世界的映射。这些关系类别和层级设计有助于用户准确理解地理实体和社会实体之间的关系,并为知识图谱的应用查询和分析演算提供强有力的支持。部分关系设计如表1 所示。
表1 关系设计表(部分)
在地理实体和社会实体知识图谱的本体设计中,属性是最后一个关键。它提供了实体和关系的附加信息,可以是定量或定性信息,也可以是结构化或非结构化的属性。例如,地理实体的属性可以包括面积、长度和高程等结构化属性,同时也可关联非结构化属性,如图片、视频和网页等。而社会实体的属性则可依据实体对象所属的领域,挂接各类属性,包括经济属性、法人属性和职能职责等。需要注意,关系也可以具有属性,这些属性也可以包括定量或定性信息。例如,距离关系可具有“远”“近”等定性属性,同时也可表示两个实体间具体的距离数值等定量属性。部分地理实体和社会实体知识图谱本体设计如图1所示。
图1 地理实体和社会实体知识图谱本体设计(部分)
在本体的构建过程中,选择适当的语言和软件是确保本体准确性、一致性和可重复使用性的关键。目前主流的本体开发语言包括RDF、RDFS 和OWL 等[9]。其中,RDF 是一种用于表示元数据的简单语言,而RDFS 通过词汇表定义类和属性扩展了RDF。而OWL 则是一种更具表现力的语言,允许定义复杂的关系和推理,因此对于复杂的概念层级和分类而言,OWL 是相对于RDF 和RDFS 更佳的选择[10]。此外,Protégé 是一种本体编辑器和知识管理系统,支持多种本体语言,包括RDF、RDFS 和OWL。
本研究选择OWL 和Protégé 作为地理实体和社会实体知识图谱的本体研究和设计工具。选择OWL 的复杂关系和推理支持能力,可以更好地表示空间数据和社会知识领域的复杂关系。而Protégé 简单清爽的界面、广泛的相关文档以及对多种语言的支持,则使其成为管理和编辑地理和社会知识图谱本体的理想选择。
在初步的本体设计完成后,对本体进行评估和完善非常重要,确保能准确表示知识层级类别和关系,并满足用户和应用的需求。评估本体设计的方法有几种,包括用户反馈、真实数据测试以及将本体论与同一或相关领域的现有本体论进行比较[11]。
常见的一种本体设计评估方法是用户反馈,通过收集领域专家、利益相关者和最终用户的意见,以评估本体的清晰度、客观性、一致性、可扩展性等[12]。通过调查访谈收集用户反馈,可以确定需要改进或扩展的领域。另一种评估方法是使用真实数据进行测试,该方法涉及将本体论应用于实际数据集,以识别本体论中的任何不一致、错误或缺陷。此方法可以确保本体设计在实际应用中的实用性。
除了上述方法,将所设计的本体与同一或相关领域的现有本体进行比较,对于地理实体和社会实体知识图谱的本体设计评估最为有效:地理相关领域已经有无数学者提供了非常优秀和详尽的设计,许多相关的社会领域也同样如此,为了保证能与各行各业进行跨域融合,地理实体和社会实体知识图谱的本体设计必须要参考大量的现有本体设计。对比学习现有本体设计的方法不仅可以确定本体可能缺少的部分,而且可以使用其他本体设计中的概念或关系对所设计的本体进行补充,可以有效促进数据共享和集成[13]。
在地理相关领域,许多学者已经通过研究地理要素与地理过程的空间格局、演化过程的相互作用,从而完成相关的本体设计。此外,在地理信息行业,已经存在相当成熟的层级设计,例如开放地理空间信息联盟(OGC)制定的《地理标记语言》(GML)标准,此标准提供了一种表示空间数据和关系的标准方法,可以作为重要的学习参考资源。在地理实体和社会实体知识图谱本体设计中,对于地理实体的分类层级和关系设计也应与这些标准兼容,以确保其专业性,同时也可以促进与GIS 相关行业的数据共享[14]。
在各个社会领域,也有许多本体设计可供对比和借鉴。例如,Dan Brickley 和Libby Miller 发明的FOAF 词汇表(Friend-of-a-Friend)作为本体设计的权威模板,提供了一种表示人际社交关系和连接的本体设计方法。此外,各行各业的官方文档和研究,例如政府针对某个行业的专业指导文件,也是重要的对比和借鉴对象。通过对比学习,可以评估设计的本体的专业性和实用性[15]。通过参考、融合这些相关设计的概念和关系,地理和社会知识图谱本体设计可以在实用性和专业性方面获得保证,并提供与各行各业进行知识融合的强大功能。随着地理实体和社会实体知识图谱的不断完善和发展,会不断融合更多其他领域和实体知识,而本体设计作为知识图谱的核心,决定了其质量,需要不断迭代和完善[16]。
地理实体和社会实体知识图谱有广泛的应用前景,可解决多种复杂问题,如整合多源异质数据、空间查询、城市规划、灾害评估与管理等。在这些应用中,整合多源异质数据和空间查询是其他应用的基础和支撑。
在传统的地理信息系统(GIS)中,同一个实体可能在不同比例尺、图层或产品中存在多种表示方式。这种多维数据结构使计算机难以理解这些不同图层中的图形其实表示同一个实体,只能通过专业人士的肉眼和大脑进行分析理解。尤其对于非常专业的查询和分析,传统技术手段需要非常熟悉数据存储的专业人员来操作,极大地提高了数据应用的门槛。而当空间数据需要与其他领域的数据进行并行分析时,传统技术手段则需要将其他领域的数据进行调整后形成新的图层,才能与专业的空间数据一起分析比较。这些都对数据的应用和分析造成了相当多的困难。
相反,地理实体和社会实体知识图谱将所有数据压缩到一个平面维度,并将所有图形、位置信息、影像和模型等与实体节点关联。当观察某个实体节点时,可直接通过属性或关系探索分析。此外,承载关系将来自其他领域表示相同实体的数据集成到知识图谱中,将空间和社会信息绑定一起,使计算机能更有效地理解或推断数据之间的关系,并以简洁易懂的方式呈现。
作为一种克服传统GIS 行业瓶颈的新方法,地理和社会知识图谱不仅具备传统GIS 技术强大的空间查询和运算能力,而且在基于丰富的空间关系的情境下,执行许多空间查询和复杂分析更为简单和有效。例如,在查询两个地物之间的最短通达路径时,地理实体和社会实体知识图谱可以像人类一样进行思考和规划:通过考虑起点和终点之间的相邻关系,以及道路之间的连通关系和长度属性,规划出一条距离最短的路径。而假设需要进行更加复杂的空间运算,例如“希望走一条经过较多绿化的路线”,在传统GIS 中进行这样的分析运算是相当复杂的。但在地理和社会知识图谱中,仅需要在进行空间查询时,将道路与商铺之间的相邻关系作为一个变量,加入分析查询即可。
地理和社会知识图谱具有为城市规划提供全面和详细视角的巨大潜力。由于具备强大的数据整合能力,它能够将多个领域的数据通过属性或者关系挂接到图谱中的实体上。城市规划设计者可以通过一个节点,访问和分析相关的多种数据,如土地利用、交通、人口统计、社会和经济因素、环境因素等。通过整合这些数据,城市规划设计者可以做出科学决策。
以公共交通为例,用户可以将表示公共交通站点的节点添加到图谱中,并创建与直接相邻地理实体的空间关系,让该节点正确融入图中,然后就可以计算该公交站点的服务范围和覆盖人口,从而显著降低方案模拟的成本,并提供直观的结果。同理,对于其他公共服务设施的选址,或现有城市设施的影响力测算等,地理和社会知识图谱也具有强大的支撑能力。
由于整合了地理空间数据和社会各领域的相关数据,地理实体和社会实体知识图谱在灾害评估和管理中,可以提供受灾区域的全局视角和细节分析。例如,在地震发生时,地理和社会知识图谱除了能够迅速查询受灾区域建筑、设施和道路的具体信息,还能快速统计受灾区域的人口分布和密度,以及应急机构、赈灾资源和应急场所等信息,然后快速计算出最佳救援方案,如救援工作的任务分工、考虑到破损设施的最佳救援路线,以及受灾人群的安置方案等。
综上所述,地理实体和社会实体知识图谱在地理和社会数据的表示和分析方面有巨大潜力,为多元异质数据整合、空间查询、城市规划和灾害评估管理提供了强大工具。除了上述应用场景,地理实体和社会实体知识图谱在理论上可为任何与地理位置相关的应用提供服务,如生物事件、治安管理等。通过发挥地理实体和社会实体知识图谱的力量,决策者可设计出更宜居、更安全的城市环境,更有效地应对各类情况。
知识图谱是地理信息行业所面临挑战的潜在解决方案,它提供了一种更灵活和可扩展的方式来建模和整合不同的源数据。本文探讨了一种地理实体和社会实体知识图谱本体设计实现方案和应用方向,详细介绍了地理实体和社会实体知识图谱本体设计,重点关注了实体对象类型、关系类型和属性选择,还讨论了知识图谱在解决传统地理信息行业所面临的挑战以及未来研究方向的潜力。总的来说,利用知识图谱来关联、展示和分析地理实体和社会实体是一个具有许多潜在应用和未来发展方向的研究领域。