刘亚楠
(珠海市测绘院,广东 珠海 519015)
自然资源是人类生存和发展的载体与基础,自然资源管理效能的提高事关社会整体发展效率和质量[1]。自然资源测绘为自然资源管理提供了科学、准确的时空数据,是自然资源主管部门科学高效地履行管理职能的重要技术支撑[2]。随着大数据、人工智能、“互联网+”等新兴科技的普及,各行各业融合、跨界进程加速。自然资源测绘技术正面临着管理升级需求演化快,测绘生产集成难;数据复杂且分散,时空信息融合更新难;信息化服务要求高,智能服务难等测绘与信息技术的挑战[3]。
本文通过分析研判各类型业务规则、涉及的数据内容、科学表达方法,构建知识库,基于开源空间数据转换库(GDAL/OGR)的自然资源测绘矢量数据处理模型,自动匹配专家规则库,解决传统测绘跨平台频繁切换的关键技术,实现灵活的规则选择及高集成度的测绘生产;将面向自然资源领域多数据来源、多数据格式、多时空数据、多比例尺、多语义的数据,采用跨平台多源异构数据信息映射技术,构建实体对象间的映射关系,从而实现自然资源多源异构时空信息数据融合和统一管理。
研究中以自然资源测绘时空信息智能技术服务体系为目标,以集约数据生产→高效信息整合→智能定制服务为主线,从测绘数据集约生产、时空信息高效融合、网络一体智能服务等方面建设“信息服务平台”,构建一体化、智能化、精准化的测绘服务平台。
新时代自然资源改革发展同时也带来的业务规则多变难题。自然资源测绘涉及大量矢量数据的分析处理工作,传统作业方法需依托多个GIS平台,存在跨平台频繁切换、操作烦琐、技术要求高的技术瓶颈。通过将业务需求的各类方法、策略和参数进行科学化的集成,形成业务专家规则库,并建立知识规则处理模型,应用服务可以根据需求调用不同规则,自动构建数据处理模型,从而实现基于专家规则库的自然资源测绘数据零向导定制[4]。
专家规则库是一种测绘行业数据智能化定制策略,规则库的质量好坏直接影响数据生产的质量好坏和可靠性。规则库中最关键的部分就是知识存储于表达,这些知识用于识别录入的信息并给出匹配的规则[5]。从知识的本身来看,可分为两种类型:一是基础原理和理论,另一种是基于直接和间接经验积累的专门知识。如果规则库中的信息缺乏坚实的理论基础,是很难做好经验规则的转化工作的,也就不可能对一个复杂的问题给予正确的解决方案。因此,在建立数据定制的专家规则库时,不仅要求库中包含大量的流程控制和信息处理原则,更重要的是要有能够处理复杂问题所需的基本理论的深层知识作为基础,对数据定制生产流程中需要解决的突发问题与矛盾能给出相应的判断和人性化的提示。
专家规则库的建立主要是从经验丰富的自然资源审批测绘领域数据生产专家处获得知识,并把它们以模型和规则的方式进行编码,形成一套问题处理和流程控制机制。知识表示是用计算机能够接受并进行处理的符号和方式来完成的。不同的表示方法大大地影响系统的工作效率。因此,规则表示是研制专家系统的重要问题,这就需要研究如何把相应的知识与规则形式化,并转移给机器。自然资源审批测绘专家规则库的设计主要包括问题信息知识化、知识概念化、概念形式化、形式规则化和规则合法化。一般规则库由知识主表、业务知识主表、业务知识从表组成。知识主表:用抽象的方式存储各类知识,包括知识ID,知识类型,知识描述,版本号,创建时间,审批时间,状态等属性。其中,知识类型用以划分系统中各种类型的专家知识,知识描述用以描述各类专家知识的特性,其他属性字段则适用于知识的发布和审批。业务知识主表:分别描述了故障诊断系统的多类专家知识,包括故障监测点知识主表,闭环测试知识主表,故障树知识主表等。业务知识明细:是具体的专家知识的存储结构。
通过上述三层层级结构,有效地构建了稳固、可靠并且方便扩充的专家知识数据库模型,方便后续存储更复杂的专家业务知识。
不同系统的数据格式对同一地理实体表述的方式存在差异性,但表达的内容或信息却存在一致性。通过在传统GIS地理要素编码(主码符号)的基础上嵌套具有实际意义的地理要素子码,使得符号化技术超出图面表达的应用范畴,将地理要素按照可控打散与嵌套式组件化的新方法构建全息数据结构模型[6]。在具体的应用中,将构成主码符号部件的子码赋予是否打散(整体分解)和是否过滤(信息过滤)两个简单标志,在符号化技术层面将系统间复杂的对照关系拆解为简单的“一对一”实体映射关系,从而实现一对多、细化到信息层面上的跨平台多源异构数据转换。自然资源数据转换流程如图1所示。
图1 自然资源数据转换流程
为满足管理需要,响应用户数据请求,需按规则对多源异构数据进行解析、空间数据识别和关键信息抽取,并对结果信息进行拓扑重构、信息重组,形成符合数据请求的数据结果,为统一管理和共享服务奠定基础。
多源异构数据时空信息聚合,主要包含三个环节:数据格式解析、空间数据识别以及关键信息抽取。数据格式解析主要是通过定制数据格式解析服务,通过调用这些服务识别不同的录入数据文件的格式并进行实时解析和关键性转换;空间数据识别主要是针对解析后的数据,通过对比标准属性库模板判断其属性信息的含义,并检验空间数据的坐标参考以及图形拓扑关系,并将不同坐标参考下的数据信息统一归算到指定坐标参考下;关键信息抽取指的是根据空间数据识别结果,对其中重要的几何图形信息和属性信息进行匹配和筛选,筛选后对结果进行信息重组,形成符合数据请求的转译数据结果[7]。时空信息聚合流程如图2所示。
图2 时空信息聚合流程
(1)自然资源多源异构数据结构解析与信息抽取
自然资源数据格式解析主要是通过定制数据格式解析服务,通过调用这些服务识别不同的录入数据文件的格式并进行实时解析和关键性转换;空间数据识别主要是针对解析后的数据,通过对比标准属性库模板判断其属性信息的含义,并检验空间图形数据的坐标参考以及图形拓扑关系,并将不同坐标参考下的数据信息统一归算到指定坐标参考下;关键信息抽取[8]指的是根据空间数据识别结果,对其中重要的几何图形信息和属性信息进行匹配和筛选,为后续筛选结果进行信息重组,形成符合数据请求的转译数据结果形成基础。
(2)自然资源时空数据多层次模型建立
自然资源多源异构数据经过信息提取之后,将形成包含时间、空间在内的多个维度的信息流,将该信息流在数据结构层次展示出来,需要建立自然资源时空数据多层次模型[9]。这其中主要包括2个基本层次:信息的表达性可视化任务(taskV)、分析性可视化任务(taskA)。
信息流的表达性可视化任务主要以多模态时空数据、信息和知识的高效表达与传递为基本目标,重点包括信息的离散-连续、动-静、真实感-抽象化的自适应表达,将不同特征下的信息流模型化、可读化、可视化。
其形式化定义为:
taskV=。
分析性可视化任务旨在表达通过复杂计算分析所获取的多模态时空数据中所隐含的信息,突出数据中所包含的特征与关联关系,保持数据重构的完整性和可分析性特征。典型的应用包括实时计算与近实时模拟结果的动态可视化、空间格局与分布模式可视化、符号化与拓扑关系可视化等。其形式化定义为:
taskV=。
(3)在信息流模型库中建立索引实现信息聚合
自然资源数据信息流模型库主要是实现自然资源地理信息抽取与转化的主要任务,是基于地理命名实体识别(Geo-NER)、地理命名实体消歧(Geo-Disambiguation)和地理空间求焦(Geo-Focusing),建立信息流模型中的关键数据索引,从而实现关键信息的抽取和聚合。
自然资源数据信息流模型库索引的建立,通过对抽象的数据信息流模型库进行交互式的可视化表达以增强感知,最小化认知负担,是提高信息流模型库索引性能与效果的主流方法。空间地理信息结构化的基本原理如图3所示。
图3 空间地理信息结构化的基本原理
自然资源审批测绘成果数据包含各类专题制图工作,包括规划总图、规划局部图、现状总图、现状局部图的制作。通过集成预设好的专家规则库,只需要上传相应的制图数据,选择制图模式,系统将自动在后台匹配数据坐标系,查找对应年份对应图幅的专题底图数据,并通过空间运算给出符合要求的最优比例尺和制图范围,同时自动匹配符号库标识出制图图例。制图流程及应用实现如图4、图5所示。
图4 基于专家规则库的零向导制图流程
图5 基于专家规则库的制图
由于涉及的业务数据种类复杂格式多样,想要将数据进行精确转换需要对数据进行解析、抽取、转换、重构,最终得到目标坐标系下数据。在本应用中基于多源异构数据信息映射及时空信息聚合技术,实现了各类数据的集中快速解析和关键信息抽取,将抽取出的信息流结果根据转换要求进行了储存与实时转换,最终将转换结构按照几何数据类型进行聚合重构,得到目标坐标系下的数据结果。应用实现如图6、图7所示。
图6 EDB格式数据政务转换
图7 自然资源测绘成果数据
面向自然资源土地审批测绘生产及管理服务需求,梳理编制生产标准,构建专家规则库,并建立知识处理规则模型,实现了不同生产需求规则模型的自动选择以及多源异构数据解析与转换,突破了复杂多源异构数据整合的规则表达及转换建模,聚合了自然资源时空信息,提升了土地审批测绘生产效率及服务能力,为自然资源管理部门进行土地资源管理夯实了基础。