余晓敏,祁玉杰
(1. 湖北省基础地理信息中心,武汉 430074; 2. 湖北省北斗卫星导航应用技术研究院,武汉 430074)
随着大数据时代的到来和不断增长的信息流,自然资源管理迫切需要更加科学、智能的解决方案,“自然资源+人工智能”成为自然资源管理技术发展的必然趋势。
自然资源领域数据具有海量性、多样性、复杂性等特点,且这些数据对应的数据库、应用系统和网络基础设施在建设机制、技术标准和应用模式方面都存在较大的差异。这对自然资源数据检索的速度和精度提出了更高的要求。语音、自然语言与自然资源管理应用有效结合,通过交互方式升级和智能化升级,能满足自然资源数据检索需求。
由于人类语言的多义性和随意性,与自然资源数据库要素存在巨大的语义鸿沟。随着人工智能技术的发展,自然语言处理技术也快速发展,自然语言处理技术在信息检索、智能问答等方面具有巨大的应用价值[1]。当前,信息智能交互系统也有了一定的研究基础,杨迪等[2]设计并提出了智能交互系统的关键功能和系统架构组成;丁亦喆等[3]思考了智能交互系统在移动端的设计思路;马贤明等[4]提出了无人作战系统信息交互和智能行为技术途径;刘阳等[5]探索了交互式信息检索的用户模拟器。但这些基础都处于概念设计和理论研究阶段。
本文从自然语言处理的角度,论述了面向自然资源管理的信息智能交互技术面临的难点,提出了信息智能交互的技术方案,实现了信息智能交互技术在自然资源领域的应用,提升自然资源管理的智能化水平,为自然资源领域广泛应用信息智能交互技术提供参考。
自然语言处理技术是让计算机学习、理解并生成人类语言的一种技术,以实现对人类语言的智能化处理,提高数据处理效率,辅助解决各种文本处理问题。由于自然语言的多义性和随意性,自然语言与自然资源数据库要素之间存在巨大的语义鸿沟。面向自然资源管理的信息智能交互模式必将面临自然语言与地理语义智能解析、地理语义理解与地理要素智能映射、数据库地理要素组织聚合3 方面的难点。
随着我国自然资源调查监测技术手段进一步拓展,及时掌控自然资源数量、质量、生态状况及变化趋势的能力得到了大幅提高,这也使得自然资源数据库的数据量呈爆发式增长。传统的菜单式列举或搜索式查询自然资源数据,已经无法满足用户面临的各种查询需求。因此,自然语言理解与信息智能解析技术研究,是实现自然资源信息查询与分析处理智能应用的关键基础。
语义技术能够更智能、更精确地检索信息,辅助工作人员进行科学决策[6-7]。信息抽取获得的要素信息与查询模式直接应用到自然资源数据检索,通常由于难以理解其语义而无法得到准确的结果。因此,抽取得到的原始要素信息转化为符合地理语义范式的要素信息是实现高效、准确查询的前提。抽取得到的原始要素信息以构建的自然资源词典数据库和知识库为标准,通过高效索引,从专有名称、时间、地点、地理要素、空间关系和指令类型等维度将口语化、非专业的原始要素信息映射为规范、统一的要素信息。
随着数据获取方式的丰富和技术的发展,自然资源空间数据类型不断丰富。遥感、基础地理、社会经济、辅助专题、案例和应用产品等数据呈指数增长,使得存储系统变得臃肿,有效的数据存储、查询正在变得越发困难,面向主题的高效和高精度数据存储组织具有挑战性。
面向自然资源管理的信息智能交互技术旨在为用户构建专业化、智能化数据查询与分析展示的解决方案。该方案构建于自然资源数据支撑系统之上,可以不破坏原有系统的功能组织、运行流程、数据资源等,能为用户构建智能化数据查询与展示的第一界面,总体思路如图1 所示。
图1 总体思路
用户和自然资源行业数据之间建立空间数据智能化服务中间件。该中间件主要用于处理用户的自然语言输入,快速解析用户关于供地等专题内容并提取为地理语义表达,包括时间信息提取、空间位置及空间关系提取、要素及属性信息提取等。然后,基于语义语料库、地名地址与POI 信息、数据资料和数据索引信息,构建专题、事件的查询范式,获得多种类型的统计分析结果等,实现对各种基础和专题的数据语义语料构建,从而支持自然资源各类专题数据的智能化查询和展示。
2.2.1 信息抽取技术
信息抽取技术[8-10]助力自然语言与地理语义智能解析,是一种自动化地从半结构和无结构数据中抽取实体、关系及实体属性等结构化信息的技术,其目的在于从自然语言中准确、快速地抽取出人们感兴趣的事实信息,并将其以结构化形式储存,供用户查询及进一步分析利用。信息抽取模型采用基于知识工程和机器学习相结合的方法,人工编制规则能够准确、快速提取较强规律性的文本,处理特定知识领域的信息抽取问题,机器学习可以从标注的查询材料中自动学习特征,实现查询信息抽取。
2.2.2 地理语义相似度模型
地理语义相似度模型[11]简化地理语义理解与地理要素智能映射。地理语义相似度是指某种要素信息在数据条目信息上下文环境中可以相互代替而且不会改变数据条目信息语义结构的近似程度,是评价要素信息与自然资源数据库数据条目信息之间近似程度的重要指标。地理语义相似度计算模型在考虑查询类型的基础上,针对要素信息名称、概念、时间、地点、地理要素和空间关系特征拟定相应的相似度计算方法。在理解查询文本隐含的地理语义基础上,根据拟人化偏好设置对所有相似度匹配处理结果进行排序,确保最符合空间关系要求的候选结果优先输出。
2.2.3 基于面向主题的数据分层组织和深度关联的数据聚合技术
基于面向主题的数据分层组织和深度关联的数据聚合技术[12],解决面向多类型数据库地理要素组织聚合难题。面向主题的多类型数据分层组织方法,在传统模式基础上研究环境上下文相关、主题相关和时空相关的数据组织方法、复杂时空关联规则和时序关联规则,在统筹实际应用需求、数据存储管理策略与存储特性基础上采用数据分层组织方法建立基于不同层次主题的聚类索引,实现面向主题的个性化信息检索和面向主题的选择性信息过滤,支持横向、面向主题的多类型数据库跨库查询和纵向、面向主题的时态信息查询,为分析决策提供高效的数据搜索能力和高质量、高可用的信息。关联数据是实现结构化和半结构化数据聚合与开放共享的有效途径,核心在于其立足海量数据背后客观实体或抽象概念间的复杂关联关系,通过概念或实体的语义描述、空间关系描述与开放发布实现数据资源的充分揭示与自由存取,进而依托语义链接、空间关系链接的构建与维护机制,实现数据库各类资源客观关联关系的规范表达,从而实现面向多类型数据库的资源深度聚合[13]。
面向自然资源管理的信息智能交互技术方案架构设计,自上而下分别为用户层、平台服务层、数据层和基础设施层4 个层次,如图2 所示。用户层包括PC 端和手机端,用户通过语音或自然语言输入,进行空间数据库信息调阅。平台服务层是智能交互的核心服务体系,包括自然语言地理语义解析、数据整合与查询,通过统一的数据接口完成数据层访问。数据层提供自然资源信息智能交互的核心数据资源支撑,包括对行业数据库及其统计成果的索引,并基于元数据信息构建智能服务所需的语义语料信息库。基础设施层是整个智能系统的运行基础,包括主机、网络、存储等软硬件资源。
面向自然资源管理的信息智能交互技术方案利用自然语言地理语义理解与解析技术、知识库和语料库的构建和增量技术、数据库地理要素组织聚合技术,实现了自然资源管理中供地和违章建筑专题系统、基础性地理国情普查和第三次全国国土调查数据库的联合管理、智能化人机交互。
图2 架构设计
供地数据反映供地系统及供地要素的状态、特征、动态变化、分布特点,以及人类对土地的开发利用、治理改造、管理保护和供地规划等数据资料,对城市用地管理起着至关重要的作用。本应用涉及的数据包括已供土地、未供土地、拟供土地和闲置土地数据(共9.8 万多条数据),覆盖了湖北省云上供地平台已供土地、未供土地和拟供土地的所有查询功能,解决了原系统查询功能和交互方式单一、查询内容模式有限的问题。
基础性地理国情普查和第三次全国国土调查数据在内网环境下存储和使用。基础性地理国情普查地表覆盖数据约79 类,第三次全国国土调查地类图斑数据约84 类。专业人员采用地理信息专业软件管理数据,操作数据管理软件进行查询和统计分析。本应用接入、管理武汉市全部数据,实现了查询方式灵活、模式众多的智能化查询,极大提高了数据获取效率。
面向自然资源管理的信息智能交互技术方案实现智能化数据处理和使用,降低了信息获取门槛,提升了自然资源管理的智能化水平。该技术方案的设计和实现为将智能交互广泛应用到自然资源管理业务提供了有益的尝试和探索。
本文基于人工智能领域中的自然语言理解技术,设计了信息智能交互的技术方案,解决了传统菜单式查询统计功能难以满足的日益增长资源管理新需求、新变化、新业务的问题,实现了自然资源数据跨域、跨系统的管理和集中统一调度,为自然资源管理提供有益的支撑,具有较高的科研价值和实用价值。
语音、自然语言与自然资源管理应用有效结合,通过交互方式升级和智能化升级,实现所问即所见的自然资源智能交互应用,将极大地推动自然资源应用的普及。未来,信息智能交互方案还能融入人工智能的分类、聚类、关联规则挖掘、预测等技术,深度开发自然资源管理数据在调查评价、监督执法、国土空间规划等方面的支持 潜力。