梁 宇,左 栋
(1. 自然资源部地图技术审查中心,北京 100036; 2. 中国地质大学(北京)信息工程学院,北京 100083)
地图具有科学价值、社会价值、法理价值和军事价值,是人类工作、学习和生活不可缺少的科学语言和工具[1]。地理信息是地图的重要组成部分,具有区域性、多维性和动态性等独特的特性[2]。随着人工智能、计算机视觉、智能计算等技术的快速发展,测绘行业逐步向智能化时代过渡,涌现出深度学习等新的方法,测绘地理信息数据逐渐在汽车导航与自动驾驶、实景三维建设等领域中得到广泛的应用[3-7]。
测绘地理信息数据是国家基础性的、战略性的资源,是总体国家安全观的重要组成部分。为了保护国家主权和地理信息安全,防止在公开地图中出现不利于我国政治主张的内容,我国对地图和地理信息实行审查和监管制度。错误表示国家领土范围和地理信息的地图称为问题地图,如错绘我国国界、地理信息内容的表示不符合国家有关规定等。如在地图中错误表示上述内容将严重威胁国家主权和地理信息安全。在智能化测绘时代,应当在保护地图和地理信息安全的前提下,促进行业的健康快速发展[8-10]。“问题地图”检测的目的即保护地图和地理信息安全,其主要应用领域是地图的技术审查和事后监管阶段,也可应用于制图单位送审之前的质量检验。由于地图和地理信息行业的快速发展,地图在数量、表现形式、应用范围等方面均有大幅提升,直接导致了“问题地图”检测的数量增加、时间成本提升等痛点问题,且开始出现慎用地图、弃用高精地图等现象和趋势,对行业的发展带来不利影响。因此,保护地图和地理信息安全与促进测绘地理信息行业发展已成为矛盾问题。
地图正处于大变革和人工智能的新时代,为地图和地理信息等自然资源要素智能解译提供了新的方法和研究方向。通过自动发现和提取地理规律,实现“问题地图”的智能检测,可为提升地图和地理信息管理水平提供新的思路,能够解决保护地图和地理信息安全与促进测绘地理信息行业发展的矛盾[11-14]。本文首先回顾了“问题地图”检测的发展现状,着重从地图的识别和检测两个基本流程对智能化测绘时代的“问题地图”检测方法和存在的问题进行了论述;然后结合当前“问题地图”智能检测研究面临的痛点问题,论述“问题地图”智能检测的关键技术;最后结合地图技术审查知识库建设,指出“问题地图”智能检测的发展方向。
1.1.1 传统检测方法
根据地图学的基本理论,“问题地图”检测的主要对象为3大类、11小类的地图基本构成元素[15]。传统检测地图和地理信息的方法完全依靠人工,需要审图员熟读与“问题地图”相关的各项规定及标准地图,形成“问题地图”检测的具体规则,构成先验知识。检测阶段分为两个步骤,首先通过人眼获取视觉图像,而后在大脑中对地图元素进行分类,判断地图的表示区域,识别出境界线、水系、各类型注记等感兴趣的内容,构建相关元素的空间位置关系和逻辑关系;然后根据识别的地图元素,从空间位置、数量、类型等方面判断地图元素的逻辑关系,与大脑中的先验知识对比,得出检测结果,最终完成检测地图和地理信息的流程[16-18]。
1.1.2 传统检测方法存在的问题
传统的“问题地图”检测方法大量依靠审图员的专业知识,存在下列问题:①无法保证检测的时效性,检测数量的增多将直接影响检测时间,对智能高精地图等高时效性,以及智能网联汽车训练场景库等数据量大的检测对象尤为明显;②存在一定的主观性,同样的地图内容交由两名审图员进行检验,由于对相关标准的不同把握尺度和认知能力,可能产生不同的检测结果;③工作效果易受影响,在检测数量增多时,该问题尤为明显;④地图内容复杂多样,但检测过程中感兴趣的地图元素偏少,造成冗余的工作增多。
1.2.1 智能检测概况
智能化测绘是新时代、新技术不断发展的产物。智能化测绘时代对“问题地图”的检测流程与传统“问题地图”检测一致。智能检测地图和地理信息的前提条件是从各类图像中成功识别并提取出感兴趣的地图和地理信息数据;此外,还需要将传统检测方法的各检测规则适配于计算机语言的形式表达,构成智能检测的先验知识。完成上述工作后,再识别地图和地理信息内容,构建语义模型,根据发现和提取的地理规律进行智能检测。
1.2.2 地图的识别
智能检测首先需要从检测对象中过滤掉非地图图片。关于从栅格类型图片中识别出特定类型的图片,目前出现基于深度学习的图像识别技术,主要使用主动学习和卷积神经网络、深度置信网络等方法,识别土地利用类型、遥感影像变化和分类、其他图片的类型等[19-25],该技术可识别出地图图片、遥感影像等类型的图片,且具有较高的准确率,通过排除大量无关类别的图片,提高了地图和地理信息管理水平[26]。
该技术对获取的图片类型地理空间大数据进行初步过滤,实现了智能检测的前提条件。但本质上,上述方法仅缩小了人工检测地图和地理信息的范围,且将图片整体作为研究对象,从图片的纹理特征中提取出相关的语义特征,智能检测的应用范围受到限制。
1.2.3 地图元素的识别和提取
“问题地图”智能检测的第一步是从地图中识别并提取感兴趣的点、线、面、注记4类地图元素,根据地图元素的特征判断地图的表现区域,并构建地图要素模型。
识别并提取地图要素可通过地图名称、地图注释获取地图的表示区域[27-28]。提取地图元素,目前主要使用训练集对卷积神经网络进行训练,文献[29—31]使用地图图像识别技术,从栅格地图中提取了水域等线状、面状地图元素,以及名称等注记类型元素,验证了从栅格地图中识别和提取地图元素的可行性。
判断地图的表现区域主要通过使用注记类元素,利用深度卷积神经网络等方法实现地名的解译,帮助自动识别地名所处的空间坐标[32-33],辅助判断地理信息的位置。
地理信息数据大量存在于实景图片、遥感影像等栅格类型的图片,以及由点云、影像等构成的三维地物中。对地理信息的识别主要面向遥感影像图、街景地图等栅格类型图片,通过支持向量机、卷积神经网络等方法,识别天桥、立交桥、建筑物等人工构建的地理信息[34-38]。使用深度学习在栅格图片中识别并提取感兴趣的地理信息数据应用较广泛,主要使用卷积神经网络、对抗神经网络等方法,用于提取地图字符和地图符号[31,39-40]。识别影像方面,文献[41—44]使用卷积神经网络,在不同波段分别进行了行人检测、建筑物的识别与提取、特定地物的识别与检测等,且具有较高的检测成功率。识别实景影像构成的三维地图主要采用目标检测深度学习模型在图像中检测信号灯、路灯、垃圾桶、交通标志牌等多类别城市典型地物要素[45];识别点云构成的三维地物中的地理信息则主要采用通过融合空间上下文信息的分类图注意力模型、特征属性筛选、分类模型等方法识别交通标线、杆状物等地理信息[46-48]。
当前,对地图元素和地理信息的识别已有成熟的技术,且具有较高的准确率。在地图检测的应用领域中,当前的识别和提取方法均针对某一种更具体的地图元素,如水系、天桥、行人等。由于对地图元素的分类方法有待改进,未从智能检测的角度对地图元素进行分类,因此现有研究无法覆盖全部的检测对象,未在“问题地图”智能检测的应用中形成完整的体系结构。
上述方法的主要应用领域是识别出正确的地图和地理信息要素,在此基础之上,下一步应对识别出的要素,构建地图要素模型并确定计算模式。在测绘产品质量检验测试研究领域,已通过比对检验等方法,智能验证测绘产品相关格式的逻辑正确性,并将空间关系作为质检关键共性技术[49-50],为“问题地图”智能检测提供了积极的借鉴作用。
1.2.4 地图的检测
实景地图、遥感影像地图等图种在识别限制表达的地图内容后,即完成地图的检测,其他图种则需要进一步检测地图各组成内容的类别、数量、方向等逻辑关系。目前主要通过对特征进行提取和对比,自动发现地图图片中的错误,确保地图内容的完整性与准确度[30-31]。文献[51—52]提出智能检测“问题地图”应将先验知识与算法相结合,从认知规则获取特征知识,结合空间关系约束规则和计算模型进行智能检测,并提出了构建专家库、样本库、智能审图模型与算法、智能审图协同平台的智能化审图技术框架;文献[53]认为先验知识由审查内容、地图要素模型、地图技术审查标准库组成,通过识别地图区域、识别地图要素和属性信息、审查地图要素、分析识别结果4个步骤实现;在二维地图的检测中,智能检测“问题地图”得到了初步的应用;文献[54]使用卷积神经网络的方法,利用“问题地图”的补集,实现了“问题地图”智能检测,且检测准确率达80%,验证了智能检测“问题地图”的可行性。但是,由于该方法要求检测对象必须为特定形式,且检测的错误类型相对有限,限制了其应用范围。由于地图的表现形式复杂,同类错误存在几十种甚至上百种形式,为扩大智能检测的适用对象,需要构建统一的地图元素模型,使用统一的计算模式。
智能化测绘时代对地理信息的检测主要应用领域是导航互联网地图中兴趣点的检测,通过建立黑白名单库,使用搜索引擎优化、关键词优化、自动分词、词法分析等方法实现兴趣点的自动筛查[55]。
1.2.5 智能化检测存在的问题
现阶段,“问题地图”智能检测取得了初步的研究成果,但是受制于下列痛点问题,当前的“问题地图”检测仍然使用传统的检测方法:①缺少合适的训练样本,当前的训练样本主要通过自然资源部标准地图服务系统(即“问题地图”的补集)获得,由于“问题地图”检测的规则众多,训练样本的缺乏直接限制了当前的智能检测规则和检测区域;②地图的表现形式多样,待检测的地图在地图投影、符号选取、制图综合、地图比例尺、基础地理信息的选取与应用等方面存在巨大的差异,缺少统一的建模标准,亟须用统一的计算机语言表达所有的“问题地图”错误类型;③由于元数据的质量差别巨大,且存在语义异构的现象,导致识别准确率较低,无法满足高效获取和利用地图图像大数据的实际需求[28,56];④“问题地图”检测规则更新较快,需及时对检测规则进行存量维护和增量更新。上述问题导致了“问题地图”智能检测的发展较缓慢。推进智能化检测应充分借鉴图片在质量检测等方面已有的经验[57],并突出“问题地图”智能检测的特点。
实现“问题地图”智能检测需要大量的训练样本。现有的训练样本通过自然资源部标准地图服务系统和送审图件等固定渠道获取,样本量较少。为补充训练样本,应将“问题地图”智能检测的技术发展与互联网“问题地图”监控相结合,对网站、微博、微信公众号等媒介采用主动挖掘的方式,在监控“问题地图”的同时,补充训练样本。此外,互联网中蕴含了丰富的地理信息,使用地理大数据聚类分析、异常探测、关联关系挖掘及预测建模等方法从互联网中快速、准确地发现并定位地理信息,且对地理信息进行语义分析,提取出感兴趣的地理信息数据,是获取训练样本的重要手段[58]。
2.2.1 构建统一的空间认知模型
对地图空间认知进行建模,构建数学基础是地图视觉认知研究从理论探讨走向实践应用的重要前提,以及地图空间认知理论发展的关键[59-60]。由于地图在投影、比例尺、基础地理信息和专题内容的选取等方面有众多的表现形式,且表达的地理信息十分丰富,亟须在智能检测“问题地图”的应用中构建统一的数学基础和要素模型。其基本思路是从有空间参考的训练样本中选取对空间认知有价值的境界线、海岸线、居民点等基础地理信息要素,建立地图智能检测参考图,通过地图内容特征匹配,自动判断待检测对象的实际位置,并赋予其空间位置信息。
2.2.2 构建统一的地图要素模型
为有效避免“问题地图”的产生,当前研究已从地图图种入手,对高精度导航电子地图、动画效果地图、学术论文中的插图等图种[61-63]进行了详细论述。此外,从检测内容入手,对用于正确表示地图和地理信息的国界线、岛屿、重要地名注记等具体的检测内容[64-65]进行了具体分析。
上述论述经语义分解,可分为以下3个部分:①区域范围,指地图批注描述的区域范围或专题类型;②地图要素的属性,指用于区分地图要素类别的要素属性信息;③地图要素计算模式,指检测时要素属性在特定情况下应满足的条件。按照该方法分解相关论述并汇总,文献[53]构建了地图要素模型。基于上述内容,形成了智能识别“问题地图”的地图要素模型构建方法和装置,可用于识别的各地图要素模型的构建,模型的各组成要素是“问题地图”智能检测的对象。
针对地图表现形式多样、语义结构复杂的痛点问题,提出将地图专家积累的经验作为先验知识库进行总结,凝练为有关检测“问题地图”的认知规则,可据此将训练样本分为正、负两类,同时明确地图要素的识别与提取对象及构建的地图要素模型。各地图要素之间的逻辑关系作为地图技术审查知识库的组成部分,用于地图要素的智能检测。本文提出根据地图要素的类型,结合对常见地图批注内容的语义分解,将其分解为类型检测、数量检测、位置检测、方向检测、拓扑关系检测、归属检测、内容检测7类智能检测函数。各检测函数可用于4类地图要素类型的智能检测。综合考虑地图要素和检测函数的类型,共组成13个具体的智能检测函数,见表1。
表1 “问题地图”智能检测函数
其中,自动识别点、线、面、注记等类型“问题地图”的方法和装置,共同组成了智能识别“问题地图”的专利体系。
地图中感兴趣的检测对象从众多的地图元素中抽稀而来,与地图元素的属性共同构成先验知识库。其中,地图的检测对象指待检测的某条国界、某类重要地理信息等,其表现形式在地图中具有唯一性,且其属性不发生变化。因此,计算机视觉主要应用于识别并判断地图元素的属性,包括形状、元素样式、元素的相对位置关系等;可使用正确、错误的地图示例,利用深度学习围绕各属性的取值范围、形状特征等内容进行训练,确定合理的域值。
为解决“问题地图”检测的一系列痛点问题,保障在合规的前提下促进测绘地理信息行业的发展,本文回顾了“问题地图”检测的现状,着重论述了智能检测“问题地图”的痛点问题,并根据当前存在的问题,提出并实现了“问题地图”智能检测的关键技术。
本文有助于智能检测“问题地图”的研究进展,结合当前检测的痛点问题构建了地图审查模型,有助于推动智能检测“问题地图”的研究进展。