马聪丽,陈骏,张玉贤,吕玉霞,张莹
(自然资源部测绘标准化研究所,西安 710054)
自然资源部组建前,我国土地、海洋、地矿、测绘地理信息、森林、草原等分属国务院各部门管理,各部门在具体工作中形成了各自的标准、规范及工作机制,为国家重大决策部署及促进经济社会发展发挥了重要作用。但这些标准与规范由于是不同渠道立项,立项时的依据不同,存在部分标准名称、名词术语、规定对象等方面相似相近、不易区分等情况。自然资源部组建以来,标准一致性[1]研究成为自然资源标准化工作的重点,国土、海洋、地矿、测绘地理信息、林草等标准亟待梳理,急需开展系统的、基础的、专业的分析工作,为自然资源标准化工作提供及时、有效的支持,为今后自然资源标准化工作的深入开展打下基础。开展自然资源标准名称语义一致性分析,对于自然资源标准化管理工作具有重要的现实意义。
针对自然资源有关现行标准1 173 项[2]、在研标准843 项[3]的标准名称,建立自然资源标准名称数据库,研制相关软件工具,利用大数据、人工智能等技术,对存在内容重复、语义不清的标准名称进行一致性和差异性分析,找出自然资源标准名称存在的混淆、指代不清等问题,以便对自然资源标准进行科学化、信息化管理。
本文分析的自然资源标准名称共2 016项,来源于自然资源部发布的标准目录,包括2个部分:其一是2019年4月发布的自然资源领域现行标准目录,包括土地、地矿、海洋、测绘共461项国家标准和712项行业标准,共计1 173项标准,详见表1;其二是2019年5月,自然资源部发布的继续执行标准计划项目清单,共包含843项在研标准,详见表2。
表1 自然资源领域现行标准数量统计表(截至2019年4月)
表2 自然资源领域在研标准数量统计表(截至2019年5月)
首先,开发自然资源标准语义数据库及软件并将标准名称入库;其次,提取标准名称关键词;然后,基于标准名称关键词提取相关度较高标准名称;最后,对相关度较高的标准名称进行语义一致性分析。具体工作研究重点及研究流程如图1所示。
图1 标准名称语义一致性分析流程
在Windows系统环境下,采用Python3[4-5]语言开发软件应用系统,并利用PYQT5开发框架开发系统交互界面。软件系统具有外部数据获取、文本结构化处理、词义分析、主题分析、知识抽取等算法功能,可以实现相似性检测、矛盾性检测、文档归类、知识库构建以及检索匹配等功能[6]。功能模块设计图如图2所示,图中第1行、第2行为主要算法功能模块,第3行为每个功能模块所具备的实现的功能。
图2 软件功能模块设计图
将表1、表2中所列共2 016项现行及在研标准名称入库,采用Jieba分词软件[7]对2 016项标准名称进行关键词提取,把句子中所有可以成词的词语都扫描出来,并结合自定义词典作为补充。部分关键词组提取结果见图3。从图3可以看出,标准名称关键词的提取基本合理。
图3 标准名称关键词提取界面
利用提取的关键词通过软件对标准名称进行相似性检测[8],以标准《GB/T 12719—1991 矿区水文地质工程地质勘探规范》为例,对所提取的相关度最高的前20项标准进行分析。
《GB/T 12719—1991矿区水文地质工程地质勘探规范》的关键词提取及相关度较高的系列标准名称见表3。标准名称提取关键词为“矿区/地质/水文/勘探/工程”,关键词提取较为合理。共提取相关标准名称20个,排序靠前的是相关度较高的标准,排序16以后的标准名称相关度开始下降。
表3 关键词提取标准匹配度示例
从表3可以看出,源标准和序号1、2、5、8、12的标准名称中都包含“水文地质”“工程地质”“勘查”“勘探”或者“调查”等关键词,都含有地质勘查的内容,但仅从标准名称无法判断其标准内容是否有重复或精度指标不一致的情况,需要从标准内容上进一步判断标准的一致性,这项工作的开展可以为日后自然资源标准申报、制定、审批等环节提供一致性管理依据。
对表1所列的4个行业领域共1 173项现行标准名称按行业交叉语义关键词进行一致性分析[9],在所提取的关键词基础上形成1 173项现行标准名称关键词集合,经查重、去重后,得到各行业领域的单语义关键词集合,并计算出关键词的热度(出现频率),如图4所示。
图4 现行1 173项标准关键词热度Top25
1) 土地行业领域关键词。土地行业领域关键词98个,主要包括:土地、整治、土地利用、复垦、方案、调查、规划、基本农田、城镇等,关键词热度Top10 如图5所示。
图5 土地行业领域关键词热度Top10
2) 海洋行业领域关键词。海洋行业领域关键词618个,主要包括:海洋、测定、监测、海水、调查、仪器、环境、术语、检测、资源、海域等,关键词热度Top10 如图6所示。
图6 海洋相关行业领域关键词热度Top10
3) 地矿行业领域关键词。地矿行业领域关键词526个,主要包括:稀土、矿山、珠宝、钨矿、测定、地质图、样品、物理、矿产资源、光谱法等,关键词热度Top10 如图7所示。
图7 地矿行业领域关键词热度Top10
4) 测绘行业领域关键词。测绘行业领域关键词285个,主要包括:内业、服务、规则、航空摄影、电子、地图编绘、质量、基准、卫星、符号库等,关键词热度Top10如图8所示。
图8 测绘相关行业领域关键词热度Top10
提取土地、海洋、地矿、测绘相关行业领域内存在的交叉关键词,2个行业领域的交叉关键词共183个;3个行业领域的交叉关键词共39个;4个行业领域的交叉关键词共8个,具体见图9。
图9 行业领域关键词交叉情况
以4行业和2行业交叉领域关键词分析为例。4个行业领域的交叉关键词为数据、监测、建设、术语、分类、代码、质量、编写;2个行业领域的交叉关键词数量较多,以矩阵形式表述,如表4所示。
表4 2行业领域关键词交叉情况
从表4可以看出,按照行业领域关键词交叉所占比例,地矿-土地、海洋-土地、测绘-土地行业领域关键词交叉较少,地矿-海洋、测绘-海洋行业领域关键词交叉较多。
1)4行业领域关键词交叉标准名称。对自然资源现行1 173项标准按照在4个行业内均存在交叉的8个关键词进行检索,共提取出相关标准305项。其中,“数据”关键词相关标准70项,“监测”关键词相关标准51项,“建设”关键词相关标准33项,“术语”关键词相关标准34项,“分类”关键词相关标准32项,“代码”关键词相关标准16项,“质量”关键词相关标准63项,“编写”关键词相关标准6项。有的标准名称可能同时出现2个及2个以上关键词交叉,在相应关键词相关标准数目中均有统计。详见图10。
图10 4行业领域关键词交叉标准提取统计图
2)2行业领域关键词交叉标准名称。对自然资源现行1 173项标准按照海洋-测绘、地矿-测绘、地矿-海洋、海洋-土地、测绘-土地、地矿-土地两两分析,提取出海洋-测绘关键词交叉标准1 082项、地矿-测绘关键词交叉标准688项、地矿-海洋关键词交叉标准2 070项、海洋-土地关键词交叉标准344项、测绘-土地关键词交叉标准420项、地矿-土地关键词交叉标准253项。详见图11。
图11 2个行业领域关键词交叉标准提取统计图
1) 4行业领域。分别以“监测”“术语”“分类”3个关键词提取的标准名称为例,展开标准名称语义一致性分析。
(1)“监测”关键词相关标准名称语义一致性分析。“监测”关键词相关标准共51项,其中测绘3项,地矿11项,海洋35项,土地2项,部分标准名称见表5。测绘领域主要是变形监测、应急监测相关的标准,地矿领域主要是地质灾害监测、水文地质环境监测相关的标准,海洋领域主要是海洋生态环境监测相关的标准,土地领域主要是土地利用、城市地价监测相关的标准。
表5中,序号为6、7、9的3个标准(表中加粗部分)的名称都包含“遥感”“监测”关键词,分别是利用遥感技术动态监测地质环境、矿产资源开发、土地利用情况,都使用了遥感技术手段,在名称上判断其相关度较高,需进一步从标准内容上判断3个标准的技术方法及精度指标是否存在一致性问题。
(2)“术语”关键词相关标准名称语义一致性分析。“术语”关键词相关标准34项,其中测绘6项,地矿8项,海洋18项,土地2项,部分标准名称见表6。测绘领域主要是测绘、地理信息相关术语,地矿领域主要是水文、地质、矿产相关术语以及少量地质遥感术语,海洋领域主要是海洋资源利用、海洋能、海洋资源物理、化学、生物特性等术语,土地领域主要是土地基本术语、土地整治相关术语。
表5 “监测”关键词相关标准(部分示例)
表6 “术语”关键词相关标准(部分示例)
表6中,序号为6、9的2个标准(表中加粗部分)的名称都包含“遥感术语”,从标准名称上判断其相关度较高,需进一步从标准内容上判断2个标准是否存在内容重复或者矛盾等一致性问题。
(3)“分类”关键词相关标准名称语义一致性分析。“分类”关键词相关标准共32项,其中测绘8项,地矿10项,海洋12项,土地2项,部分标准名称见表7。测绘领域主要是地理信息要素分类相关的标准,地矿领域主要是地质、矿产资源分类相关的标准,海洋领域主要是海洋相关产业、海洋信息、海洋仪器分类相关的标准,土地领域主要是土地利用现状分类、土地整治信息分类相关的标准。
表7 “分类”关键词相关标准(部分示例)
表7中,序号为5、6的2个标准(表中加粗部分)的名称都包含“海洋”“产业分类”关键词,从标准名称上判断存在包含关系,需进一步从标准内容上判断2个标准是否存在内容重复或者矛盾等一致性问题。序号4、8、9的3个标准(表中加粗部分)分别是地理信息要素、海洋信息、土地利用现状分类,虽然从标准名称上判断其相关度不高,但其分类内容可能存在交叉、不一致。
2) 2行业领域。2行业领域间关键词交叉标准名称特点分析见表8。
表8 2行业领域间关键词交叉标准名称特点分析
从表8可以看到,“分类、代码”比较均衡,各行业都有相应数量标准;“地图、地形、导航、质量、检验”在测绘行业出现较多;“保护、监测、环境、调查、处理”在海洋行业出现较多;“规划、利用、编制”在土地行业出现较多;“测定、地质、分析”在地矿行业出现较多。这与各自的行业特点有关,也与各行业制定的标准数量有关,制定标准数量多的行业领域,同一关键词标准数量占比也会大一些。
表9至表11是名称易混淆的典型标准名称示例。经分析对比,2行业领域的关键词交叉标准名称一致性情况和4行业领域关键词交叉标准名称一致性情况基本相同,也存在部分标准名称相近,需要进一步分析标准内容一致性的情况。
表9 海洋、测绘关键词交叉标准名称易混淆示例
表10 测绘、地矿关键词交叉标准名称易混淆示例
表11 地矿、海洋关键词交叉标准名称易混淆示例
本文借助项目开发的系统软件,对自然资源现行标准1 173项、在研标准843项标准名称进行关键词提取,对自然资源标准目录中标准的相关度进行分析,并对标准名称相关度较高的一些标准进行重点分析;最后对现行标准名称进行行业交叉语义关键词的提取和分析,重点分析具有4行业领域相同关键词和2行业领域相同关键词的标准名称一致性。
研究发现,在自然资源现行1 173项标准中,相同行业领域以及交叉行业领域之间皆存在标准名称相关度较高的情况。通常情况下,依照标准编制程序,在标准立项批准、研究制定、审查报批等各个阶段,同一技术指标存在差异或矛盾,不同行业标准中采用相同的技术路线和方法,且各自呈现的要求亦大多是难于一致的。本文的研究旨在对相关度较高的标准作进一步的梳理分析、汇总列表,制定下一步重点研究方向,分析每个方向相似标准间内容描述是否存在重复、相互矛盾的现象,技术指标及技术方法是否存在不一致及偏差。特别是具有跨行业领域相同关键词的标准名称,是分析标准内容重复现象的重点对象。
标准是指导生产实践的基本准则,对自然资源现行标准的有效梳理研究可以为自然资源标准化管理工作及自然资源领域技术融合提供帮助,为重点标准研制提供思路,为自然资源标准化体系建设[10]提供数据支撑,继而为落实自然资源“两统一”职责、实现“一张网、一张图、一个平台”[11]提供技术帮助。