张 亮,周志诚,厉芳婷,赵 鹏
(1.湖北省测绘工程院,湖北 武汉 430074;2.地理国情监测国家测绘地理信息局重点实验室,湖北 武汉 430072,3.湖北省航测遥感院,湖北 武汉 430074)
基础测绘是基准体系建设与维护、基础航摄遥感影像获取、基本比例尺地图测制和更新的统称,其成果对促进各行各业高质量发展起到了基础性、保障性和先导性作用[1]。随着我国经济的发展,现有基础测绘成果形式固化、社会经济和人文信息不全、现势性不足、联动更新困难等问题突显[2],逐渐难以适应当前信息化社会和产业发展的需求,加上互联网、大数据、云计算、人工智能等高新技术的深入应用,促进了测绘技术体系的升级换代,倒逼基础测绘转型升级,建立起适应新时代要求的新型基础测绘体系。
国家测绘地理信息“十三五”规划的整体思路中强调,应加快推进基础地理信息数据库建设的转型,逐步建立基于最详细的地理实体的成果采集和管理模式[3],因此探索按地理实体分级的非尺度基础时空数据库建设具有很强的现实意义。
建设地理实体数据库,首先要弄清地理实体与地理要素之间的异同,地理实体是现实世界中具有空间位置、独立语义属性或功能的自然或人工地物[4],其与传统4D 产品中的地理要素既有联系,又有区别。从本质上说,它们都是对现实世界一种现象的抽象,但在数据组织形式和表达上又有差别。
传统4D 产品中的地理要素,将现实世界抽象成点、线、面要素构成的图层,能很好地展示各要素之间的空间关系,但却将一个完整的地理实体切割为多个空间目标。由于未建立相互之间的唯一性标识关联,使得表达同一实体的空间目标碎片化,难以按照实体提取相关空间目标,并维护其与相关专题信息的挂接关系[5]。另外,以往采集的要素属性未加入时间戳,因此无法完整描述地理实体在时间和空间上的语义关系。因此,按要素采集建库的方式已难以满足当前地理信息应用的需求,如一条道路,以传统的几何要素表达,其只能包含道路中心线或道路边线或道路面,它们之间并无关联;而以地理实体来表达,则可同时包含道路中心线、道路边线和道路面等多个图元,且有唯一的地理实体编码作为标识,对其赋予产生和消亡时间属性,能完整描述地理实体的时空关系语义。这种按实体对象建库的表达无疑更符合人们认识现实世界的模式,在应用上也更加灵活便捷。
在地理实体建库过程中,地理实体编码和通用属性设计是关键环节,直接决定了库体的组织结构。
地理实体编码是为每个地理实体赋予唯一的身份标识,目前的基础地理数据分类代码尚不支持新的时空模型,不能标识地理实体的位置[6],因此不能满足地理信息时空大数据的应用需求。针对该问题,本文设计了分类码+位置码+时间码+顺序码的地理实体编码方式。
2.1.1 地理实体产品分类码
哪些地理要素需作为实体进行采集是地理实体生产首先需要解决的问题。目前,对于地理实体产品的采集和分类,尚未形成统一的规范规定,本文结合基础地理信息数据、自然资源和其他行业部门的应用需求来确定分类。在兼容传统地理要素分类标准的基础上,本文对地理实体的覆盖范围进行了拓展,主要涵盖基础实体、专业实体和综合实体3 个方面的内容,划分定位基础、水系、居民地与设施、交通、植被与土质、管线与设施、境界与区域、地貌等8 个门类,并在各门类的基础上进一步划分出48 个大类,对应创建107 个图层。
分类码采用10 位十进制数字码,实体要素的分类代码结构是在国标代码(门类、大类、中类和小类)后加图形码和细分码。具体代码结构如图 1 所示。
图1 要素分类代码结构
1)第一、二位为门类码,根据地理实体的门类划分,编码为“01”~“08”。
2)第三、四位为大类码,是在门类的基础上细分形成的实体类,是已有各分类编码体系的一级类编码。
3)第五、六位为中类码,是在大类的基础上细分形成的实体类,是已有各分类编码体系的二级类编码,无此级别的,则中类码补“0”。
4)第七、八位为小类码,是在中类的基础上细分形成的实体类,是已有各分类编码体系的三级类编码;如有四级类编码的情况,则将其并入三级类编码中;无此级别的,则小类码补“0”。
5)图形码采用1 位数字码,0 为注记、1 为点、2 为线/中心线、3 为面、4 为边线。
6)细分码是对国标代码中子类码的进一步划分,按 1~9 顺序添加,如没有细分类,则为0。
2.1.2 位置码
位置码采用GeoSOT 剖分网格[7]的一位四进制变长编码,不同层级对应不同的格网大小划分,反映地理实体几何中心点大地坐标所在的地理网格编码。编码包含网格的定位信息和级信息,编码长度等于该网格的级数。编码以G 开头,最长编码为32 级,由32 位四进制数字组成,分为9 位度级编码、6 位分级编码、6 位秒级编码和11 位秒以下编码4 段,具体形式为“Gddddddddd-mmmmmm-ssssss.uuuuuuuuuuu”,其中,d、m、s、u 取值均为0、1、2、3。
2.1.3 时间码
时间码采用8 位数字定长编码,以地理实体首次采集、调查或建库等的公元纪年时间为内容,如2020 年7 月27 日,则时间码为20200727。
2.1.4 顺序码
顺序码采用7 位定长数字,从1 开始,根据地理实体分类码、位置码和时间码相同的地理实体产生的先后顺序依次编码,不得重复使用,顺序码不足7 位的,则补“0”。
地理实体的通用属性项是指所有地理实体都具备的属性项,应体现地理实体的时空性,能满足联动更新的需求。本文对地理实体数据通用属性项的规定如表1 所示。
表1 地理实体数据通用属性项
地理实体数据建库主要是在基础测绘成果数据的基础上进行整合加工,首先对已有基础测绘成果进行转换,然后按地理实体的方式进行全新采集和更新。其过程主要包括预处理、实体化、属性赋值、质量检查、数据入库等。
1)预处理工作负责统一数据格式、数据基准,按本文描述的数据分类和分层规则对原基础测绘成果进行对照,建立映射关联;对原有要素属性进行扩充,实现实体分类码的编码转换和录入;对于新增和更新的实体,按照分类和分层的规则进行要素的分类采集。
2)实体化工作即为判断哪些图元为同一实体的过程[8],建立图元与实体的对应关系,用以实现地理对象在时空维度的唯一性。将具有相同名称、空间连通的图元构成一个实体,而没有名称的图元为一个单独的实体。当图元属于多个实体时,则对其进行地理实体编码的扩充。
3)属性赋值。按照地理实体通用属性项的要求进行属性的采集与完善,通过软件工具生成地理实体编码,以保证其唯一性。
4)质量检查。对图元的拓扑关系、实体编码的唯一性、实体逻辑的一致性、属性结构的完整性和正确性等进行检查,检查合格方可入库。
5)数据入库。开发和利用相应的入库软件工具将空间数据存储于关系数据库中。
地理实体数据库具有对象化的数据组织、自由的专题属性挂接、灵活的按需组装、高效的空间分析、便捷的联动更新等优势,相较于传统的按要素分类组织的数据库,其有着更加广阔的应用前景。地理实体数据库建设的关键问题是地理实体编码的设计和ETL技术(数据的抽取、转换和加载)的应用。地理实体数据库建设是新型基础测绘体系建设的重要一环,如何从各类基础数据、专题数据中按地理实体的分类融合图形和属性,实现自动化实体构建是今后继续研究的方向。