魏金明,张学明,周宁
(济南市勘察测绘研究院,山东 济南 250101)
地名是基础地理信息,地名普查是一项公益性、基础性的国情调查[1]。随着经济社会的发展和区划地名的变化,20世纪80年代初进行的第一次全国地名普查成果资料已陈旧过时,不能反映全国地名的现状。为了满足经济社会快速发展对地名服务日益增长的需求,全面掌握地名基本信息,提高我国地名管理和服务水平,经国务院批准,于2014年7月~2018年6月开展第二次全国地名普查[2]。普查内容为查清行政区域范围内地名基本情况及相关属性信息,对有地无名的有地名作用的地理实体进行命名,对不规范地名进行标准化处理,设置标准规范的地名标志,建立、完善各级国家地名和区划数据库,加强地名信息化服务建设,建立地名普查档案。
进行地名普查首先要编制相对完善的标准地名调查目录和工作底图。国内多个专家对该项工作做了研究,如费联君等研究了基础地理信息数据在地名普查中的应用[2];邵光州等以大数据的视角提出从海量数据中挖掘地名的方法[3];林选妙等提出从GoogleEarth免费资源中获取地名[4]。济南市借鉴上述方法,对 1∶50 000数字线划图、第一次地理国情普查成果[5]、第一次全国地名普查成果、各委办局和下级行政组织提交的地名信息、地名录志等资料内的地名信息按区县分街道进行整理汇总,形成济南市各区县标准地名调查目录。
由于济南市地名调查目录中多数标准地名未定位且下发的 1∶50 000数字线划图信息老旧,难以反映现状,需要对标准地名进行定位处理,获取标准地名的空间位置。本文以地理空间框架数据为基础数据,采用自动半自动的数据提取方法,分类别提取标准地名对应的地理实体,为编制外业普查工作底图、获取地名经纬度四至打下基础。通过数据准备、地名匹配、数据提取、位置调整等工作步骤的详细描述,说明地理空间框架数据在济南市第二次地名普查中的应用。
`对标准地名进行定位,需要有基础数据。为便于数据分类并保障数据的现势性,选取济南市地理空间框架数据为基础数据,并对其进行类别规范、面点转换等处理。
济南市地理空间框架数据包括地理实体数据、地名地址数据、影像数据、电子地图数据和专题数据,具有全要素、现势性强的特点。
地理实体数据包括居民点、水系、交通等9类28层数据,每条数据依照《济南市基础地理信息要素分类与编码》标准赋以分类代码[6];地名地址数据按照《济南市POI分类编码》标准分为18大类、122小类、369子类,并对其类别代码进行赋值;保证数据的全要素性。数据全要素特点可保障基础数据与地名普查数据类别的对应,便于数据类别规范化处理。
数字济南地理空间框架建成后,参照多源数据更新技术[7],建立数据更新机制,每年对基础地理信息数据进行全面更新,对重要框架数据进行实时更新,保障了数据的现势性。数据现势性强的特点保障匹配后的地名空间位置反映现状。
对济南市地理空间框架数据进行地名匹配前,需进行类别规范、面点转换等优化处理。具体处理流程如图1所示:
图1地理空间框架数据优化技术流程图
类别规范:根据地名分类标准,将地理要素类别、POI类别与地名类别进行分析对比,建立地理空间框架数据与地名数据之间的类别对应关系。在框架数据内添加地名类别属性项,依照类别对应关系研发地名类别赋值工具,给地名类别属性项赋值,使每条地理空间框架数据包含规范化的地名类别属性。
面点转换:根据地名数据定位规则,行政区域、湖泊、公园风景区等面状地理实体需要以点状形式表示,但应获取其经纬度四至。根据行政区域定位在驻地位置、湖泊定位在几何中心等面点转换规则,将面状地理实体转换为点状地理实体,并建立面数据与点数据间的对应关系,便于获取其经纬度四至信息。
整合优化:分形状将点数据和线数据合并,对数据内容进行除重、名称规范等操作,使空间数据优化为包括名称、地名类别、面点关联码等属性信息的一层点数据和一层线数据。
利用基于置信度的地址匹配方法[8],分类别匹配标准地名。
要进行地名匹配,首先用分词算法提取关键字,本文利用地址元素词库和改正词库为基础词库,用地址分词和普通分词相结合的分词算法,对标准地名、地址、地理实体概况三项属性信息进行分词。具体分词过程中,首先对标准地名进行分词并匹配,若置信度高停止匹配,若置信度不高则对地址进行分词并匹配,若置信度仍不高再对地理实体概况分词并匹配。
置信度代表待匹配两类数据的相似程度。将地名信息分词结果作为关键字与待匹配数据分词结果对比计算其置信度。置信度的计算公式为:
其中,D为置信度,k为权重系数,n为分词段数,ρ为位置系数,S为相似度。
济南市地名调查目录中地名信息分区县按类别存放,地名匹配工作中,需分类别进行匹配。虽然国家第二次地名普查分类标准中将地名分为100多项小类,但具体到济南市各区县,仅包含30项左右。地名匹配前,需在地名信息内添加置信度、关联空间码两项属性项。匹配过程中,首先根据地名类别确定空间数据形状(点数据、线数据);之后匹配空间数据得出置信度;最后根据匹配赋值规则填写置信度、关联空间码属性项。匹配赋值规则为:
①根据空间数据中地名类别属性信息匹配同类别数据,得出置信度(D)和匹配关联的空间标识码(FID)。
②D≥0.95时,将D写入置信度属性项,FID写入关联空间码属性项,完成匹配。
③0.95>D≥0.75时,若置信度属性项无信息,写入D;已有信息,不做操作,转入④。
④关联空间码属性项无信息时,写入FID并转入①继续匹配。有信息时,查看关联空间码个数,个数为1时,写入FID并转入①继续匹配;个数为2时,写入FID完成匹配。当关联空间码属性信息包含多个FID时,用顿号(、)将其隔开。
⑤D<0.75时,匹配不同类数据,得出置信度(D2=D-0.25)和匹配关联的空间标识码(FID)。若置信度属性项无信息,写入D2;已有信息,不做操作,转入⑥。
⑥关联空间码属性项无信息时,写入FID并转入⑤继续匹配。有信息时,查看关联空间码个数,个数为1时,写入FID并转入⑤继续匹配;个数为2时,写入FID完成匹配。
地名匹配完成后,需根据匹配置信度,采取自动半自动的数据提取方法,利用“地名代码”作为关联码,将空间数据提取到地名矢量数据内。
地名代码是地名的唯一识别码,按照一定规则用数字对对地名进行编码以代替地名,根据《国家地名数据库代码编制规则》编制。地名代码编码规则如图2所示。
图2 地名代码编制规则
地名代码由四段共20位数字标识。第一段为6位数字,表示县级以上行政区划代码,使用2014年12月31日前最后更新的行政区划代码。第二段为3位数字,表示乡级行政区划代码,统一使用同期更新的民政统计代码相应通用部分。第三段为5位数字,表示地名属性类别,按照《地名分类与类别代码编制规则》(GB/T 18521-2001)填写。第四段为6位数字,表示附加码,用以区分同一类别并且是同一行政区的地名和排序。
地名矢量数据分点数据、线数据两类,具有相同的属性结构。其属性结构如表1所示。
地名矢量数据属性结构 表1
地名代码(Code)是地名数据的唯一标识码,通过地名代码属性,可以将地名空间数据与地名属性信息联接,实现图属关联。
自动提取:对于置信度大于等于0.95(D≥0.95)的地名数据,在地名空间数据内新增一条记录,根据关联空间码从空间数据内提取空间图形并赋予该记录,从地名信息内提取地名代码、名称、地名类别和使用时间属性赋予该记录。
半自动提取:对于置信度小于0.95(D<0.95)的地名数据,根据关联空间码和地名地址、概况等信息从匹配的3项空间图形内判断是否有正确的空间图形,如果有,则在地名空间数据内新增一条记录,将空间图形、地名代码、名称、地名类别和使用时间赋予该记录;如果没有,则将其标注为未定位地名。
济南市地名调查目录按类别存放,提取后形成各类别地名空间数据。将各类别地名空间数据按形状合并,形成点状地名空间数据(DMPT)和线状地名空间数据(DMLN)。
地名地理实体定位、图形类型及地理坐标测量要求中,线状地名在一个区县内用一条联通的线段表示,点状地名除行政区域、群众自治组织定位在驻地位置外,其他类别定位在几何中心,且测量误差小于 20 m。工作中叠加影像底图,逐项检查、调整地名空间数据,保证满足测量要求。
济南市地理空间框架数据中,影像底图可分两类。一类是数字正射影像图(DOM),一类是瓦片影像地图(紧凑型)[9]。DOM数据按图幅存放,信息容量大,做底图时需分图幅逐项加载;瓦片影像地图按显示级别存放,可统一加载一个区县或一个市的数据,且浏览速度快。位置调整工作中影像底图仅用于浏览,不做分析和信息提取处理,故采用瓦片影像地图。瓦片影像地图数据存放结构如图3所示。
图3瓦片影像底图数据存放结构
位置调整的工作步骤为:①在ArcGIS软件内加载瓦片影像底图数据和地名空间数据,将其保存为WorkMap.mxd工作地图,后期工作可直接打开该地图。②将地名空间数据设置为编辑状态,逐项查看地名位置的准确性,若位置不准确则改正到准确位置。③对线状空间数据的地名代码属性进行查重处理,对关联图形进行除重、连接等操作,确保一个地名对应一条联通的线段。④保存编辑后的空间数据,生成地名空间成果数据。
针对地名调查目录中标准地名定位问题,以地理空间框架数据为基础数据,使用基于置信度的地址匹配方法,采用自动半自动的定位方法,通过数据准备、地名匹配、数据提取、位置调整等工作步骤,生成地名空间成果数据。在济南市历下区地名普查工作中,对 5 200条地名数据进行定位,自动定位 3 192条,占61.4%,半自动定位后定位总数 4 672条,占89.8%。推广到济南市其他区县使用,定位率最低的也达到了60%,可有效提高工作效率,提升定位精度,为济南市顺利完成地名普查工作奠定了基础。
生成的地名空间成果数据可用于编制外业普查工作底图、获取地名经纬度四至等地名普查后期工作中。若外业普查采用纸质工作底图,可将成果数据快速布展到纸质图上;若采用移动平板进行外业普查,可将成果数据加载到移动平台内。对于点状、线状地名的经纬度四至,通过空间图形自动获取;对于面状地名的经纬度四至,通过点、面关联码提取其面状图形后获取。地名调查目录内未定位的标准地名,通过外业普查实地测量其地理实体。后期,将借鉴相关应用实例,研究基于移动平台的地名外业普查解决方案。
[1] 向煜. 面向第二次全国地名普查的数字化调查系统建设研究[J]. 北京测绘,2016(4):62~65.
[2] 费联君,欧阳剑波. 基础地理信息数据在地名普查中的应用[J]. 地理空间信息,2016(9):17~18.
[3] 邵光州,胡小民,唐长增等. 大数据环境下开展地名普查的实践研究[J]. 中国地名,2015(9):17~20.
[4] 林选妙,黄丽蓉,张兴等. Google Earth在全国地名普查项目中的应用[J]. 大众科技,2013(1):32~34.
[5] 杨伯钢,张保钢. 地理国情普查与地名普查的相关性分析[J]. 测绘科学,2015(10):37~42.
[6] 赵向阳. 济南市全要素级基础地理信息共享框架研究[J]. 城市勘测,2010(2):30~32.
[7] 张小波,李新双,张俊等. 多源数据更新空间框架地理信息技术[J]. 城市勘测,2016(6):57~59.
[8] 魏金明,仲伟政. 基于置信度的地址匹配方法初探[J]. 测绘科学,2015(1):122~124.
[9] 刘建川,甘泉,张尧等. 瓦片影像地图快速配准与融合方法实现[J]. 测绘科学,2015(11):85~88.