王银花
(1.福建省基础地理信息中心,福建 福州 350000)
多源地名地址和兴趣点数据整合方法研究
王银花1
(1.福建省基础地理信息中心,福建 福州 350000)
主要研究将来源不同的地名地址和兴趣点数据进行整合的技术方法,建立一个具有相同的数据模型和组织结构的福建省基础地名地址库,实现地名地址、兴趣点数据的统一管理以及数据的有效利用。
多源;地名地址;兴趣点;数据整合
地名、地址、兴趣点数据是以坐标点位的方式描述某一特定空间位置上自然或人文地理实体的专有名称和属性,是专业或社会经济信息与地理空间信息通过地理编码或地址匹配进行挂接的媒介与桥梁[1]。地名地址数据来源途径包括通过采购、共建共享、自行采集等多种方式,获取多套地名地址、兴趣点数据,这些数据在数据格式、分类标准上都存在较大差异。
为满足天地图·福建和数字城市地理空间框架建设、数据查询、测绘应急保障服务等应用的需求[2],需要对现有数据进行整合,使数据具有统一的数据模型,建设适合福建省的基础地名地址库。福建省基础地名地址库是指包括福建省地名数据、地址数据和兴趣点数据的数据库[3],3种不同类型的数据具有统一的数据模型和组织方式,方便数据的统一管理与维护,为福建省的地名地址服务提供可靠的基础地名地址数据,提高政府管理水平和公共服务能力。本文对如何将不同来源的地名地址数据进行整合开展研究。
多源地名地址数据空间参考、属性字段、组织方式等多方面都可能存在不一致,所以,只有设计一个统一合理的数据模型,并将其投影到同一空间参考,才能进行数据整合。本文多源地名地址数据整合方法包括:①数据模型和组织结构设计;②数据预处理,即将不同空间参考的数据进行投影转换;③重复点查询与剔除;④多源数据融合,包括数据属性信息的融合;⑤解密处理,即通过敏感涉密关键字,将敏感信息挑选出来单独存储。如图1所示。
1.1 数据模型与组织结构
不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考都不一致,要将其整合为一套数据,必须具有合理的数据模型以及相同的组织结构,以实现数据的统一管理。本文参照相关地理实体的模型定义,将数据模型分为基本属性和扩展属性。基本属性是共有字段,而扩展属性按照不同实体类型设置不同的属性内容,以数据表的格式存储,二者通过唯一的图元码进行标识和链接。该数据模型既满足统一管理要求,又能够保留不同数据的特有属性。
图1 多源地名地址数据整合方法技术路线图
1)基本属性。根据数据的使用要求,设定其基本属性,包括要素名称、地址、类型码、经度、纬度、分类代码、图元标识码等。
2)扩展属性。地名、地址和兴趣点都有各种特征属性,无法用统一的数据结构进行描述,扩展属性项可以按照各种数据类型进行自由扩展,保证数据信息的完整性和可扩展性。
地名库数据中按照类别添加各种扩展属性项,在实际作业过程中根据需要再定,如路名点需要扩展的属性可以包括道路编号、道路等级、道路宽度等,水系点扩展属性中可以包括水系等级、所属流域等专业属性[4]。地址库数据相对属性较单一,可以根据实际需要进行适当扩展。兴趣点涉及的数量多,类别复杂,每种类别的特有信息丰富,因此兴趣点的扩展属性可按照不同的三级分类类别特征进行扩展,但一般都要包含联系电话、网址、邮编、数据采集时间、采集单位、采集人等信息[5]。
另外,如图2所示,本文将基础地名地址库分为地名数据、地址数据、涉密敏感数据和兴趣点数据,其中地名数据分为人文地理实体和自然地名实体2个要素集[6],自然地名实体包括水系、海域和陆地地形,人文地理实体要素集包括具有地名意义的交通运输设施,具有地名意义的建筑物,具有地名意义的水利、电力、通讯信施,具有地名意义的纪念地、旅游胜地、居民点、行政区域及其他区域。地址数据包括小区名、门牌号,兴趣点数据包括生产制造、旅游娱乐业、宾馆住宿、医疗卫生、文化教育、文化艺术业、交通运输、机关事业及社会团体、购物、通信传媒、金融业、餐饮美食、公共管理服务以及居民服务等[7]。
图2 多源地名地址数据组织结构
1.2 重复点剔除
不同来源的地名地址数据,在相同区域存在交叉,需要进行数据判重,保留现势性好、精度高的点。由于数据的来源、精度、正确性不同,重复点出现的情况多种多样,包括名称完全一致的重复点,名称不一致,二者出现简称或者同音字甚至错别字,可通过主观断定是否同一个地理实体的重复点。
重复点的查询主要有2种方法。方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参照资料进行筛选。该方法的不足是只能找出名称完全一致的点,很多名称不同的重复点无法查找出来,所以需要对数据进行模糊查询。
方法二是利用FME软件,构建数据模糊查询模块,将某一要素与其一定距离范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面。其中,匹配的距离可以根据实际情况进行设置,对于地名、公园、工业园区、住宅小区等指代范围比较大的点,匹配距离可以设置稍微大点,如500 m~1 000 m左右;而对于一般的POI类型,匹配距离可以设置在50 m~100 m范围之间。结合匹配度和匹配名称,可以快速判读要素之间是否为相同要素,再根据影像等参考资料和数据源本身现势性、精度、属性完整性、正确性等因素,选择属性信息全、位置精度高、现势性相对较好的点,从而剔除重复点。
方法二是通过模糊匹配进行数据查重,同时能够将名称完全一致的重复点查出来,具有较高的实用性和正确性。
本文研究了福建省地名地址库的整合方法,结合ArcGIS、FME等工具,快速地将不同来源的数据进行判重、数据融合以及解密处理等,使不同来源的数据融合到一起,得到数据组织结构、空间参考、数据属性标准相一致的地名地址数据,大大减少了人工参与过程,缩短了整合时间,从而说明该方法具有较高的有效性和实用性,为今后福建省地名地址数据的不断增多提供了快速有效的整合方法,也为天地图·福建建设、数字城市地理空间框架建设以及满足福建省经济社会发展和社会公众生活对地名地址的需求奠定了坚实的基础。
[1] 国家测绘地理信息局.地理信息公共服务平台地理实体与地名地址数据规范[S].
[2] 王野,张志文.沈阳市地名地址数据采集与建库[J].城市勘测,2013(6):40-43
[3] 刘娟,智升翠.“天地图”市级节点地名地址数据建设的研究[J].测绘与空间地理信息,2012,35(9):109-112
[4] 戴冬冬.基于地址匹配方法的POI 数据更新研究[J].电脑知识与技术,2010,6(1):1-11
[5] 王会娜,王玮.“天地图·江苏”省级节点地理实体的建设[C].江苏省测绘学会2011年学术年会论文集,南京,2011
[6] 张玲.POI 的分类标准研究[J].测绘通报,2012(10):82-84
[7] 朱家彪.公众地理信息公共服务平台系统建设研究——以湖南省为例[J].测绘通报,2010(9):60-62
P208
B
1672-4623(2016)04-0037-02
10.3969/j.issn.1672-4623.2016.04.012
王银花,硕士,工程师,主要从事地理信息数据生产和电子地图制作等工作。
2016-01-21。