秦学秀
(北京市测绘设计研究院,北京100038)
地名数据的3种形式及其质量要求
秦学秀
(北京市测绘设计研究院,北京100038)
根据地名数据库中地名的表现形式,将地名分类为标准地名、地址和兴趣点3种,并分析这3种地名的特点、关系及质量要求。
地名;地址;兴趣点;质量要求
无论是地理信息产业领域,还是人们的日常生活,地名与地址都是使用频率较高的词汇,如数字地名、地名数据库、地址匹配、地址编码、寻址问路等。兴趣点更是现代人衣食住行生活的目的地之一。地名、地址、兴趣点的含义是什么,地名数据建库时对这3种形式的数据有何质量要求,这些是本文探讨的主要内容。
1.地 名
地名的定义有以下几种说法:地名是人们对各个地理实体赋予的专有名称[1];地名是人们对具有特定方位、地域范围的地理实体赋予的专有名称[2];地名是人们赋予宇宙中特定地理实体的代号,是区别某一特定地理实体与其他地理实体的一种标志[3]。从以上可以看出,地名有4个特点[4]:首先它是一种名称或代号,而不是其他的事物;其次它是地理实体的名称或代号,而不是动植物或其他实体的名称,因此具有定位性;再次,它是人们赋予地理实体的名称,是次生的,不是固有的;最后,它是专有名称,具有唯一性,至少指代的地理实体具有唯一性。
2.地 址
金山词霸2007对地址的解释是:找到某人或某机关或与其通信的指定地点(如住处或营业所)。地址实际上是从空间范围较大地名到范围较小地名的组合或叠加,即有层次关系的地名组合或叠加。从地址表达的内容来看,它具有地名的4个特点,可以作为一种特殊的地名。它特殊的地方是复合性、层次性、详细性和顺序性:复合性是指一个地址中含有多个地名;层次性是指地址的描述是有层次的,从大地名到小地名;详细性指表达地址每个层次的地名都要描述到;顺序性指地址的结尾部分是具有先后顺序意义的数字、字母等表达门牌或楼牌信息的内容。
3.兴趣点
兴趣点(point of interest)是随着GIS、网络地图和导航电子地图发展出现的新名词,专指人们能够找到有用或感兴趣信息的点位,通俗地讲就是一些用户感兴趣的单位名称,可看成是人文性质的地名。其主要用途是对感兴趣信息(目的地)的地址描述,增强其位置描述能力,提高地理定位的精度和速度[5]。兴趣点表示的信息应包括单位名称和地址,一般兴趣点的结构可归纳为地名或复合地名+关键词的形式[6],如“北京市西城区城市管理监督指挥中心”等。
4.三者之间的关系
文献[4]给出了如表1所示的地名与地址之间的关系:地名是构成地址的基本单元,地址是地名的复合或延伸;命名的先后顺序是地名在先,地址在后;空间形态上地名一般为面,地址则归结为点;从空间范围的指代来看,地名较模糊,地址较为具体;从时间形态来看,地名有规划地名、现状地名和历史地名之分,对于地址来说,只有现状地址有意义;地名有一定的文化内涵,一些重要的地名甚至被视为非物质文化遗产,地址则是在地名基础上派生的,考虑文化内涵较少。
兴趣点与地址非常相似,一个兴趣点的完整表达应包括地址信息,从命名的形式上看兴趣点的尾部一般是表示单位业务或功能的关键词,地址则是有一定顺序的楼号或门牌号;地址的前半部分一般是复合地名,兴趣点则既可以是复合地名也可以是简单地名,如“中国测绘科学研究院”等。
表1 地名与地址的关系比较[4]
仍以表1列出的各属性为对比项,兴趣点与地名前4项属性的关系同地址与地名的关系,不同的是兴趣点有现状名称和历史名称之分,有的兴趣点还有未来名称;兴趣点有一定的文化内涵,有的还有相当的品牌效应,如“北京大学”等。
北京市地名数据库于2008年年底建成,存储了以上3种形式的地名数据,数据量达20余万条地名记录,现已提供给北京市规划委员会及所属各区县规划分局等部门使用。与其他空间数据一样,这3种形式的地名数据质量要求也包括完整性、准确性和现势性。3种数据形式的质量要求重点不尽相同,分述如下。
1.地名的数据质量要求
北京市地名数据库中的地名,都是经北京市规划委员会批准的地名或官方的档案地名(源于北京市各区县地名录、地名志的地名),具有很高的权威性。进行地名检查时必须保证其准确性,一些不被政府认可的地名不允许进入地名数据库,如近些年一些房地产开发商基于商业目的为不少楼盘起了推广名(最明显的如××广场、××花园等),地名库必须剔除这些非法地名,使用官方认可的地名。
不少地名带有许多属性信息,如街巷地名除名称外还包括路宽、路面材料、建成日期等属性信息,也应完整录入。地名及其属性项不允许有错别字。
地名的空间信息虽然不像地形图要素要求精确到几个毫米那样高,但应保证相邻地名之间相对空间位置的正确性,图形不能跑线过多。
地名要区分时态,现状库的地名必须是正在使用的官方地名。发生地名更名的要使用更名后的地名,更名前的地名应存入历史库。由于城镇化或新农村改造等原因而消失的村庄名称应存入历史库。地名规划方案中的地名应存入规划库。
官方发布的地名不得遗漏。尽管在北京市域范围内存在不少地名重名现象,如八里庄、十里堡等,但同一个区县一般不允许重名。遇有同一区县地名重名应认真检查,首先查看是否采集信息有错;确实发生重名的应作记录,请示具有地名管理权的政府部门来解决。
2.地址的数据质量要求
首先地址的名称要规范,如北京市的地址应该按照“市+区、县+街巷、道路+门楼牌号”的格式规范化地址名称;地址的相对位置要准确,至少不能发生相邻地物相对位置的差错;地址的逻辑位置应正确,没有拆迁等现象时,门楼牌号不应发生间断或跳跃现象。对于一些空间连片面积较大的单位,开设有多个院落大门,一个门牌号采集了多个点位,存在地址的重复现象,其处理方法是在原地址的基础上增加门的方位和顺序信息(如“北三门”等),因此地址数据原则上也不存在重名现象。地址数据一般都是现状数据,已拆除的建筑物或构筑物一般不保留其地址信息。地址数据的用途之一是地址匹配,其规范性、准确性、完整性和唯一性都比较重要,都会影响地址匹配的配准率。
3.兴趣点的数据质量要求
兴趣点包含了地址的部分信息,所以除了对完整性的要求有所降低外,对地址数据的质量检查方法适用于兴趣点质量检查。另外,兴趣点比地址还多了兴趣点名称、分类代码等信息,兴趣点名称不得有错别字等文字错误,并且要求唯一,分类编码正确,其实现方法可参照文献[6]。
本文在对地名、地址、兴趣点的内涵分析基础上,从三者的语义构成,存在的先后顺序,空间形态,指代空间范围的确定性、时间形态、文化内涵等几个方面进行了对比。根据其特点,对3类数据的质量检查时应注意的问题及侧重点进行了讨论。认为三者都强调唯一性;地名在先,另外两种数据在后;地址的完整性比较重要,直接影响地址匹配的配准率,兴趣点、地名的完整性要求次之;地名和兴趣点还有较高的时态性和文化内涵要求。
[1] 中华人民共和国民政部.GB/T 18521—2001地名分类与类别代码编制规则[S].北京:标准出版社,2002.
[2] 王际桐.地名学概论[M].北京:中国社会科学出版社,1993.
[3] 浦善新.数字地名:地名信息系统的理论及其应用[M].北京:新华出版社,2000.
[4] 张保钢.地名与地址之比较[J].北京测绘,2009(1): 34-35.
[5] 吴长春,刘阳,白云.谈兴趣点在城市管理信息系统中的具体应用[J].测绘与空间地理信息,2008,31(2): 134-139.
[6] 王庆社,邓南,刘宁.兴趣点的检查算法研究与实现[J].北京测绘,2009(4):37-39.
Three Forms of Placename Data and Their Demand
QIN Xuexiu
0494-0911(2011)10-0068-02
P281
B
2011-03-21
秦学秀(1961—),女,北京人,高级工程师,研究方向为工程测量及GIS应用研究。