卫启云,渠伟勇,黄 鸿,赵振盛
(1.太原市基础地理数据中心,山西太原030009;2.北京星球数码(集团),北京100190;3.太原市民政局,山西太原030002)
地理编码又称地址匹配,是将自然语言描述的地址信息根据地址模型和编码规则进行智能语义解析,并通过与地名地址标准库进行匹配建立与之对应的空间坐标信息和地理编码关联的过程[1]。
20世纪60年代中期,美国为配合由美国国情情报局负责的人口普查,做了大量的关于地址编码的工作,研究出了双重独立地图编码系统(dual independent map encoding,DIME)。80年代后期,美国国情普查局将DIME系统发展为TIGER(topologically integrated geographic encoding and referencing)系统,作为地址编码的参考系。TIGER在美国已经成为一种公认的标准,影响力非常大。此外,加拿大也完成了国家级的地址编码数据库建设;德国、以色列、澳大利亚等国家在很早之前也进行了许多详细的关于地址编码技术的研究工作,并且都已投入了使用。
20世纪80年代,北京、上海、广州、深圳等一些城市在地名地址匹配和定位技术方面开发了一些相应的软件和应用,但是没有标准的地址编码数据库,且基本上都是仅限于针对某个具体的应用系统。
随着太原市数字城市建设的不断推进,以及政府对跨部门数据需求的增加,部门间数据共享成为一个迫切需要解决的问题,人民群众和各政府部门对地名地址数据的需求越来越大,地理编码系统逐渐成为了丰富共享数据、推进应用的重要手段;而采用地理编码,快速地将文本形态的业务数据空间化,推进了GIS在业务部门中的应用。本文以太原市地名地址数据采集与建库项目建设为契机,结合数字太原建设现状,实践地名地址标准库建设和地理编码,制定地名地址数据更新模式,并将建设成果在“数字太原”地理信息公共服务平台、太原各政府部门应用系统及移动端上开展了一些应用,实现了多部门业务数据“落地”及跨部门数据的共享。
总体技术架构如图1所示。
图1 总体技术架构图
本研究将充分利用现有软硬件与网络环境,以现势性较高的地形数据、影像数据、专题数据为基础,建设地名地址标准库和地名地址专题库,形成核心数据层;借助工作流引擎、地址匹配引擎、GIS通用组件等,发布地址匹配、查询统计、质检入库等功能服务,在“数字太原”平台、应用系统、移动端开展地名地址应用。
笔者采用ArcGIS+Oracle+.NET技术平台进行开发,搭建CS架构地名地址管理系统,搭建BS架构的地址匹配引擎和地名服务发布系统。
(1)基于规则库和实时索引的地址匹配技术
地址分词是与地址匹配相结合的过程,通用的地址一般由行政区划和街道地址的详细信息构成,首先对整条地址字符串进行过滤,分离出行政区划和街道详细地址两部分信息,这就大大缩小了搜索范围,也加快了搜索速度。对于街道地址的详细信息,通过地址分词技术可以将其分割成最小的地址要素,参考建立的地址匹配的规则库,搜索的范围越来越小,当满足某一个规则时,匹配即完成,这种算法达到了搜索范围的弹性伸缩。
这种基于分词方法的匹配技术具有一个明显的弊端,即对于词表中未登录的词难以进行匹配和切分,同时在很多情况下由于前后汉字的特殊组合也容易出现错误的切分。针对这种情况,可以在地址的规则库中加入存储常见地址别名、地址历史名称、地址常见拼写错误的规则库,在进行地址分词匹配之前,先进行歧义、错误、别名地址的匹配监测,将大大提高基于地址分词匹配的精度。
为了应用的快捷,地址匹配引擎启动后,会自动关联到地址数据并创建索引,整个过程只有毫秒级的延迟,不会对使用造成任何影响。地址数据更新后,只需更新地址匹配引擎的应用实例,所有更新操作立即生效,实现更新即展现。
(2)地名地址与实体地理要素的空间相关性识别与关联技术
太原市主城区地址详细程度精确至建筑物,高密度的地名地址数据覆盖为地名地址与建筑物的空间关联奠定了数据基础。通过对地名地址数据与建筑物数据内在关联性进行剖析,对地名地址数据与对应的地理空间图形数据(如建筑物、行政区划、道路等)进行空间相关性识别与关联;利用地名地址数据和建筑物等数据各自的空间位置特性,建立起它们相互间的空间关联关系。
(3)基于中间件技术的政务资源一体化交换入库
地名地址数据要实现共享交换,务必要与平台集成,各种服务资源都通过服务注册的方式注册到ESB服务总线。“数字太原”平台、移动端及第三方系统可以通过服务总线检索自己需要的服务,并进行调用,以支撑各自的应用。
基于地名地址实现政务资源一体化规范体系建设及自动化政务资源交换入库,以地名地址数据和地理编码技术为纽带,建立整个政务资源体系与空间信息的关联,也建立起政务资源数据间的关联,实现政务资源数据的一体化融合和自动入库;同时,利用地名地址的桥梁作用获取社会经济的详细信息,提供标准化的与空间位置信息相关联的属性数据,更灵活、便捷地查询、统计各种综合应用信息,为社会经济、文化、人口、环境变化、统计等相关领域的多源、多层次、多时空研究奠定基础,为社会经济快速发展提供决策支持。
地名地址标准库是地理编码的核心和关键,笔者参考国家标准、行业、地方及企业标准规范,结合太原市数据现状,从现有可获取的数据及外业采集数据中提取、整合、规整出地名地址数据,并经过数据质检,将数据入库更新至地名地址标准库。地名地址标准库建设流程如图2所示。
图2 地名地址标准库建设流程
地名地址标准库共定义了涵盖门楼址信息、地名信息、时态信息等内容的34个字段。为了提高地址匹配和检索的效率,在标准库中将标准地址字段拆分成行政区划、街路巷、门牌号、楼号、单元号、房间号等字段,并按照《数字城市地理空间信息公共平台地名/地址分类、描述及编码规则》对地址进行编码。
地理编码的实现是将需要匹配的地址字符串进行拆分和标准化处理,然后用处理后的关键地址字段的值与地址编码地址库中数据对应字段的属性值进行匹配,如果匹配成功,就将该数据的坐标值赋给属性表中的相应记录,从而实现对该记录的地址匹配[2]。
在地名地址匹配的过程中,经常需要对两类数据进行匹配:一种是只包含地理实体位置描述信息、而没有空间坐标的地址数据,如街道地址、邮政编码、行政区划等;另一种是已经包含了相关地图定位信息(空间坐标)的地理参考数据(如街道地图数据、行政区划地图数据、邮政编码地图数据等),这些数据集合或数据库在地址匹配过程中起空间参考的作用[3-4]。完成匹配后,给前者赋予地理空间坐标,是地理编码实现中最核心的部分。
地名地址数据的来源是多方面的,包括太原市公安局、太原市民政局等多个部门,以及快递公司及导航数据等。在更新机制上,建立太原市基础地理数据中心与太原市民政局、太原市公安局等政府部门的协同管理,社会公众参与维护的更新机制。数据中心管理人员通过地名地址数据库管理系统对发生变更的地名地址数据进行增加、修改、删除;民政部门各级管理人员通过“数字太原”平台提供的空间数据或非空间数据进行上传→地址匹配→地图纠正,将更新信息推送至地名地址数据库服务系统,系统对重复数据进行甄别及标准化处理后,进行流程化更新;社会公众可以通过“数字太原”平台客户端(互联网)提供的在线标绘或地址纠错,对辖区内发生变更的地名地址数据进行标绘或纠错描述,并将更新信息发送给平台管理员,管理员对变更信息进行甄别及标准化处理,即进行流程化更新。
建立地名地址数据常态化的多源协同收集与集中更新模式,有效地促进了地名地址日常管理的质态,保障了地名地址数据的持续鲜活。
(1)地名地址数据成果与平台无缝连接
地名地址数据是“数字太原”地理空间框架数据的重要组成部分,也是“数字太原”地理信息公共服务平台数据扩展的有力工具之一。太原地名地址建设成果与“数字太原”地理信息公共服务平台的无缝集成,既完善了平台的服务体系,也通过平台扩大了地名地址成果的应用范围,如图3所示。借助平台提供的服务共享与交换功能,各部门的业务系统可通过网络获取互联网/局域网服务器端的数据服务,在其业务系统中实现以地图为中心的资源查询展示功能。
图3 地名地址数据在平台端展示效果图
(2)地名地址与实体地理要素空间关联
经过省测绘地理信息局、公安局、民政局等多部门的提供及外业地名地址的采集与核查工作,共汇集了太原主城区400 km228万余条地名地址数据,地址详细程度精确至建筑物。利用地名地址数据和建筑物等数据各自的空间位置特性,建立起它们相互间的空间关联关系,就可以通过建筑物、行政区划或道路等找到相关的地名地址信息,也可以根据地名地址信息找到其所在的建筑物、行政区划或道路。图4为地名地址数据与建筑物实体关联效果示意图。
图4 地名地址与建筑物关联示意图
(3)部门业务数据“落地”及共享
地名地址标准库建成后,通过地址匹配可实现卫生局、教育局等部门业务数据的空间化,并对匹配结果进行质检入库,形成地名地址数据资源;将这部分数据以服务的形式发布至公共服务平台,在平台上进行展示和应用;同时,不同部门之间也可共享并交换专题数据服务。图5为部门业务数据匹配效果。
图5 部门业务数据匹配效果
地名地址数据库作为数字城市的基础,在数字城市的地理空间框架建设中起着关键的作用,它既是一个技术问题,又是一个标准化问题。本文通过对太原市地名地址建设的实践,总结了地名地址标准库建设和地理编码的主要技术流程、地名地址数据更新模式及地名地址建设的应用成果。在以后的工作中,还需进一步提高业务兼容性,加大地名地址数据应用的宣传与推广力度,逐步实现太原市各政府委办局、企事业单位的业务专题数据整合,促进城市数字化、网络化、智能化发展。
[1]唐洁.数字南昌地址编码数据库的设计与实现[D].抚州:东华理工大学,2012.
[2]马照亭,李志刚,孙伟,等.一种基于地址分词的自动地理编码算法[J].测绘通报,2011(2):59-62.
[3]程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J].地理与地理信息科学,2011,27(3):26-29.
[4]于滨.面向经济普查项目需求的模糊中文地址匹配方法研究[D].长沙:中南大学,2010.