王 维
东华理工大学测绘工程学院,江西 南昌 330013
如今,城市建设已经步入数字城市发展阶段,开始向着智慧城市迈进。随着大数据时代来临,城市空间下的各种数据在获取方式、方法及来源等各方面都发生了巨大的变化。与此同时,随着数据体量越来越大,领域部门数据越来越多,数据的集成和共享变得愈发困难。从长远发展来看,数据孤岛问题不会轻易消失,如何解决数字城市发展当中的数据融合、共享及集成,是数字城市建设中不可忽视的问题。
对于这个问题,已有方法大都面向特定领域之间的数据互通,并没有从本质上解决数据孤岛问题。由于数字城市的终极目标是数字地球,而数字城市的本质是将各种信息根据位置进行融合与共享,所以如何通过位置最大程度的完成不同领域之间的数据互通成为一个值得研究的问题。
位置信息的形式多种多样,包括坐标、邮政编码、电话号码、IP、地名、地址等。在这几种数据类型当中,地址是一种相对规范且使用场景丰富的数据形式。交通、邮政、规划、税务、公安等众多领域业务中都存在的大量的地址数据,通过将地址定位到城市地理空间体系下,可以有效完成基于位置的数据共享,对数字城市而言意义重大。但由于我国地名地址管理体系混乱,地址的区域差异性显著等问题,不同部门和领域所包含的地址数据通常不属于标准地址,现有的GIS解决方案并不能用于解析这些地址数据,更无法对其进行定位。
针对数字城市空间体系下非标准地址的解析和定位问题,论文基于现有地址编码解决方案,提出了一种基于地址元素结构的地址编码方案,通过构建地址元素和位置之间的关系,提升原有地址编码解决方案在非标准地址上的解析和定位能力,辅助实现数字城市空间体系下基于位置的信息共享。论文主要包含3部分研究内容。
(1)非标准地址的自动化解析、识别及切分。方法从地址结构特性出发,利用统计特征从原始非标准地址库中提取地址的实体名称及模型要素,结合规则方法对地址元素进行识别和切分。围绕这一关键问题,介绍分析了现有中文地址分词方法的发展状况,讨论了各种方法的优缺点,详细论证了现有方法在不依赖额外地址库情况下对非标准地址进行解析时存在的不足。设定了对比试验,详细分析了基于统计、基于规则及基于混合方法的切分效果,方法相互之间的影响及其优劣。试验结果说明了本文提出的基于统计和规则方法的切分效果较好,可以达到80%的切分正确率,明显高于单独方法的结果。
(2)非标准地址库的标准化过程。在回顾国内外标准地址库技术发展现状基础上,提出基于语义位置网模型结构的非标准地址库的标准化流程框架。对语义位置网构建过程中存在的问题进行了分析,并给出了具体修正方法,详细介绍了相应索引的构建方法。对语义位置网中包含的对象和关系进行了详细介绍,提出了基于语义位置网的城市地址空间体系,论述说明了地址元素、语义位置网以及空间定位的关系。
(3)地址库中缺失地址的定位问题。根据语义位置网单元节点包含的语义关系,提出一种位置推理方法,论述了方法的推理依据及参数策略,详细分析和研究了各种策略对位置推理精度的影响。针对点状要素数据集进行了试验验证,与标准地址匹配方法进行了对比。试验结果表明,最优策略组合的位置精度提高了约18.34%。