陈兴华
(1.福建省基础地理信息中心,福建 福州 350003)
福建省目前还采用传统的数据采集和更新方式,从数据采集到数据入库时间,跨度大、周期长。现代社会发展快,地物要素变化也非常快,传统的数据采集方式已经无法满足需求,因此,有必要探索新的采集方式,加快地理信息采集和更新速度,促进地理信息的应用与发展。
以主流门户网站和社交媒体网站为研究对象,根据网站公开的API接口说明文档,学习API接口的使用方法及参数信息,研究语义匹配和空间数据搜索技术,通过众多网站API接口的调用,从目标网站中获取空间地理信息。
基于因特网发布的空间地理信息是经过脱密处理的,获取的地理要素信息无法基于统一坐标系使用,根据API文档中对空间信息坐标系的描述,研究几何校正技术,把获取的空间地理信息转换为CGCS2000坐标系。
通过各类网站上收集的地理信息资源,数据量庞大、数据格式不一,若人工进行数据筛选和处理,工作量巨大。为减少人工干预的工作量,制定数据筛选规则,通过规则智能化地从众多地理信息中筛选出符合条件的数据资源。
本项目将以现有的空间数据为基础,分析现有空间数据的特点和组织结构,基于因特网分析网络空间数据的组织方式和特点,设计空间数据组织方式,研究在线空间数据搜索技术、空间数据校正技术等,实现空间数据的在线搜索,在此基础上实现技术成果的应用。
1)资料收集与技术分析。通过网络或者其他方式收集国内外在此领域的先进技术与经验,了解空间数据搜索方面使用的关键技术,对技术进行一定的评估和分析,提出实现关键技术的思路和技术方案。
2)关键技术研究。研究在线空间数据搜索API接口及方法,通过调用在线接口实现空间数据的搜索技术,实现不间断的空间数据搜索,研究语意匹配技术,匹配和语意相近的结果集;研究不同来源的空间数据校正技术,把不同来源的空间数据坐标系校正为CGCS2000坐标系,并对校正后的坐标偏移量进行评估;研究空间数据更新技术,把已搜索的空间数据更新到空间数据库中。分项实现项目中的关键技术,并对每一项关键技术进行测试与实验,在分项关键技术研究的基础上,合并和集成各项关键技术。
3)技术实现。在关键技术研究的基础上,设计数据库表结构,以“天地图·福建”现有的空间数据为基础,搭建在线公众地理信息变化与发现系统,实现在线实时的地理空间数据搜索与采集、几何校正等多项功能,把校正后的空间数据存储到空间数据库中,并对不同来源的空间数据标识其来源和采集时间,采集后的空间信息资源为公众地理信息的更新提供多源参考资料。
本课题采用B/S结构,分别是服务层、引擎层和应用层,其技术架构如图1所示。
1)数据层。数据共分为2个部分,现有的“天地图·福建”的空间数据为基础数据库,通过网络发现变化的数据是课题中研究的另外一部分空间数据。
图1 技术架构图
2)服务层。服务层分为2个部分,第1部分是基于因特网从网站搜索已经变化的空间地理信息,运用技术对空间信息进行一定的处理;第2部分是以2个空间库的数据为基础,通过查询、对比等功能对空间数据进行验证。
3)应用层。把已经变化和发现的空间地理信息成果应用到网站和平台。
1)空间数据表结构设计。课题中的数据来源于因特网上不同的网站,不同网站中的空间数据组织和结构完全不相同,针对此情况,按照求同存异的方法,对空间数据进行一定的归纳,归纳出网站中公共字段。设计一个表存储公共字段,标明数据来源和更新时间,对于其他不同于公共字段的属性信息,采取独立建表存储的方法,设计字典表补充说明字段的含义、来源、用途等,实现不同来源的空间数据都能兼容的存储方法。
2)在线空间地理信息的变化与发现。以现有“天地图·福建”的公众地理信息数据库为基础,通过语义匹配、区域范围、行政区域等方法搜索出相近和类似的结果。搜索结果和现有库中数据进行对比,主要比对的字段包括名称、地址、空间位置及其他描述信息,空间数据的位置与原库中位置允许偏差在20 m范围,如果超出这个范围则认为数据发生变化。若在相同的空间位置上,现有库中的数据变化为其他名称,说明此要素已经不存在。
对主流门户网站进行分析,分为2种情况:①网站提供了API接口,有相应的方法和属性;②网站无API接口,只有网页供用户浏览。若网站提供了API接口,则使用网站中的API接口,API接口包括关键字搜索、范围搜索等方法,搜索出符合查询条件的结果,把结果存储在临时表中;如果网站没有提供API接口,抓取网页中的内容,通过关键字匹配的方法,匹配出相近的结果,若结果中没有包含空间信息,采用“天地图·福建”地址库匹配出相应的空间位置坐标。
关键词搜索方法,对现有要素名称进行分词,如“福建省测绘地理信息局”,被分解为“福建省”、“测绘”、“地理信息”等几个词汇,通过名称或者关键字组合搜索出和语义相关的要素信息,通过名称、地址和空间位置等信息比较,判断要素是否变化。
范围搜索方法,范围搜索包括点和矩形范围搜索2种方法,点搜索法是以该点为中心点,以5 m或者10 m为半径搜索在该区域范围的地理要素信息,矩形搜索法是搜索该矩形范围内的空间地物要素信息,对搜索后结果按照规则进行逐一比对。
3)空间地理信息几何校正。在研究的部分主流网站中,空间数据都是经过脱密或者变形处理,应把变形处理后空间数据经过一定的处理,转换到统一的空间坐标平台上。通过分析和反复实践,有2种方法可把变形后地物要素纠正到统一的坐标系:①从现有库中选取一定密度的空间要素作为控制点,运用橡皮筋纠正法把空间要素纠正到和控制点相同的坐标系;②查阅相关资料和说明,获取网站的变形说明,在不同区域选取足够多的要素进行比较,以0.001°×0.001°作为单元,获取在横轴和纵轴上的偏差值,通过要素比较制作要素偏差纠正库,其他要素以此库作为基础进行校正。
4)制定规则,筛选空间地理信息。空间数据筛选主要是制定规则,根据规则筛选出符合条件的空间数据。规则还得根据实际情况不断地修改和完善。制定的筛选规则是,以“天地图·福建”的空间数据库为基础,从网络上获取的空间数据为比较对象,如果2个库中的空间数据都存在,并且二者距离差小于20 m,说明该数据没有发生变化。若“天地图·福建”的数据库中存在该条数据,其他所有网站都不存在该条数据,说明该条数据已经发生变化或者该项信息已消失。若“天地图·福建”的数据库中不存在该条数据,而网站中存在该条数据,此项信息需人工核实后,确定是否存在该条空间信息。对于部分网站中存在空间信息而“天地图·福建”数据库中不存在的,仍然需借助人工判断。
通过对以上几项关键技术的研究,建立了地物要素变化监测系统。自系统上线运行以来,已经为“天地图·福建”更新了约40 000条兴趣点数据和1 000 条公交数据。关键技术的实现为“天地图·福建”空间库的更新提供了重要的数据来源,拓展了地理信息更新渠道,缩短了空间地理信息的更新周期,节约了大量的人力和物力。但还存在着诸多不足,如通过语意匹配搜索的能力还较弱,不能从各个网站智能提取空间信息,筛选规则也有待进一步完善。
[1]国家测绘地理信息局地理信息与地图司.“天地图”省市级节点建设方案[EB/OL].http://www.sbsm.gov.cn/article/zcfg/zygfxwj/201107/20110700085953.shtml, 2011-07-07/2015-01-01
[2]郭俊枫,赵仁亮,郑娇龙.面向网页文本的地理要素变化发现[J].地理信息世界,2015,22(1):52-56
[3]刘娟,智升翠.“天地图”市级节点地名地址数据建设的研究[J].测绘与地理空间信息,2012,35(9):109-112
[4]陈军,赵仁亮,王东华.基础地理信息动态更新技术体系初探[J].地理信息世界,2007,14(5):4-9
[5]闫会杰,赵巍.服务于基础地理信息数据动态更新的网络蜘蛛[J].测绘技术装备,2012,14(2):21-22
[6]张春菊,张雪英,朱少楠,等.基于网络爬虫的地名数据库维护方法[J].地球信息科学学报,2011,13(4):492-499
[7]王凯.基于互联网信息检索的“天地图”数据变化发现技术研究[J].测绘技术装备,2014,16(4):9-11