吴晓萍 李国明 唐欢
摘要:动员潜力数据主要包括交通战备、经济动员、人民武装、军工生产、医疗救护、政治动员、装备动员等几大类,2000多项小类,种类繁杂,体量较大。目前,动员潜力数据大多是依靠人工输入完成采集更新,工作量巨大。因此,本文构建了一种兼容多种数据源的可持续网络爬虫方法,提出了基于基态修正的动员潜力数据增量更新方法。结果表明:该方法可快速有效的开展动员潜力数据增量更新。
关键词:动员潜力、增量更新、网络爬虫、基态修正
引言
腾讯、高德、百度等LBS日均支持服务请求已达千亿次,每天为用户提供百亿次POI检索服务。庞大的用户体量和全面多维的位置数据,赋予了互联网动员潜力数据较高的现势性。如何有效的从互联网中获取到所需的动员潜力数据,仍是一个技术研究的热点问题。本研究利用检索词搜索的网络爬虫方法对电子地图中的POI数据进行获取,为动员潜力数据的检索和获取提供了一种方法。
由于动员潜力数据的来源较多,在对其属性信息的描述过程中,不同数据源对同一POI点在名称地址信息的描述上会有所差异。在进行数据更新时,很容易将不同源数据中对同一个POI点识别为多个数据点,造成大量的冗余数据。本研究使用基于词典与统计相结合的中文分词方法,对POI点的名称地址进行拆分后,保留核心词汇,提高同名POI点的识别率,减少重复数据,提高数据质量。
1多源动员潜力数据的自动采集爬虫设计
本研究设计了一种兼容多种数据源的可持续网络爬虫,实现POI数据的持续获取。爬虫程序主要由任务分配、数据下载、数据解析三个基本模块组成。整个爬取流程及模块间的衔接呈环状,使得爬虫能够自动化、持续化运行,基本架构见图。
第一步:原始网页地址输入
多源POI数据有垂直网站、各类网页服务等多种来源,因此在设计爬虫程序时必须考虑到周全,能够做到多类数据源都能够进行爬取。网页服务的获取是通过向数据服务提交查询的请求后等待网页进行数据反馈,因而要对数据源的数据库做到最达的覆盖率,以保证数据的全面性。
第二步:爬虫任务协调
任务协调模块是有着URL过滤、去重的功能,还要对多线程爬取的情况下对每个线程的任务进行协调分配。针对垂直网页,任务协调模块通过解析网页页面中的URL地址,与已有地址列表进行比对剔除已爬取过的网页链接。
第三步:数据下载模块
爬虫程序基础就是数据的下载模块,它向网页链接发出请求并获取底层服务器的回应。利用辅助线程对数据异步获取状态的跟踪而主线程仍旧持续请求的方式对下载效率进行提升,避免了多个网页内容同时下载时候的网络阻塞,提高了数据采集的效率。
第四步:数据解析模块
数据解析模块是对下载完成后的信息进行预处理,得到格式化的信息数据。对于Html等结构化半结构化的网页数据会形成相应的解析模型,以便后续能够程序化的对数据进行快速解析工作。针对获取得到的不同格式数据,需要根据特定的解析方式将其解析为固定格式的结构存储在内存中,方便后续的数据分析与应用工作。
2多源POI数据的获取
2.1多源数据的坐标一致化处
从互联网获取的POI数据,由于数据源不同,因此数据存在坐标信息不一致的问题。为了数据的保密性、专有性,各大地图服务提供商出版、发布的地理坐标点是经过原始坐标点进行加密、偏移等操作得到的结果。因此不同的来源的数据存在不同的坐标信息,为了使多源数据能够进行整合处理,多源POI数据要进行坐标转换,具有统一的坐标系。地图数据的坐标转换实质是对两个异源坐标点集建立映射关系,常用的方法有平均位移法,相似变换法、多项式法等。本研究采用基于网格划分自动提取控制点的方法对多源POI资料进行坐标纠正处理,流程如下图所示:
第一步:确定POI点集的地理范围,将地理范围进行单元网格划分,对网格单元进行二次划分,对划分为M×N单元网格的每个网格进行再次划分,划分为3×3的控制
点子网格和6×6的检核点子网格。
第二步:選取两套在控制点子网格内的异源数据点集,用语义匹配选取一组同名点作为其所在网格的控制点,用相同方式进行检核点的选取。
第三步:用二阶多项式变换模型计算变换系数并计算点的残差和中误差,对控制点进行粗差剔除以获得可使用的控制点。
第四步:再次使用二阶多项式变换模型对纠正网格进行变换系数计算,得到每个网格单元的各类误差数并存入数据库,最终实现POI数据的位置纠正。
2.2POI数据集的噪声去除
每一条POI数据按照一定的数据结构进行存储,由多个字段组成一条数据的属性描述集合,该集合分别由“ID”、“名称”、“地址”、“经纬度”、“分类”、“地址编码”等字段构成。名称字段表地理实体,地址字段表名实体具体位置,分类字段是根据分类属性表明确所属类别,经纬度字段可用于地理位置的确定,POI数据集因网页解析等原因会出现一些噪声数据,即字段表达错误或记录有误,需要对这些噪声数据进行处理,以保证数据集的统一性和准确性。
2.3数据预处理结果
对采集完成的原始数据按照噪声去除及坐标一致化进行数据的预处理。
3基于基态修正的动员潜力数据更新
本研究基于基态修正的方式对动员潜力数据进行更新,通过对POI数据的变化信息获取即相对增量获取,对数据进行更新,以保证POI数据的现势性与准确性。基于基态修正的POI数据更新步骤如图所示:
步骤一:待更新区域的确定
为了实现数据的快速动态更新,使用基态修正的POI数据更新方法对某区域的POI数据进行局部更新,需要确定待更新区域进行POI数据的快速更新。
步骤二:局域网络POI获取
利用网络爬虫对确定区域的多源网络POI数据持续性获取,对获取的到POI数据进行噪声去除、坐标一致化处理以及整合去重工作后作为对比数据源,将地理信息公共服务平台的数据作为标准POI数据库,达到平台数据的快速动态更新。
步骤三:变化信息监测
通过处理网络数据与平台的标准POI数据进行对比分析,采用同名点识别算法得到网络多源POI数据与地理信息平台数据的同名点,进而可以得到网络数据相对于平台数据的增量即数据的变化信息。因在进行平台数据更新时采用了区域更新的方式,选定某个地区后对该地区的所有POI数据进行更新工作,同时在进行网络数据采集时也选定的使该区域,使得多源网络POI数据与平台库POI建立起了区域对应关系。
步骤四:增量资料生产
通过变化信息监测,对多源网络POI数据与动员潜力数据库POI数据统一进行名称特征抽取与地址特征化的工作后,再进行相对增量数据的提取,杜绝了简化后的网络名称地址数据不能与原数据库名称地址相对应而造成“虚假”增量的问题。为数据更新提供很好的数据基础。
步骤五:数据更新
增量数据相对于原数据的库的变化部分,将其更新至动员潜力数据库,即可完成基于基态修正的数据更新。因为网络数据的多源性與高更新频率,保证了数据的准确性与现势性。
4结论
本文使用的基于网络爬虫与基态修正的动员潜力数据增量更新方法,经过验证可快速有效的开展动员潜力数据增量更新。较传统人工更新模式,可节约人力资源成本,提高工作效率。
参考文献
[1]于涛方,顾朝林,吴泓.中国城市功能格局与转型:基于五普和第一次经济普查数据的分析[J].城市规划学刊,2006,165(5):13-21.
[2]沈忱,宋鹰.地理数据增量更新策略及方法探讨[J].国土与自然资源研究,2013(2):29-31.
[3]罗国玮,张新长,齐立新.顾及地理要素变化过程的数据增量更新方法[J].中山大学学报:自然科学版,2014,53(4):131-135,141.
[4]向红梅,谭立力,曾光清.基础地理空间数据库增量更新与动态管理方法[J].测绘科学,2016,41(11):189-193.
[5]徐毅,金德琨,敬忠良.数据融合研究的回顾与展望[J].信息与控制,2002,31(3):250-255.
基金编号:四川省科技计划资助:2020YFG0373、2021YFG0378