□ 文/沈丹凤
作者单位:上海电科智能系统股份有限公司
在信息技术高度发达的今天,海量的数据充斥了人们的生活,推动促进着社会的发展。这些数据宏观上分为非空间数据与空间数据。非空间数据(Aspatial Data),意味着该信息与地球表面的位置关系不密切,或者说只是偶然关系密切[1]。空间数据(Spatial Data)是能够表示位置信息的数据。随着社会经济的快速发展,大数据挖掘分析的范围不仅仅局限于非空间数据,更趋向于挖掘统计空间数据。如何准确、高效、统一的将非空间数据转换为空间数据是现阶段业务领域与技术领域融合的关键。
地理位置坐标信息是对地理空间信息进行具体分析统计挖掘的基础。人们日常生活中使用频繁的都是非结构化的地址信息,而任何技术应用的衍生发展都需要以精确的地理位置坐标信息为依据。为了提供准确的地理坐标,必须对非结构化的地址信息进行解析关联,尤其是在交通领域,通过对黑车、套牌、超速、逆行等车辆违法行为以及由此引发的道路交通事故等的精确定位,能服务决策支持,优化勤务调度,提高执法效率和执法水平,有效保障车辆和行人的出行安全,并能为后续分析挖掘打下良好的基础。
多源语义地理信息坐标解析方法通过构建标准化高精度离线地址库,对非结构化地址信息进行地理编码,关联交通对象及多维度辖区。非结构化地址(Unstructured address):指不规则、不完整的地址描述,例如:“川南奉公路金亭公路口往南100米左右”、“福山路458号对面”等;地理编码(Geocoding):将地址或地名描述转换为地球表面上相应位置;交通对象(Traffic object):预定义的交通描述常用对象,主要分三类:道路交叉口、路段、poi兴趣点。
传统的地理编码解析是通过 HTTP/HTTPS 协议访问远程服务的接口,将结构化地址转换为经纬度。主要是将地理位置信息提交至各在线地图服务来获取经纬度坐标点。其中结构化地址是指内含国家、省份、城市、区县、城镇、乡村、街道、门牌号码、屋邨、大厦等建筑物名称,按照由大区域名称到小区域名称组合在一起的字符,且有效的地址是独一无二的[2]。而实际中人们上报的地址信息往往无法做到标准的结构化,并带有不定量错别字。通常都是非常主观化的描述。这使得传统的地理编码解析存在许多不足:
非结构化地址进行语义识别时错误率高;
各在线地图POI地址库坐标不全,使得地理编码转换准确率低;
各在线地图坐标系不同,转换后的经纬度坐标点不能统一使用;
必须在有互联网的环境中才可以进行地理编码转换;
通过 HTTP/HTTPS 协议访问远程服务的接口速度慢;
各在线地图远程服务每日有访问量限制,不适用于大批量地理编码;
各在线地图不提供关联交通对象功能。
本文介绍了一种不依赖于互联网远程接口的地理编码非结构化地址解析方法,对大批量非结构化地址进行解析关联交通对象与多维度辖区。为黑点分析、辖区分析等业务处理奠定基础。
▲图1 系统总体架构图
如图1所示,系统总体分为四个模块,分别为本地坐标地址库建立、非结构化地址解析、关联交通对象、关联辖区。
本地坐标地址库建立,即实时化标准化高精度离线地址库。将不同坐标系的经纬度坐标通过各自的加密方式进行相应的解密转换成统一的WGS84坐标。不定期更新离线地址坐标库,同时,在每类坐标库表中加入“创建时间”和“更新时间”字段,利用这两个字段实现各个坐标的版本控制,保证坐标库的完整性。
非结构化地址数据分类精确定位。将非结构化地址规范化匹配结构化描述,通过结构化描述对原始数据精确分类。按照各类别精确定位,通过gis地图处理,实现地面地址解析精度精确到米级别。高速高架按每3km为一段精确定位到分方向的各段上。
交管应用关键对象关联分析。通过gis地图将交通对象分为poi兴趣点、道路交叉口、路段三大类,以50m为精度范围,优先级由高到低依次为poi兴趣点、道路交叉口、路段进行关联。
多维度区域定位分析。提供与业务系统相衔接的辖区关联分析,将地理数据定位精确到各个管理辖区,为业务系统横向分析奠定基础。
本方案主要由本地坐标地址库建立、非结构化地址解析、关联交通对象、关联辖区四大模块组成。其中本地坐标地址库建立为前期基础模块,非结构化地址解析、关联交通对象、关联辖区为后续分析模块。
本地坐标库建立模块,通过各在线地图的远程服务接口收集各类POI位置坐标点,将不同的坐标系转换成统一的WGS84坐标,录入本地坐标库中。
▲图2 标准化高精度离线地址库
图2所示为本地高精度离线地址库构建及标准化流程图。本地坐标库建立模块包括坐标获取单元、坐标转换单元及坐标分类,其中,坐标获取单元通过各在线地图的HTTP/HTTPS 协议访问远程服务的接口进行信息收集,获取各在线地图各分类地图资源;坐标转换单元从坐标获取单元收集到的信息中提取经纬度坐标,并将提取后的经纬度坐标通过各在线地图的加密方式进行相应的解密转换成WGS84坐标;坐标分类则按照优先级规则对坐标转换单元获取的WGS84统一坐标按照地理信息进行类型分类,将分类后的WGS84坐标分别录入本地坐标库中的地面道路交叉口表、高架与地面道路交叉口表、地铁站出入口表、门牌号表、poi兴趣点表中。
WGS84坐标录入本地坐标库的同时,在每类坐标库表中加入两个时间字段进行版本控制,分别为当前WGS84坐标创建时间以及最近更新时间,通过这两个字段实现各个坐标的版本控制。
分析模块包括非结构化地址解析、关联交通对象、关联辖区三部分。如图3所示为分析模块总体流程图。
▲图3 分析模块流程图
由于数据类型及处理流程的差异,输入数据根据数据分类配置分为地面数据与高速高架两大类。
如图4所示为地面文字解析流程图,非结构化地址按精准度逐一分解匹配本地坐标库中WGS84坐标点,进行地址解析,获得非结构化地址信息的经纬度坐标,包括地铁站出入口类匹配单元、道路交叉口类匹配单元、门牌号匹配单元及兴趣点类匹配单元。
▲图4 地面文字解析流程图
地铁站出入口类匹配单元,用于判断当前非结构化地址中是否包含轨交线路及地铁站名关键字,若包含轨交线路及地铁站名关键字,判断是否包含出入口信息,包含出入口信息的情况下,匹配本地坐标库中的WGS84坐标,若不包含出入口信息,将非结构化地址与本地坐标库中首个出入口坐标点的WGS84坐标相匹配。若不包含轨交线路或地铁站名关键字,则使能道路交叉口类匹配单元;道路交叉口类匹配单元,首先判断非结构化地址中是否含有道路交叉口库中的任意两条或两条以上路名,若包含,则优先匹配非结构化地址描述中先出现的两个路名交叉口,若不包含,使能门牌号匹配单元;门牌号匹配单元,判断非结构化地址中是否包含道路名,若包含,判断是否包含该路名对应的任一门牌号或10以内相临近门牌号,包含的情况下匹配本地坐标库中的WGS84坐标,若不包含道路名或者包含道路名不包含该路名对应的任一门牌号及相近门牌号,则使能兴趣点类匹配单元;兴趣点类匹配单元,首先判断是否包含该兴趣点名称,若包含,判断该兴趣点所在道路名称是否与本地坐标库中的一致,若一致,匹配本地坐标库中的WGS84坐标,若不包含兴趣点名称或包含兴趣点名称但所在道路名称与库中不一致,不匹配。最后将匹配到的经纬度坐标进行修正,按“东”、“南”、“西”、“北”四个方向及描述距离修正,从而可以达到米级别精度。
高精度坐标解析完成之后按优先级别从高到低,以50米为阈值,通过计算两点之间的距离,首先判断距离该坐标50米范围内是否有poi兴趣点存在,若有,则关联poi兴趣点作为相关交通对象;若没有,再判断距离该坐标50米范围内是否有道路交叉口存在,若包含,则关联该道路交叉口作为交通管理对象;若不包含,通过计算点到直线的距离,判断距离该坐标点50米范围内是否有相关路段,若有,则关联该路段对象,若没有,则不关联。通过以上交通对象关联方法,实现将解析出的高精度经纬度坐标关联三类交通对象。同时,根据坐标结果及辖区管理区域图定位关联中队、大队辖区。
高速高架数据按照描述方式分为带“km”的描述,如“外环高速外侧18km约200米”、带里程桩号的描述,如“华夏高架路北侧BWP0444约10米”、带立交匝道的描述,如“龙东大道外环高速龙东立交西向南上匝道西约5米”、以及其他描述。其中前三类为带关键字类描述,最后一类为其他描述。这几类描述在高架类数据中都属于规范化描述。根据描述方式的不同,带关键字类描述通过“高架起、终点方向配置”、“里程桩号配置”、“POI库配置”进行坐标解析,并将解析结果关联交通对象。其他类描述通过“高架与地面交叉口库配置”配置匹配从而定位坐标结果。同时,将带“km”的描述、带里程桩号的描述及其他文字描述关联至高架上3km路段,带立交匝道的描述关联至POI兴趣点交通对象。由分类规则得到的高速高架类数据可直接关联至高速高架管辖区域。
在针对某地建立的大数据研判系统中,应用本方法用于对110警情上报地址,以及违法和事故上报地址进行解析并关联定位达到了很好的效果。
在对110警情地址解析中,针对5年警情的3142553条警情地址数据,能解析出2799073条,并关联到道路交叉口及路段上,解析率达90%。针对事故上报的971506条地址数据总量,解析量为878858条,解析率达90.5%。针对违法数据总量7091593条,解析量为5815309,解析率达到82%。
其中将警情地址解析到经纬度实现定位的效果如图5所示:
▲图5 经纬度定位实现效果图
高效、精确的对非结构化语义地理信息进行解析是大数据时代对空间信息挖掘分析的基础,空间数据与非空间数据的交叉分析能全方位定位交通态势。本文针对多类语义地理信息提出了多源语义地理信息坐标解析方法,通过构建高精度、标准化离线地址坐标库,对各类语义地理信息进行分类解析,从而将空间地理信息无缝转化为非空间统计数据,为后续统计挖掘奠定了基础。后续研究中应更加完善各类配置模块,提高离线地址库的准确度,提升高架高速类数据的解析精度,从而提高匹配度及关联精度,更好地为关联分析提供基础。