严宏基,李 兵,詹 伟,舒 红,耿 晴,赵 晶
(1.湖北省测绘成果档案馆 湖北省地理信息数据交换中心 ,湖北 武汉 430074; 2.武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉 430079;3.湖北省地图院 湖北省地理数据应用中心,湖北 武汉 430074)
基于众包模式的POI数据采集方案研究
严宏基1,2,李 兵3,詹 伟1,舒 红2,耿 晴1,赵 晶1
(1.湖北省测绘成果档案馆 湖北省地理信息数据交换中心 ,湖北 武汉 430074; 2.武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉 430079;3.湖北省地图院 湖北省地理数据应用中心,湖北 武汉 430074)
针对小城市(镇)POI数量的高速扩张以及传统采集方式的滞后,提出基于众包模式的POI数据采集思路,并以POI属性及分类为依据,对众包中的任务设计、分配以及质量控制提出具体方案。
众包模式;POI采集;任务分配;质量控制
POI(point ofinterest)是指与人们日常生活密切相关的,可以抽象为点的地理实体[1],如公司、学校、酒店等。对于一个POI来说,它的主要内容包括4个方面:名称、类别、经纬度、附近地物信息。按照对POI需求程度的不同,有时还会附以电话、E-mail、图片、语音介绍等多媒体信息。通过将POI点融入电子地图、数字城市框架和各类基于位置的服务(LBS),并以可视化技术直观表达,可以实现智慧POI服务。
小城市(镇)在GIS建设方面较为落后,POI数据库完备性差,更新周期长,且POI具有一定的地域分布式特性。为应对小城市(镇)可持续发展对规划建设与监督管理中数据平台的迫切需要,本文提出一种基于众包模式的POI数据采集方案。通过大众的广泛参与,实现POI数据的社会化采集[2],为小城市(镇)智慧规划决策支持提供数据服务。同时针对POI众包采集的任务设计、分配、质量控制作了相关叙述,并通过实验验证了方案的可行性。
2006年,Howe首次提出众包这一概念:众包是指一个公司或机构将过去由特定人员执行的工作任务外包给非特定的大众网络的做法[3]。众包模式通常包括三类角色:任务参与者,众包平台,任务发起者,如图1所示。
任务发起者是整个流程的首要环节。发起者所上传任务的类型与内容决定了任务分配以及质量控制的方式。任务参与者泛指一切网民,他们是众包模式中的潜在生产力,相比外包模式的高专业性,具有更高的上限和不确定性。众包平台是建立在互联网环境下的众包模式枢纽,按照其经营理念的差异可以分为两类:一类是企业或者机构基于自身发展需求而建立的众包平台。这类众包平台目的性强,主要以有偿的方式吸引人群。另一类众包平台通常扮演着虚拟的知识中介平台的角色,通过互联网聚合分布式大众,以多样化的任务搭建需求者之间的沟通桥梁。
图1 众包模式
一方面,从众包模式的不同角色来思考,对于发包者的主要影响因素是创新与知识经济;对于参与者而言,兴趣爱好以及物质奖励等是主要驱动力;对于众包平台,作为发包者与参与者的桥梁与容器,随着“容器中化学反应的需要”,其整合组织能力相应提高[4]。另一方面,从整个模式的流程出发,最大化众包绩效是目的,可以视为目标函数。而任务设计(任务难度,赏金值,任务时间期限)、参与者属性(参与人数,人员专业性)以及众包平台的任务调度是相互影响的变量,一般采用控制变量的思想研究不同变量对众包绩效的影响[5]。
众包绩效通过单位成本下的方案数量和平均质量体现出来。为了使绩效期望达值到最大,发包方需注意以下几点:
1) 建立绩效与各变量间非线性关系,在满足一定质量阈值的情况下,得到成本绩效比的最小值。
2) 设计任务时以激发参与者的内在动机为主,外在动机为辅,且在面向大众的模式下保持一定的针对性。
3) 因任务而异,设计质检环节以及采用一定的质量控制策略。
POI数据采集包括新POI的采集与原始POI的更新。随着移动定位技术的发展以及WebGIS的普及,近年来相关技术层出不穷。可分为以下几类:
1) 采用与现有POI数据库中有重叠信息的数据信息,通过重叠的信息实现已有POI与其他属性信息的匹配,以达到更新的效果。戴冬冬提出基于地址匹配方法的POI数据更新[6],利用电信企业库的大量客户信息资源,通过电话号码定位相关分线盒得到客户位置,然后与GIS库中的地址库进行匹配,实现POI采集与更新。
2)基于带有位置信息的网络平台进行采集。陈睿嘉、康志忠提出基于网络爬虫的导航深度服务信息自动采集,使用网络爬虫与DOM技术抓取网站信息,进而与已有POI库匹配[7]。此类技术获取数据量大而杂,对数据处理与匹配算法要求较高。
3) 基于众包思想的POI采集。曾李阳、齐华等提出基于天地图的POI数据采集系统[8],邢廷炎等提出基于Wiki的POI数据更新[9],均着重介绍了系统的架构与Web前后端技术,未涉及众包机制的研究与POI质量的控制。
上述方法均在不同层次涉及到众包思想。但是,关于众包模式中的各个模块与POI采集的深度结合,需要进一步研究。
众包机制的具体架构如图2所示。
POI是具有多类型复杂属性的地理实体。考虑到POI的分类属性以及具有位置特征的地理特性,结合众包任务中的任务描述信息和基于多准则的判断方式,以湖北省神农架林区为例,提出以下方案。
图2 众包架构图
对于每个待发布的POI采集任务,其任务描述信息包括目标区域W,花费时间期限T,奖励积分值S。划分任务时,按照神农架区域行政等级(区、乡、镇、村、社区等)分为多级子任务,且按照POI数据的一、二级分类划分平级任务,如图3所示。
图3 任务划分
目标区域可按照行政边界线划分;时间期限按照不同区域或不同类的POI密集程度设定;对于任务积分,按照所采集POI数量动态积分,单位POI积分按照类别的重要程度提前设定。在此基础上,参与者通过区域、时间、积分以及关键字查找自己感兴趣的任务,按需申请任务。此外,对于所有新用户,采用问卷调查的方式获取区域、时间、积分的期望数据以保证分配任务时的高匹配度。提交后端审核申请时,将一定时段内同时提交的申请比较分析,作出最优化的任务调度与分配。
设任务列M={M1,M2,…,Mi},对应申请人数列N={N1,N2,…,Ni},Ni大于等于1。任务范围中心位置列{(X1,Y1), (X2,Y2),…,(Xi,Yi)},参与者位置列{(P1,Q1),(P2,Q2)…(Pj,Qj)}, 任 务 积 分 值 列C={C1,C2,…,Ci},参与者期望积分值列S={S1,S2,…,Sj},任务时间列G={G1,G2,…,Gi},参与者期望时间列T={T1,T2,…,Tj},Kij为参与者j的任务期望与任务Mi的匹配度:
式中,L1、L2、L3为距离差、时间差、积分差对应的权值,由先验数据得到。
按照同一时段下任务申请人数量,可将任务分配类型分为两种:①N中元素均等于1;②N中有至少一个元素大于1。对于第一种情况,后端直接通过任务申请。对于第二种情况,对N等于1的任务M申请直接通过,而N大于1的任务按以下步骤分配:
1)将参与者分为有中标历史用户A与新用户B,计算A的历史平均任务完成度Arg:
式中,Sum为完成次数。
2)采用A优于B的原则。若任务Mi的参与者中A的数量为1,则选择A为任务获得者;若A的数量大于1,则选择完成度Arg最大的A为任务获得者;若A的数量为0,从B中选取匹配度Kij最大的参与者j为任务获得者。
3)对于剩余的A与B申请者,将其视为一个整体R,设其数量为n,按照其申请任务的最优相关匹配补充数量为n的任务列RM,计算R与RM的匹配度倒数矩阵即匹配差矩阵:
其中A类申请者的期望积分与时间用最近一次完成任务的数据代替。采用最小匹配差和为目标函数,用匈牙利算法[10]处理矩阵此算法的基本原理为对矩阵的某一行或一列同加同减不影响获取最优解。步骤如下:
1)对每一行减去每一行中最小的数。
2)对每一列减去每一列中最小的数。
3)使用尽可能少的水平线与垂直线将所有0覆盖。若线的总数等于n,调换行列顺序,使其对角线为0。对角线为所得任务匹配算法结束。若线的总数小于n,进入第4步。
4)对于没有线覆盖的行,减去这些行中的最小值。对于没有线覆盖的列,加上此最小值,然后返回第3步。
质量是众源数据中难以消除的问题,通常情况下只能采取一定的机制去识别欺骗者,通过不同的质量控制手段削弱多样化带来的数据质量问题。对于POI采集,可以将质量问题分为以下3个方面:
1)POI空间位置坐标的精度。
2)POI位置与POI名称的匹配性。
3)POI名称与图片、语音和其他相关属性信息的匹配性。
对于这3类问题,从整体上看,适当的任务设计、友好的交互机制和一定的报酬奖励,可以吸引足够大的人群参与进来,然后通过一定的机制控制用户的信誉等级、操作上的一些限制和采集结果的检测,从源头、过程和结果分别进行质量控制,如图4所示。
图4 质量控制
首先,采用一定的用户等级机制、错误反馈机制以及奖罚机制来控制和提高用户自身质量。将用户信誉等级分为一二三级,高等级的用户可以领取质检任务这种相对简单的任务,并且可以获取相对更高的报酬。而用户等级提升的方式只有完成一定数量的采集和更新任务后才可以实现。用户在质检过程中发现其他用户的违规行为可上报,经过后端审核后,对于举报行为给予一定奖励,并对有违规行为的用户给予扣除积分、降低用户等级、封号等惩罚。
其次,通过一定的操作限制在过程中控制质量。对于POI的采集与更新任务,要求用户到实地去完成任务,通过读取用户的GPS信息判断用户是否在任务范围内,只有在任务范围内才可以提交成果。对于POI采集任务,还需要在地图上标出POI的具体位置,消除GPS误差,满足空间坐标的精度要求。
对于在A地上传B地的POI这种匹配性问题,目前只能依靠用户实地采集机制、错误反馈机制以及后期人工检测来控制,这也是众源数据的弊端所在。
最后,通过即时发布质检任务,判断POI名称与图片、语音和其他属性的匹配性问题。质检任务较为简单,仅需要判断数据的对与错,因此单个质检任务可以重复发布,只有一定比例的质检员任务合格时认定数据合格。同时,采集数据的用户不能质检同一项数据,这里通过用户ID与采集的POI/ID进行唯一标识。
用户领取质检任务后,即可直接对已采集的数据进行评价,服务器根据质检结果将合格的数据录入分布式数据库,将不合格的数据重新发布任务。
以神农架林区为实验区,采用湖北省测绘成果档案馆发布的神农架18~20级ArcGIS地图服务为底图,并基于以上任务设计、任务分配以及质量控制思想,开发出一套基于Android系统的众包数据采集APP软件,如图5、6所示。
图5 任务设计
图6 数据采集
系统按照神农架林区行政区划和POI分类标准设置多类别子任务,用户可根据自己的地理位置与兴趣爱好申请相应的采集任务,实现友好交互。用户在申请任务后,服务器根据任务分配算法将任务分配至最佳任务。在进行新增数据点采集过程中,首先在地图上显示当前用户的GPS定位(红色标记),不在任务范围内的用户无法开始采集。用户通过放大地图并手触选点进行定点操作,通过设置移动步长、上下左右移动微调位置从而提高采集精度。最后,服务器发布质检任务对已采集数据进行质量筛选,最终实现从过程、结果两个层次的质量控制。采集的部分POI数据通过Web展示,如图7所示。
图7 数据展示
本文基于小城市(镇)规划建设的POI需求,针对众包模式下的POI采集,探讨了其关键技术与相关影响因素,提出具体的POI采集任务设计、任务分配、质量控制方法,并在神农架林区实验验证了众包模式采集POI的可行性。但是,关于POI多媒体数据的采集与处理、POI的可视化技术等方面依旧存在技术难点。如何将POI数据采集与众包式规划结合,从而实现众源GIS,按百姓的意愿建设小城市(镇),将是下一步的主要研究方向。
[1]周春辉,朱欣焰,苏科华,等.基于LBS的兴趣点查询与更新机制研究[J].微计算机信息,2009,25(19):143-145
[2]林丹.POI数据采集的社会化模式[J].福州建筑,2010(9):112-114
[3]HOWE J.The Rise of Crowdsourcing[J].Wired Magazine,2006,14(6):176-183
[4]夏恩均,赵轩维,李森.国外众包研究现状和趋势[J].技术经济,2015,34(1):28-36
[5]王桂云.众包竞赛中任务设计对参与者行为的影响研究[J].山东社会科学,2015,243(11):188-192
[6]戴冬冬.基于地址匹配方法的POI数据更新研究[J].电脑知识与技术,2010,6(1):1-3
[7]陈睿嘉,康志忠.基于网络爬虫的导航深度服务信息自动采集[J].测绘工程,2015,24(1):17-24
[8]曾李阳,齐华,谭明建,等.基于天地图的POI数据采集系统设计与实现[J].测绘与空间地理信息,2016,39(3):55-58
[9]邢廷炎,陶留峰,缪谨励,等.POI数据Wiki更新模式研究与实践[J].测绘通报,2014(4):113-115
[10]匈 牙 利 算 法 [EB/OL].https://baike.baidu.com/item/,2017-04-21/2017-06-28
P208
B
1672-4623(2017)12-0041-04
10.3969/j.issn.1672-4623.2017.12.013
2017-10-13。
国家科技支撑计划资助项目(2015BAJ05B00)。
严宏基,研究生,研究方向为空间数据挖掘与统计分析。