范红超,孔格菲,杨岸然
1. 挪威科技大学土木与环境工程学院,挪威 特隆赫姆 7491; 2. 国防科技大学电子科学学院,湖南 长沙 410072
随着计算机技术的发展与互联网的普及,地理信息数据的采集与生产不再局限于专业机构,以公众为主体参与的众源地理信息(volunteered geographic information,VGI)数据已逐渐成为一种重要的地理信息数据源。这些VGI数据通常由大量非专业人员志愿参与提供,并通过互联网向大众及相关研究人员进行分发[1-2]。与通过传统方式获取的地理信息数据相比,VGI数据具有现势性高、传播快、信息丰富、成本低廉的特点[3],能够适应信息传播快、数据实时性要求高的数据生产趋势,因此也成了专业地理信息的重要补充[4],并被广泛地应用于相关研究。
根据数据的获取方式的不同,VGI数据可分为主动式VGI数据和被动式VGI数据[5]:主动式VGI数据的获取过程中,用户自主决定所贡献的数据内容,并由用户主动在线协同以进行数据的创建、更新和维护,如开放街景数据(OpenStreetMap,OSM);被动式VGI数据则由用户无意识地贡献,所收集的数据内容通常由平台方定义,如社交媒体用户贡献的空间定位数据和文本数据。依据数据的载体内容,VGI数据也可分为空间数据和非空间数据。VGI空间数据指与地理信息相关联并具备实际的空间意义的数据,如路网数据、兴趣点数据和带有地理标签的地理/街景图像数据。对带有地理标签的社交媒体数据来说,除地理标签外,其本身通常以文本方式呈现,不含有直接的空间信息,因此本文将其归类为VGI非空间数据。
主动式VGI可以提供最传统、最基础的空间信息数据,包括各种类型和数据格式的基础地理信息数据,如地图数据、三维建筑物数据、街景图像或无人机图像数据,因此更具有测绘性。相比之下,被动式VGI数据通常收集签到数据和与之相随的文字描述信息,它们多数记录人们围绕签到位置的一定范围的活动信息,更具有地理性。本文在对VGI的总体研究进展进行回顾的基础上,聚焦于从数据平台和相关研究及应用两方面对主动式VGI空间数据的研究现状进行回顾,并对主动式VGI的未来发展趋势进行展望,希望能为后续主动式VGI空间数据的使用及相关研究提供一定参考。
VGI的概念由Goodchild在2007年正式提出[1],并逐渐发展成为地理科学和测绘科学领域的重要研究课题。事实上,在这个概念被提出之前,实际意义上的VGI应用与研究已经存在。早在1995年,已有研究者通过召集志愿者进行站点定位任务(site location task),并进一步通过对志愿者行为的分析验证了空间决策系统的有效性[6]。时至今日,VGI已经变得众所周知,各类与之相关的应用与研究逐年增加。
本文参考文献[7—8]对VGI相关研究进展的分析方法,从国际权威科技文献数据库Web of Science中对VGI相关论文进行检索,并依据主题词进行数据清洗后,共获取到1025篇VGI相关研究论文。对这1025篇论文依据发表年份和关键词进行统计分析,其结果如图1所示。在对论文关键词进行统计时,相似关键词的存在会影响统计结果对VGI相关研究主题的变化的反应能力。因此,本文首先对关键词出现的词频进行统计,并对涉及论文数量排名靠前的原始关键词进行分析,在排除掉影响主题统计效果的2个关键词“VGI”和“OSM”后,对其余关键词中词频排名前15的关键词首先依据含义进行内部合并,并按词频递补原始关键词,最终得到15个论文主题词。随后,依据前15个论文主题词对后续未被讨论的原始关键词及其词频进行模糊检索与人工合并(合并规则见表1),最终得到依据论文主题词对VGI相关研究主题随年份统计分析结果,如图1(b)所示。对主题词进行模糊检索时使用的关键词见表1。模糊检索关键词用于匹配到与该主题近似相关的原始关键词,最终的主题词所包含的原始关键词则进一步通过人工筛选排除掉意义错误的部分,以保证参与主题统计的关键词的正确。
表1 VGI论文主题词合并方式
观察图1可知,从1995年开始到2007年VGI的概念正式提出之前,VGI的相关工作与研究主要集中在GIS领域;2007年后,尤其是自2010年以来,VGI相关研究数量开始大幅度增长。同时,如图1(b)所示,VGI相关研究的主题随时间推移越发丰富,对VGI数据本身的讨论(主题crowdsourcing与challenges成为VGI研究领域的热门话题,其与地理信息系统(GIS)的联系越来越紧密,土地利用、社交媒体等领域也开始越来越多地应用VGI数据进行研究分析。图1的统计结果表明,与VGI相关的研究从正式提出的2007年到2021年不断增加,且呈现多样化趋势。
图1 VGI相关研究论文数量与论文主题词随年份变化
VGI数据平台作为VGI数据获取过程中的关键一环,为VGI相关研究提供了数据支撑与保障。随着VGI的发展,平台所提供的数据内容不再局限于传统的二维地理要素数据,如地图(地表覆盖)数据,而是进一步包含了带地理位置信息的图像数据,如街景图像,更丰富的三维地理信息被包含到VGI平台中来。通过对前述1025篇文章中所用数据名称的提取和统计可以发现一共有13个常见的主动式VGI空间数据平台,具体见表2。其中,Moovit、SightsMap在2012年创立,Mapillary在2013年创立,其余平台除Gateway to Astronaut photography of earth创建时间不明确外,均在2010年前已创立并运营;除Clickworkers-be a martin和Panoramio平台外,其余平台均持续运营至今,其中最为著名且被广泛使用的数据平台OpenStreetMap更是在2004年就已创立,时至今日其数据量还在不断增长,并逐渐成为许多地理分析与应用的基础数据[9-10]。同时,VGI数据平台收集的数据类型从地表覆盖矢量数据,到街景数据、地理位置数据和公共交通数据,涵盖了日常使用所涉及的几类常用数据,表明VGI数据及平台具有良好的可持续性和实用性。
表2 VGI相关研究论文涉及的主动式VGI 空间数据平台
同时,本文结合获取到的1025篇论文对出现频次较高、至今仍然运营的10个主动式VGI空间数据平台进行了统计分析(截至2021年),其统计结果如图2所示。可以发现,在VGI相关研究中,英国开发的OpenStreetMap平台(及其所提供的数据)最为热门,其相关研究达到720篇;其次是Flickr、Wikimapia和Foursquare,三者均在100篇以上的论文中被提及,但依据文献[11]的研究,结合观察图2中Wikimapia相关研究数量随年份变化的子图,可以发现Wikimapia的关注度正在下降;而Mapillary作为2013年开始运营的后起之秀,其相关研究已达22篇,并总体呈现增加的趋势,说明其已逐步成为新兴的重要VGI数据平台。
图2 VGI相关研究论文涉及的主动式VGI空间数据平台统计结果
2.3.1 针对VGI数据本身的相关研究
与传统方式获取的地理空间数据不同,VGI数据由公众参与贡献,数据获取过程缺乏统一标准的约束,存在数据质量参差不齐、噪声信息多等问题[12-13]。因此,对VGI数据进行理论研究成为了VGI数据研究领域的重要课题,并主要围绕如下两个子课题来进行分析:①VGI数据质量评估;②VGI数据用户特征与贡献模式。
2.3.1.1 VGI数据质量评估
对VGI数据进行质量评估时,依据国际标准组织对数据质量的相关规定与文献[14]的研究,主要从位置精度、主题精度、完整性、时间精度和逻辑一致性和可用性6个方面进行评价。同时依据主动式VGI空间数据的质量检验方法,则可进一步将VGI数据质量评估的相关研究简化为两大类[15]:①extrinsic quality assessment,通过与官方或商业参考数据集进行比较来实现对VGI数据的质量评估;②intrinsic quality assessment,不参考官方或商业数据集,而是通过数据内在的分析,如元数据或自定义质量指标和概念来实现对VGI数据质量的评估。
(1) 有参考数据集的VGI数据质量评估。在第一类相关研究中,文献[16—19]参考官方数据集,实现了对法国、德国、英国和伊朗(德黑兰市)的OSM数据集的总体质量评估,发现OSM数据集质量存在异质性,在城市地区数据覆盖好、质量更高,农村及偏远地区则在数据总体质量上存在不足。文献[20—21]则基于外部参考数据集对OSM中的兴趣点数据进行了质量评估。前者参考了Foursquare的兴趣点数据,对OSM中美国纽约曼哈顿地区的咖啡店兴趣点进行了质量评估;后者参考了意大利统计局、意大利文化和旅游部发布的官方博物馆和文化机构调查数据,对意大利的OSM兴趣点数据进行了总体质量评估。以上对OSM兴趣点数据的质量研究表明,OSM的兴趣点数据集整体具有良好的质量,但文献[21]研究表明OSM的POI数据在主题精度和逻辑一致性上存在部分错误,仍有待提高。文献[13,22—24]参考官方和商业数据集(如德国的TomTom数据集),对德国、伊朗、加拿大和美国全国或代表城市的OSM线状要素数据(如路网数据)进行了质量评估;文献[25]对比谷歌地图(Google map)和必应地图(Bing map)数据,实现了爱尔兰地区的OSM道路数据的质量评价;文献[26]则以百度地图和谷歌地图为对比数据,选取了国内外4个城市为研究区进行了OSM道路数据的质量评估。以上对OSM线状要素数据的质量研究表明,OSM的线状要素数据整体质量良好、与商业数据集质量相当,但同样存在异质性和质量的不均衡。同时,文献[13]还进一步发现要素类型与线状要素数据质量存在相关性。文献[27]则参考官方数据与谷歌街景(Google street view)数据,实现了对世界各国主要道路上Mapillary数据质量的评估,其结果表明,Mapillary数据完整性强,具有良好的数据质量。文献[28—29]参考官方数据集,对OSM建筑物地基线数据进行了质量评估。前者在2012年针对德国北莱茵—威斯特法伦州和萨克森州的研究表明,OSM建筑物数据完整性较差且具有异质性,质量有待提高;后者在2014年对德国慕尼黑地区的研究则表明OSM建筑物数据虽然在属性数据的完整性上存在一定不足,但地理数据完整性良好,整体具备良好的数据质量。二者的研究结果表明,OSM数据质量随时间推移、数据量增加而提高,且OSM数据质量存在较强的异质性,随研究区域变化而变化。
(2) 无参考数据集的VGI数据质量评估。不参考外部数据集的相关研究则主要集中于对VGI数据质量评估方法的设计。文献[30]提出VGI概念质量框架,以更好地实现对VGI数据的质量评估。在国内,文献[31]提出一个针对VGI数据的质量检验框架,实现了VGI数据的质量控制和评估。文献[32—41]设计了新的质量指标,来实现对VGI空间数据质量的评估。文献[42—50]则从数据贡献者的角度出发,依据历史编辑和用户贡献数据设计模型以计算可信度,并以可信度作为质量评估指标,实现了对VGI空间数据质量的评估。与其他文献不同,文献[51]对兴趣点数据的质量评估方法进行了分类汇总与验证,并依据试验结果进一步得到了新的标准化兴趣点数据质量评价指标,为兴趣点数据的质量评估方法的选择和指标设计提供了参考。文献[52]引入了Benford定律的概念来实现对VGI空间数据质量的评估。以上方法均取得了良好的质量评估效果。文献[53—54]利用图像地理标记位置与所估计相机实际位置间的距离来实现对Flickr和Panoramio这两个众源图像空间数据的位置精度的评估,文献[55]则利用反向视域分析实现了对Flickr的地理标记位置精度的评估。此外,文献[34,47]在设计质量指标的同时,还提供了可用于VGI空间数据质量评估的Python和QGIS工具箱拓展工具,实现了VGI数据质量评估的工程化。
(3) 综合性VGI数据质量评估。一些研究则结合了以上两类方法,来更好地实现对VGI数据的质量评估。文献[56—57]结合官方参考数据集、研究区域内来自Flickr的带地理标记的图像数据集和OSM数据自身的历史和几何特征,实现了法国巴黎地区的OSM数据的质量评估。其结果表明,OSM数据的质量通常随地理对象的版本更新而提升,同时,兴趣点数据具有更明显的波动性。文献[58]则利用来自谷歌和必应地图的航空或卫星影像作为参考数据集,对参考数据集首先进行目视估计,并研究算法对目视估计结果进行分析,以最终实现对全球OSM路网数据的质量(完整性)评估。该方法发现OSM中全球道路网络完成度平均已达83%,具备良好的实用价值,同时,还发现在密度最高和最低的区域,OSM路网数据都具备良好的完整性,且OSM路网数据的完整性受到许多非技术因素的影响,如开放程度和国家政策。文献[59]结合遥感影像数据,实现对美国拉斯维加斯OSM建筑物地基线数据的质量评估。在该方法中,参考数据不再来自官方绘制的矢量地图数据,而是来自遥感影像中建筑物提取结果。最终结果表明,该方法可以有效地提取建筑物并实现对建筑物质量的评估,同时还能实现对OSM中建筑物地基线数据的补充。
总体来说,现有VGI数据质量评估的研究工作已相当全面,涵盖了各类空间要素,也有对VGI数据质量随时间变化的相关研究,在评估方法和质量指标方面也有不少创新。最新的研究报告表明,VGI数据(主要是OSM数据)质量在全球范围内具有很大的不均匀性,但是总体的趋势是一致的,即数据质量是一直在提升的。在欧洲(特别是西欧)和北美地区,OSM数据除了位置精度,其余各方面均可以与官方制图数据媲美,特别是在兴趣点的完整性、准确性和更新频率等方面,OSM数据是优于官方制图数据的。在亚洲和其他洲的一些发展中国家,OSM数据的完整性正在逐渐饱和,但是其他质量指标方面距离官方数据还有不小的差距。需要指出的是,现在所有的研究工作都是针对单一地图要素进行质量评价的,至今没有针对多个地图要素同时进行质量评价的研究工作。
2.3.1.2 VGI数据用户特征与贡献模式
VGI数据用户特征与贡献模式分析有助于研究人员更好地了解数据源,助力数据源的选择和相关研究。文献[60]对2006—2013年OSM的历史贡献数据进行了分析,发现了VGI社区的区域活动、社区发展、环境灾害等影响VGI数据贡献行为的内部和外部因素。文献[61—63]基于全球或地区的OSM历史数据,对OSM的数据贡献模式进行了分析,发现了OSM数据贡献中存在地区不平等和参与不平等情况,且贡献者在绘制不同对象时有优先级。同时,OSM数据贡献还会受到重大事件的影响,这与文献[60]的研究结果一致。文献[64—65]除了对OSM数据进行贡献模式的分析,还进一步实现了对数据贡献者的分类,这一结果将进一步帮助OSM数据的质量评估工作。文献[27,66]对Mapillary的用户特征和贡献模式进行了分析,讨论了Mapillary数据的地理分布和用户贡献等方面的历史变化,发现在Mapillary中同样存在用户贡献不平等的情况,且贡献存在明显的季节性变化。同时,研究人员还发现Mapillary贡献的不平等性小于OSM。文献[67]基于美国推特和Flickr的数据对二者的时空模式和贡献者特征进行了探索,发现二者的空间分布与美国的行政边界和路网存在高度相关性,且Flickr在旅游景点等特殊地点有更好的表现,同时还发现,推特和Flickr的数据贡献量与贡献者的教育水平有关。文献[68]使用了Panoramio和Flickr在美国加利福尼亚州的数据,对二者的照片贡献模式进行了探索和对比,发现二者呈现出不同的时空分布。Flickr的照片贡献量逐年上升,而Panoramio的照片贡献量呈现出逐年下降的趋势。同时,Flickr在大城市地区具有更好的数据量,而Panoramio则在特定的农村地区表现更好,如国家森林所在区域。文献[11]则对Wikimapia的贡献特征进行了分析,除了基础的时空特征分析外,该研究还通过采访前开发人员,对项目的数据模型和社区特征进行了讨论。研究发现,相较在高收入国家更受关注的OSM,Wikimapia在低收入和中等收入国家比OSM更受欢迎。同时,研究也揭示了Wikimapia平台热度逐步下降的情况,为平台的未来发展趋势研究提供了参考。
2.3.1.3 其他研究方向
除以上两个重点研究方向外。质量控制也是VGI数据实际应用前的重要一环[2]。同时,随着研究需求的变化,多源数据融合、用户隐私、VGI数据贡献中的破坏行为发现等研究方向也逐渐受到关注。在质量控制方面,文献[69]通过判定数据有效性、重复性等性质提出了一种VGI数据清理模型,实现了数据质量的控制和冗余数据的去除,为VGI数据的管理提供了便利。文献[70]开发了一种针对OSM数据的噪声处理模型,实现了OSM数据的质量提升。文献[71]提出了一种基于遥感影像匹配的方法,对OSM数据进行精度验证与改善。文献[72]则引入地理规则来实现OSM数据中不一致信息的发现,并将其用于OSM数据的质量保证与提升。在多源数据融合方面,文献[73]研究了OSM道路数据和兴趣点数据的众源地理信息融合方法,实现了VGI数据的一致性匹配和属性信息的扩充。文献[74]探索了Landsat和OSM数据的融合方法,用于支持快速土地利用/土地覆被制图。文献[75]以VGI道路数据为研究对象,提出了高效道路数据融合的算法,为全面和细节层次丰富的道路数据的生产提供了帮助。文献[76]通过评估多源开放地理数据内部及彼此之间一致性,为多源开放地理数据的集成提供了指导。文献[77]融合了来自法国公共机构的开放公共记录数据和来自维基百科的VGI空间数据,并使用遥感影像数据作为辅助,实现了对1920—2020年法国火车站的地理编码,并形成了地理编码数据集。文献[78]则尝试对4个法国地区的遥感影像地表覆盖解译VGI数据集进行数据融合,以更好地更新权威的土地利用数据库。在用户隐私方面,文献[79]在2011年就对地理网络服务(GeoWeb服务)中产生的实际或预期的隐私损害进行了探讨,并为解决此类损害提出了预防和补救措施。文献[80]从VGI活动的全环节中涉及的对象,包括主办方、贡献者和用户的角度,对VGI活动中的法律注意事项进行了概述。文献[81]则阐述了VGI数据获取和基于VGI数据的服务过程中的数据隐私和责任问题。文献[82]从技术角度出发,提出了一种集成的、基于组件的VGI隐私感知可视化方法,对降低志愿者的隐私风险提供了支持。在破坏行为发现方面,文献[83]对OSM中的数据破坏行为进行总结归纳和规则设计,建立了基于规则的破坏行为发现系统。文献[84]则进一步构建了OSM故意破坏行为数据的语料库,二者均尝试了对OSM中的数据破坏行为进行自动检测,并取得了一定效果。除此之外,文献[85]使用了德国海德堡地区轮椅使用者在城市旅行试验期间收集的多个GPS轨迹数据,对人行道数据进行了挖掘和建立,以丰富OSM数据中的人行道和轮椅路线信息。文献[86—87]分别建立了对VGI社区活动和志愿者动机进行分析的框架,以提高对VGI平台的社区协同方案、志愿者需求等方面的认知,为VGI社区的协同工作和持续运营提供了帮助。
以上这些针对VGI数据的理论研究提升了学者对VGI数据的认知,帮助了VGI数据的获取和质量控制,并为后续VGI数据的实际应用打下了基础。
2.3.2 利用VGI数据开展的相关研究和实际应用
VGI数据的应用领域十分广泛,涉及城市规划、土地利用、三维重建、灾害管理和旅游等各个方面。
在城市规划相关的研究领域,文献[88]基于Flickr数据对城市中心边界的发现和城市结构研究进行了探索。文献[89]使用Flickr数据来预测城市中建筑物的功能类别,为城市规划提供了指导。文献[90]则使用OSM数据对自行车相关基础设施进行了比较,为用户使用OSM寻找自行车基础设施和行业人员基于OSM数据进行程序开发提供了指导。
在土地利用方面,文献[91—92]探索了使用OSM数据自动生成土地利用和土地覆盖图的方法。文献[93]结合OSM数据和开放遥感数据,成功创建了土地覆盖图。文献[94]基于OSM数据和哨兵卫星数据,绘制出了城市公共绿地图。文献[95]则结合OSM数据与多源遥感影像,制作了撒哈拉以南的非洲地区城市扩张数据集,以帮助城市化相关研究。除OSM数据外,文献[96]以Geo-Wiki和Degree Confluence Project平台获取的VGI数据为参考,对土地利用遥感数据的分类精度进行了评价,为土地覆盖信息获取方式的选择提供了参考。文献[97—98]分别单独使用Flickr数据和结合Foursquare与Flickr数据,实现了对城市土地利用情况的跨国绘制。
在三维重建领域,文献[99]探索了基于OSM数据和来自开放地形数据的高度信息生成交互式三维城市模型的可能。文献[100]提出了使用OSM数据进行室内环境映射的方法,为基于VGI数据的高细节层次三维建筑物模型的生成提供了支持。文献[101]则基于OSM数据,进一步探索了高细节层次三维建筑物模型的自动化生成方法。文献[102]通过结合OSM数据和机载激光扫描数据,实现了对数字表面模型的持续更新,降低了数字表面模型更新的成本,并且为建筑物的变化检测提供了思路。文献[103]则结合OSM数据与多源遥感数据实现了基于VGI数据的LoD1级别建筑物三维重建。文献[104]结合多源VGI数据和用户交互,在不使用遥感和点云数据情况下实现了低成本的高细节层次简单建筑物的三维重建。
在灾害管理方面,文献[105]将VGI数据应用于快速洪水损失估算,为灾后重建计划提供了指导。文献[106]根据VGI数据分布范围广、实时性强的特点提出了一种基于VGI的灾害预警技术,使减少潜在受灾地区的人员和财产损失成了可能。文献[107]使用VGI数据和其他公开数据源(如政府开放数据)设计模型,以支持灾后响应和救援的决策。文献[108]使用OSM数据识别洪水风险元素,为灾害风险评估和应急计划的制定提供了帮助。文献[109]使用VGI数据来评估密西西比海岸在卡特里娜飓风后的灾后恢复情况,为灾后重建政策执行情况的总结和新政策的设计提供了参考。文献[110]基于受灾地百度热力图数据,提出了一种大数据驱动的救援物资需求动态估计模型,该模型主要针对城市洪水灾害设计,为城市洪水灾害中的物资调度提供了支持。文献[111]通过对包括众包制图在内的多种快速灾害信息收集方法进行评估,认为众包制图更受欢迎,且响应快、成本低,对应急响应速度的改善具有积极意义。
在旅游方面,文献[112]通过核密度估算方法对收集到的九寨沟景区的VGI图像数据进行多时空尺度分析,发现VGI数据对旅游景点关注格局的表征具有重要作用,为景点推荐和景点规划提供了参考。文献[113]提出了一种算法来生成风景路线选择数据集,以更好地支持旅行者的旅行路线规划。文献[114]则基于VGI和公共开放数据设计了多标准方法实现了西班牙埃斯特雷马杜拉(Extremadura)的乡村旅游潜力的评估,该结果能够辅助乡村旅游规划政策的制定。文献[115]开发了一套工作流程,使用Flickr数据来监控和评估地区的灾后旅游恢复情况,并对灾后旅游恢复的时空知识进行了探索,为如何实现灾后旅游业的恢复提供了支持。文献[116]设计了基于VGI数据的旅游路线推荐平台,丰富了旅行者游玩路线的选择。文献[117]结合Twitter和OSM数据实现了旅游景点的自动发现,为旅行者制定计划提供了帮助。
基于前文对众源地理信息发展现状的总结与分析,结合当前及未来一段时间的技术发展趋势,本节就众源地理信息发展的机遇与挑战提出一些思考和观点。
近年来,众源地理信息的发展迎来了巨大机遇。一方面,智能手机、自动驾驶等数据采集手段的革新使得普通民众贡献地理数据越发容易。如今,一位普通的爱好者可以随时采集附加位置信息的照片、视频、甚至街景的全景影像,也可以随时在移动设备上对已有的数据进行标注和编辑。在这一背景下,以OpenStreetMap和Mapillary为代表的众源地理信息平台都迎来了参与者的持续增长,积累了大量数据,为众源地理信息的应用奠定了基础。另一方面,地理空间数据的多源化已经成为时代的必然趋势。随着数字孪生城市等概念的提出,构筑现实世界全空间、高精度、高实时的数字表达成为现实需求,而传统的地理空间数据生产方法已经无法支撑这些场景,需要加入众源地理信息等额外数据源,构建地理实体多源、多角度的表达。在这一背景下,地理空间数据受到空前重视,众源地理信息作为达成全球制图的重要手段正受到更多关注。
既往研究加深了笔者对众源地理信息的理解。对数据质量的研究确认了众源地理信息的价值,讨论了众源地理信息相对于传统数据的优势与不足,为应用提供了指引;对用户和贡献行为的研究加深了对于数据生产过程的认识,提出可能的质量影响因素;而在城市规划、三维重建等领域的探索性应用则不断拓展着众源地理信息的可能应用范围,也为在使用数据时如何扬长避短提供了线索。这些研究不仅有助于有效利用众源地理信息,也为相关项目的发展提供了宝贵的参考。经过十多年的积累,众源地理信息已经不再是一种质量可疑、应用前景不明的新兴事物,而是经过众多研究证实的高价值数据源,众源地理信息的发展遵循独特规律,经由与传统数据生产不同的开放协作过程,产生可以支撑各类应用的开放数据。
在众源地理信息发展的初期,制约其发展的主要因素是数据质量问题。一方面,人们总是担心大量的匿名贡献者不具备测绘和地理方面的专业知识,从而导致所贡献的数据质量较低。另一方面,由于网络匿名性而存在的地图涂鸦和恶意修改案例时有发生,也让很多人觉得众源地理信息的质量不能保证。实践证明,众源地理信息数据质量的发展是符合林纳斯定理的,即随着贡献者数量的增加,数据质量会越来越好,因为错误或低质量的数据很快会被其他贡献者修改。恶意修改的行为可以通过平台的自动识别机制来避免,同时这种现象也因为贡献者社团的曝光和谴责大大地减少。
对于OSM这种已经在许多地区成功产出了高质量数据集的项目而言,区域不平衡性是数据质量的主要担忧的问题。除发达国家以外,大部分地区的数据质量仍存在着或多或少的不足。尽管随着OSM项目的整体进步这些地区的数据正逐渐改善,但能否最终达到发达国家的数据质量仍然需要时间检验。形成不平衡性的原因有很多,包括项目知名度,语言、文化、政治因素,甚至互联网基础设施等都可能为当地的VGI项目发展带来变数。人道主义OSM团队(HOT)在海地等地区的经验所表明,举办针对特定地区的制图活动可以解决部分问题,但是形成本土的志愿者社区可能才是区域数据质量问题的最终解决方案。
纵观OSM的发展历史可以看出,这个平台是因为2010年1月12日的海地地震而走入公众视野的。因为全球志愿者的通力合作,OSM在短短两天时间之内绘制了海地整个国家非常翔实的道路交通地图,给联合国救援队伍提供了强有力的地理信息保障。借助全球媒体的报道,OSM变得广为人知,全世界的热心志愿者找到了通过绘制地图来贡献爱心的机会。在以后的发展过程中,OSM数据虽然被应用于很多不同的领域,但是人道主义制图始终是其发展的主要推动力。Mapillary实际上是在OSM的基础上发展起来的,在最开始的几年中,它的主要贡献者与OSM的是同一群人,他们使用全球协作制图的理念来采集街景数据作为OSM数据的有效补充。
其余的VGI项目(表2)影响力都很有限,无论是数据本身还是贡献者,都局限于某个特定的区域或国家,远远达不到覆盖全球的规模。主要的原因是它们的平台形式和所收集的数据跟OSM和Mapillary几乎完全重叠,很难吸引新用户的注意力。所以,新的VGI平台必须要采集完全不同于OSM和Mapillary的地理信息数据,这样才能用足够的动机去吸引志愿者的参与。近些年来,也有几个收集三维建筑物和无人机数据的VGI平台,但是参与贡献者寥寥无几。制约这些平台发展的主要原因是交互式可视化的限制问题,贡献者上传的数据不能直接与虚拟地理空间衔接起来,产生一种即时即视的满足感,在很大程度上削弱了贡献者的成就感,从而失去参与贡献的动力。
以三维建筑物VGI平台为例,除上述可视化的原因外,制约其发展的还有如下几个关键因素:①利用软件手工制作LoD3(带有精细的屋顶和墙面模型)的三维建筑物模型的难度比较大,对志愿者的基本技能要求比较高;②由于建筑物在第三维上所表现出来的复杂几何信息,在线三维编辑的工作量往往比较大,志愿者往往容易失去耐心;③在线三维编辑需要志愿者自己上传质量比较好的墙面照片,给志愿者提出了额外的要求,不仅要有照相设备还需要外业工作;④多人在线三维编辑大大增加了计算量,无论是对志愿者终端设备还是对平台服务器都提出了很高的要求;⑤三维屋顶很难通过志愿者手工绘制的方式产生。除此之外,人们对三维建筑物的理解还停留在三维可视化的阶段,具备语义信息的精细三维建筑物并没有真正地被应用到实际工程中。因此,人们满足于谷歌地球和微软虚拟地球中的三角网加纹理式的三维建筑物模型,觉得没有必要动手在一个不知名的平台参与贡献三维建筑物数据。
尽管如此,还是有理由相信,未来覆盖全球的精细三维建筑物模型一定并且只能通过众源的方式来完成,因为许多贫穷和欠发达国家和地区没有能力和资源来完成这样的任务。首先,现有的技术已经可以基本完成利用高分辨率遥感影像自动化制作覆盖全球的三维LoD2建筑物数据的任务。在此基础上,VGI三维建筑物平台的主要任务是结合OSM和高质量街景数据交互式制作三维建筑物,主要是门窗和其他墙面物体的绘制工作。随着互联网技术、三维可视化技术和硬件设备的快速发展,三维在线交互式操作将会变得更加方便和容易,从而降低三维操作的技术难度和复杂度。其次,人工智能的发展将会自动识别三维墙面目标,使得志愿者的主要工作由三维绘制变成选择任务和手动纠错,工作量因此大大减少,理想情况下,用户甚至无须掌握任何三维建模技能就可以完成大部分信息的录入。最后,未来智慧城市的发展,会展现出对三维精细建筑物模型的巨大需求,惠及人们日常生活的方方面面,这必将给全球志愿者贡献数据提供巨大的动力。
众源地理信息的进一步应用仍然面临着巨大的挑战。相关研究尽管在数据完整性和几何精度等方面对众源地理数据给出了积极的评价,但是仍然发现其在属性完整性等方面存在显著不足。此外,数据的不平衡性是制约众源地理信息数据应用的关键问题,不同数据类型、不同区域的数据质量可能存在巨大差异,这使得数据应用的成功经验可能很难复制。
数据质量评价方面,尽管基于信度的内部质量模型是一个有前景的方向,距离形成一个更精细、更具可操作性的质量评价方法仍有不小的差距。多源数据融合方面,众源地理信息还不能很好地与其他来源的数据进行深度融合增强,达到克服自身固有缺陷的目的。从根本上说,众源地理信息的生产作为一种匿名的群体行为,很难准确刻画背后的贡献者动机。以OpenStreetMap为例,平台存在着个人贡献、组织贡献、批量导入、机器人自动修正等迥然不同的贡献行为,还可能包含恶意破坏的行为,很难用单一的模型对这些行为进行刻画。而从贡献来源对最终数据进行阐述和评价构成了更大的难题。
随着相关平台的发展,不断积累的数据为笔者研究和理解这些问题提供了更多素材,但是也对数据处理能力提出了更高的挑战,如何在数据增长的背景下,仍能在较大规模的时空尺度下开展分析是今后需要不断投入的议题,需要研究者不断集合大数据与云计算技术的最新成果,开发更加强大的处理工具。
众源地理信息的开放平台使得每个人都有机会随时随地贡献和获取地理信息数据,这也给人们带来两个关键问题:隐私和信息安全。未来,众源地理信息必定包含更加丰富的数据类型,在时空领域的覆盖也会变得更广和更细。在这种情况下,既保护普通人的隐私不被他人公布在公共平台,又保护贡献者的隐私不被他人获取,是一个亟待解决的难题。此外,如何保证信息安全也是众源地理信息平台面临的一个重要难题。由于数据贡献的匿名机制,涉及国家安全的敏感信息可能被有意或无意地公布在互联网上。对此,相关机构需要尽快制定详细和切实可行的众源地理信息数据采集标准,同时通过制定法律和完善众源地理信息平台机制等方法来解决这个问题。
本文首先对众源地理信息进行了严格的定义和类别划分,然后对主动式地理信息的相关研究和应用做了系统性的梳理。通过对1995年以来1025篇VGI相关文献的统计与分析,笔者发现人们普遍关心众源地理信息数据的数据质量问题,因此很多已有的研究聚焦于数据质量评价,包括对数据质量新方法和新指标的研究,以及通过研究贡献者的贡献时空行为来间接验证数据质量。近些年来的相关研究证明,随着用户的持续贡献,众源地理信息数据的数据质量不断提高,特别是开放街区数据,数据的完整性越来越好,几何精度与位置精度也在不断提升,在很多国家和地区开放街区数据的数据质量已经被证明超过了官方数据和商业数据。由于覆盖面广、免费获取和数据质量相对较高,近些年来,众源地理信息数据越来越多地被当成重要的试验数据应用到地理和测绘相关的研究工作中。同时,越来越多商业公司和公共机构开始使用众源地理信息数据来支持相关应用和公共服务。
总体而言,众源地理信息数据的发展是非常正面和积极的,越来越多的人开始接受和支持这种新型的地理信息数据采集方式。笔者也看到,众源地理信息数据在研究和应用方面起的作用越来越大,正变得不可或缺。很多国家和地区的测绘主管部门也逐渐开始重视现有的众源地理信息平台,甚至把它们视为测绘地理信息的一个重要辅助数据来源。特别是在数据更新方面,众源地理信息显示出传统测绘无法比拟的灵活性和实时性,因此很多国家在制定数字化战略的时候已经把众源机制(或市民参与)定义为一种重要的数字化策略和手段。
未来,随着众源地理信息的发展与普及,相关的科学研究方面也会涌现出更多更新的机遇。第一,众源地理信息数据质量的评估会继续被当成一个重要的研究课题。当前的评估方法和质量指标需要根据众源地理信息数据的特征重新调整,从而形成一套新的空间数据质量评价体系和理论标准。第二,在众源地理信息平台方面,需要研究并集成更多的人工智能方法与技术,用于自动识别目标和自动探测错误,从而减少志愿者的手工操作。第三,跨平台众源地理信息数据呈现出巨量、多时空尺度、异质、异构的特性,因此需要定义能兼顾这些特征的新的特征描述算子,用于准确高效的时空操作(如数据融合、时空查询、数据增值和再生产等任务)和数据管理工作。第四,在可视化方面,目前的众源地理信息平台和其他可视化平台一样,无法很好地解决信息堆砌和非空间信息的可视化问题,因此需要从理论上去研究在任意比例尺变化的情况下更符合人们视觉感知的地物符号化方法。此外,还需要研究个性化的可视化方法。第五,目前针对志愿者的研究,仅限于对其贡献行为模式的简单统计分析。未来的众源地理信息平台将会有更多的志愿者随时随地贡献更多种类的数据,这使得笔者有可能去研究更多的与人类活动有关的各种问题,从而更好地改善环境、更有效地应对各种自然灾害。与此同时,需要从平台和志愿者两个角度同时研究伦理问题,以解决包括隐私在内的各种社会问题。
可以预见,随着通信技术和移动终端设备软硬件技术的快速发展,众源地理信息的发展前景会越来越好,并很快变成与传统测绘一样重要的空间地理信息数据获取方式,甚至有可能逐渐取代传统测绘,从而变成主流的空间地理信息采集方式。在这个发展过程中,长远来看,众源地理信息必定会发展成为市民科学(citizen science)的一个重要分支,被融合在人们工作和生活的每一个角落。在此之前,还需要解决一系列的难题和挑战。因此,建议尽快发展自己的众源地理信息数据平台,从而保证在任何情况下的数据更新和数据自主权。