薛 冰,许耀天,赵冰玉
(1.中国科学院沈阳应用生态研究所,辽宁 沈阳 110016;2.辽宁省环境计算与可持续发展重点实验室,辽宁 沈阳 110016;3.中国科学院大学,北京 100049)
地理学是从空间视角揭示区域人地系统“格局-过程-机制”的学科[1-2]。大数据时代产生多尺度、大体量、多类型的数据资源[3],提升数据覆盖度、分辨率、可获得性等,为拓展和深化地理学综合研究的理论和方法[4]以及提升对地理空间的认知、表达、模拟和预测能力[5]提供数据支撑,为深入认知物质空间发展格局、过程和机制,探索复杂开放的区域人地系统结构、层级、物质和能量流动关系提供决策支持[6]。当前,以兴趣点(POI, Points of interest)数据为主的地理大数据更加突出对“人”“地”的全时空及全样本记录,具有粒度细、范围广、更新快等特征,促进地理大数据增值转向,构建“知识发现”与“决策服务”的桥梁[7],如地理信息平台的建设是提升国土空间精细规划与区域可持续发展的关键一步。
POI数据是基于位置服务的核心数据,包含地理要素名称、地理位置及分类等关键基础信息,为出行导航、地点查询等提供关键支撑。随着互联网电子地图服务和数据采集能力的增强,POI数据的信息纵深和应用场景均得到长足发展,从对地理要素基本信息记录转向于跨领域属性的综合集成,实现对地理要素的整体全息表达,提升地理大数据价值挖掘和地理信息智能服务能力,如基于POI数据认识地理空间格局[8]、发现地理要素相互作用关系[9]、评价地理空间功能[10]等,为解决各类自然与人类经济发展息息相关的实际应用问题提供重要支撑。
面向POI数据引领的地理学研究思维和方法的变革与创新[11],本文从应用领域、方法与尺度多视角总结POI数据在地理学的创新应用及进展,基于数据获取、质量及价值发现3方面视角讨论POI数据应用于地学研究时存在的问题,分析问题产生的可能原因及影响因素,并提出具体可行的应用策略及价值指向。
POI数据的流行及广泛应用为地理学研究提供新的思维和研究范式[12],加快对地理系统及其与人类活动关系的精细化认知进程。本文对POI数据在地理学领域取得的诸多成果进行阶段性总结,从应用领域、研究方法和研究尺度多视角综述POI数据的应用及趋势,旨在为新时期POI数据在地理学中的创新应用提供新的总结和知识发现。
POI数据,相较于统计、社会调查及遥感影像等传统数据,具有体量大、精度高、覆盖面广、语义丰富等特点,是精细化理解区域空间过程和人地关系的重要信息来源。主要应用于:1)物质空间功能结构识别。现有研究主要关注要素及综合要素体的格局过程及功能特性等问题,应用于空间资源评价[13]、产业空间发展[14]、国土空间规划[15]等领域,推动对“自然-人文”复合地理系统的精细化认知,提升地理学为区域可持续发展服务的能力[5],如武凯华等[16]提出识别城市群核心区发展边界新方法,罗雯等[17]从多维视角测度并探究商圈功能多样性与其活力的定量化关系。2)人类活动的空间表征与预测。该方向研究以POI数据记录要素的社会-经济属性为依托,挖掘数据蕴含的人类活动信息,感知与分析人类生产生活的全领域、全过程及空间组织变化,实现地理大数据同传统地理学研究范式的互补互动[18],如王录仓等[19]识别城市居住地、工作地及职住关系, Liu等[20]和陈明远等[21]基于多尺度模拟区域空间功能意向。3)人地关系耦合机制探析。人地关系素来是地理学研究的核心[5],该领域基于以POI数据与其他地理大数据(手机信令、社交媒体签到等)为主的多源数据融合体系,发现事物或现象在空间、时序和尺度中存在的显性或内在隐含关联机制,挖掘复杂开放的人地系统耦合作用机理,并提出人地关系协调途径和可持续发展模式[22],如薛冰等[23]对具有典型人地关系的沈阳市老工业区的房价影响因素进行了探究,梁雨廷等[24]对“美丽浙江”建设进行了评估。但地理系统是一个复杂开放的综合体,系统内要素间存在多重非线性关系,推动POI与其他地理大数据糅合,综合自然、经济和社会等多视角发现地理要素发展的显式或内在隐含信息是全面系统认知地理系统的重要方向之一。
POI数据研究方法体系分为两个阶段。早期的数据信息挖掘是基于空间分析和统计分析展开,空间分析用于POI数据处理及地理要素空间特征提取,揭示地理要素的时空格局及关系,发现地理系统的地域发展模式及演化特征,方法包括密度分析[25]、方向与质心分布分析[26]、空间自相关分析[27]与网络分析[28]等,如薛冰等[29]采用核密度估计等方法分析东北城市空间结构及其行业构成机制;统计分析基于时间尺度关注POI数据的规模、覆盖面积、时空增长速率,辅助空间分析说明地理要素体量的变化幅度(增长量、增长幅度及差异性等),方法包括DBSCAN聚类分析[30]、回归分析[31]、层次分析法[32]等,如李江苏等[33]采用DBSCAN聚类法分析郑州市现代服务业空间聚集特征。随着新一代信息技术的发展,POI数据内涵趋于广义化,蕴含“社会-经济-地理-生态”等多重潜在价值。机器学习通过建立学习模型,重新组织已有数据结构,识别和提取深层次有效信息,是构建虚拟地理空间、实现地理系统监测、管理和决策的关键技术[7],研究方法包括人工神经网络[34]、随机森林[35]、贝叶斯时空模型[36]、地理探测器[37]、元胞自动机[38]等,如董文钱等[36]利用贝叶斯时空模型对城管事件数据进行时空分析,汪晓春等[39]基于决策树进行规划选址模拟等。但受到计算机科学与地理学学科交叉融合程度影响,机器学习算法构建与地学应用开发衔接不足,未来应进一步增强信息地理学科算法开发与应用工程的综合与集成水平,为深入挖掘大数据价值与理解地理现象及事物提供关键手段。
目前,地理学领域的POI数据应用正逐渐由单一尺度转向多尺度耦合。单一尺度包括微观、中观和宏观三个视角,微观尺度主要以单体建筑物、城市绿地等为主,主要目的在于实现基于资源精确定位与公共服务设施选址等更加精准的地理空间干预与治理,如承达瑜等[40]基于POI语义信息表达构建了面向商场定位的商场客流分析系统。中观尺度研究则以社区、街道、乡镇等为研究对象,着力于实现对地理空间分布格局、交通可达性或产业集聚特征等的识别与评价,如张家旗等[41]基于POI对郑州市旅游资源的空间格局与便利度进行分析与评价。宏观尺度则主要关注城市群等区域地理系统的宏观空间结构布局,能够推动国家长三角一体化与黄河流域高质量发展等区域重大战略有效实施[18],如何艳虎等[42]通过POI等数据构建珠江三角洲未来人口精细化空间分布模拟模型,为区域发展规划与生态环境保护提供科学参考。随着地理系统开放性增强及流空间的跨尺度流动,多尺度耦合研究是观察宏观-中观-微观多种尺度物质空间格局演化或人类行为活动的重要手段,有利于实现市区、街道与道路格网等多尺度空间单元耦合[43],如盛强等[44]基于吉林市POI等数据在城市尺度与街区尺度分别对商业分布与聚集进行量化分析,探究不同尺度空间规律的差异性。目前,多尺度多功能要素的复合化[43],人类社会与地理环境之间的物质能量转换及其耦合过程研究已经成为新时期地理学学科发展的重要趋势[45],但在地理学学科领域中,研究往往集中在单一的中观与宏观尺度层面,微观尺度与多尺度耦合研究尚且较少,未来对于人地系统要素在微观尺度、多尺度间的相互作用研究,以及为获取较好的结构-功能效益,实现人-地协同,从宏观尺度到微观尺度探索更为合理的物质空间结构,均成为地理学发展面临的一系列重要挑战[45]。
POI数据不仅为地理学研究带来了很大的便利,同时也实现了传统的地理学思维模式向数据化思维、全样本思维和关联性思维的转变[46]。但POI数据作为一种新兴的大数据手段,基于POI的地理学应用研究也面临着时间序列不完整、属性挖掘不充分以及较低的空间覆盖率问题,导致相关精细化研究的开展难以实现,同时也为空间规划与治理以及数据获取算法优化等带来了一定挑战。
POI大数据虽在地理学领域得到广泛应用,但相关研究多是基于某一时间节点展开,实现对物质空间的静态分析[23],少有涉及到长时间序列的动态研究。该现象产生的可能原因有:历史数据在数据获取端口被持续覆盖、早期POI数据质量欠缺(表现在覆盖面、精度不足、更新速率偏低等)、数据共享机制不完善、研究人员未能及时获取并存储历史数据等。长时间序列数据的缺失是深入挖掘地理要素空间发展过程及其与人类活动关系演化的精细化认知面临的重要挑战之一,亦是总结区域地理系统发展规律及实现区域可持续发展的关键基础信息。
“产生-发展-消失”是地理要素完整生命周期的动态演化过程,亦是地理要素发展及人地关系演化的微观体现。在数据获取能力有限的情况下,缺失数据可通过模拟预测进行补充和完善,为地理学研究提供重要的数据支撑与保障,如路新江[47]针对POI快照数据的碎片化和分布不均问题,借助应用时序分析法,对POI演化趋势进行了形式化建模与动态预测,有效表征了地理要素的生命周期演化过程。未来有望借助史料记录、地方政策、统计年鉴以及区域分布格局等多种信息源,形成长时间序列的POI数据集,提升POI大数据对地理学研究的支撑能力,加强对人居环境动态过程的认知。
网络信息技术和数据采集能力的提升促使POI数据属性信息的全面化和多样化,使其发展为包含“经济-社会-地理-生态”等多领域信息的新型地理空间数据[45]。目前研究虽以多源数据为驱动力,但并未挖掘数据间的相关性与依赖性,使其成为相互影响、相互依存的多源数据融合体系[48]。POI数据蕴含地理要素名称、地址与经纬度等基础信息,结合丰富语义实现对地理要素的量化评估,作为“媒介”推动数据的融会贯通,提升对POI数据“涌现价值”的挖掘,如薛冰等[15]借助地理要素的公众认知度,赋予POI表征的不同类型地理实体面积权重,量化其实际影响力水平;贾斐雪等[49]将POI数据与街景图片等结合,依据各类POI的规模特征进行面积综合评分。
地理大数据的关联与融合是实现对地理要素的全方位、多领域刻画,探索人类发展与地理环境的相互关系的重要手段。如王毓乾等[50]将POI数据与夜光遥感、微博签到数据相结合,推动城市空间结构的精细化认知,精准衡量人地空间耦合关系;塔娜等[51]将POI数据与大众点评、出租车到达数据融合,精确评估城市建成环境对城市活力的影响度,为城市精准规划提供科学支撑。当前研究集中在直接基于POI数据从宏观层面探析某一产业或地理要素的分布特征,未来可加强POI与AOI数据、建筑轮廓数据、社交媒体数据与遥感影像等多源数据融合,深入挖掘具有潜在价值的多重信息,实现对地理要素全方位、多领域的精细化描述,形成统一的精细化分类指标体系,从而扩宽POI数据在地理学研究中的广度和深度。
POI数据的本质特征是识别地物的功能特性,但受数据采集能力、获取途径与方式以及处理过程模型设计差异等因素的影响,获取到的数据在地物功能识别、空间位置及类型识别等方面存在着一定的偏差性,且不同来源的POI数据存在分类标准体系不统一、地理编码与匹配技术不一致等问题,一定程度降低了数据的应用效率、数据分析的准确性乃至研究结果的完整性与可靠性。
数据质量评估是验证数据精度、挖掘数据质量问题以及提升数据有效作用能力的重要手段。Fu等[52]发现电子地图POI与实地调查数据的最佳多项式拟合优度R2仅为0.94;赵冰玉[53]通过实地调研发现沈阳体育学院百度POI的地物识别完整率为52.08%,位置准确率为88.46%。为提升数据质量,促进使用效率与可靠性提升,赵冰玉[53]将百度与高德数据进行融合,地物识别完整率提升14.58%~34.28%,空间位置准确率提升0~11.54%,罗国玮等[54]提出一种多特征相似的多源POI匹配方法,将综合准确率与召回率两个指标的F1值由44.07%提升到87.55%。但面向大体量数据质量的验证和提升,目前已有研究基于POI数据的位置与属性信息进行融合[55],但如何验证融合后的数据质量[55]并实现POI数据的全自动化校正等问题值得进一步全方位深挖,以期未来实现POI数据高匹配度的全样本覆盖。
数据是地理学研究的核心和基础。POI数据作为地理大数据的重要主体,是现代地理学发展和数据集约型知识发现的重要驱动力[56]。目前,地理学已立足区域经济及生态文明建设等诉求,以静态或短时间序列POI数据为数据源,对多尺度地理主体的形成机理、发展模式、耦合关系及影响效力等进行深入研究,但因受数据获取能力的限制,对长时间序列地理要素演化过程及机制关注不足,应进一步立足于学科数据管理与共享需求,构建长效共享机制,并关注历史数据保存及获取问题,提升科学研究数据支撑能力,推动地理学精细化认知自然地理及人文地理空间进程。
数据质量是决定地学实证研究和决策支撑服务水平的重要影响因素。数据质量验证是地学研究的基础关键问题,但受到技术水平、数据体量等因素的影响,并未根据POI数据特征形成完整且高效的评估指标体系、方法及实证分析。为评估POI数据数字化物质世界的程度及精准度等,发现数据存在的问题及可能的影响因素,为提升源头数据质量提供有效支撑,应鼓励地理学及相关学者就地开展实证研究,积累多类型区域“小样本”研究数量,发现百度、高德等数据源在获取不同类型数据的特性,结合地理学理论及方法,说明最佳应用场景,实现数据价值的最大化。
地理学的发展目标在于协调人地关系、解决资源环境问题,推动区域可持续发展。目前,地理学已在解决科学及社会面临的主要挑战中发挥重要作用,如国土空间规划、地缘政治和环境污染治理等。大数据作为新型战略资源,是提升对地理系统精细化认知能力,在决策支撑和社会服务中实现新跨越的重要支撑。目前,以POI数据为主体的地理大数据仍处于“碎片化”记录阶段,无法实现对地理要素的整体全息表达,如何从语义、时空、尺度等角度实现数据在社会、经济、生态等多领域的全面集成,构建地理环境全景动态推演平台,为国土空间治理和可持续发展提供决策支撑。
随着大数据与智能时代的到来,POI大数据的应用为推动现代地理学发展提供了重要支撑。本文针对应用领域、方法与尺度多视角总结了POI数据在地理学研究领域的创新应用及进展,发现在机器学习及GIS等驱动下,POI数据的地理学研究逐渐从单一视角转向多尺度耦合研究,推动实现对物质空间、人类活动表征预测及人地关系耦合机制的精细化认知,促进多尺度区域决策支撑能力不断提升。但受数据质量、获取水平及信息挖掘能力等客观因素的影响,POI数据在地理学研究领域仍然无法发挥其全部潜力,在今后及未来一段时间,应着重构建POI及其他地理大数据的长效共享机制,积累多时相数据,增加小尺度实地质量评估的实证研究,加快促进地学数据增值导向,在知识发现、决策支撑和知识传播等方面发挥更大价值。