智能空间信息处理与时空大数据分析探索

2023-01-03 11:44陈一祥赵鹏祥王玉龙晔0徐源泉
地理空间信息 2022年12期
关键词:信息处理时空数据挖掘

秦 昆,许 凯,吴 涛,徐 敏,黄 静,陈一祥,冯 霞,赵鹏祥,王玉龙,张 晔0,徐源泉,毕 奇

(1. 武汉大学遥感信息工程学院,湖北 武汉 430079;2. 中国地质大学(武汉)地理与信息工程学院,湖北 武汉 430078;3. 岭南师范学院计算机与智能教育学院,广东 湛江 524048;4. 中国科学院空天信息创新研究院遥感科学国家重点实验室,北京 100101;5. 北京应用气象研究所,北京 100029;6. 南京邮电大学地理与生物信息学院,江苏 南京 210023;7. 湖北工程学院物理与电子信息工程学院,湖北 孝感 432000;8. 瑞典隆德大学自然地理与生态系统科学系,隆德S-223 62;9. 中国电子科技集团公司第二十七研究所,河南 郑州 450047;10. 国家基础地理信息中心,北京100830;11. 广西师范大学环境与资源学院,广西 桂林 541006)

人工智能和大数据在21世纪的快速发展,为遥感测绘地理信息的创新和发展带来了前所未有的机遇和挑战。遥感大数据、智能化测绘、时空大数据分析已经成为21 世纪新的研究范式的典型特点。2008 年,Nature发表专刊《Big data:science in the petabyte era》[1];2011年,Science发表专刊《Dealing with data》[2];2012年,美国正式展开了“大数据研究和发展的倡议”计划;2015年,我国国务院印发了《促进大数据发展行动纲要》的通知。这些标示着21 世纪已经进入大数据时代。大数据具有体量大(volume)、速度快(ve⁃locity)、模态多样(variety)、真伪难辨(veracity)、价值大(value)等特点。大数据时代的GIS(geo⁃graphic information system,地理信息系统)面临着大数据体量大、流质性、模态多样,以及大数据难以挖掘隐含价值等挑战[3]。在遥感和对地观测领域,随着对地观测技术的发展,人类对地球的综合观测能力达到空前水平,遥感数据呈现出明显的“大数据”特征[4]。但是,相对于遥感数据获取能力,遥感信息处理能力仍然较低,在实现从数据到知识的转化上明显不足。因此,迫切需要研究遥感大数据自动处理和数据挖掘方法[4]。遥感大数据处理技术、分析技术,与人工智能的结合是一条切实有效的途径。人工智能自1956 年达特茅斯(Dartmouth)会议提出至今已有60多年,人工智能在模式识别、知识工程、机器人等领域已经取得了重大成就。特别是进入21世纪蓬勃发展的深度学习更是掀起了人工智能空前的研究热潮。人工智能已经在各行各业、各学科深入发展。人工智能是多学科交叉融合的产物,涉及到哲学、认知科学、行为科学、脑科学、生理学、心理学、语言学、逻辑学、物理学、数学,以及信息论、控制论和系统论等许多学科领域,人工智能应在交叉学科研究中实现创新[5]。

人工智能、大数据,与遥感科学、地理信息科学的交叉融合,产生了智能空间信息处理[6]与时空大数据分析[4]等研究方向,是本学科重要的研究趋势和研究热点。本文提出了一种智能时空信息处理与时空分析的研究框架,并对该框架的基础理论、关键技术进行分析,还对智能空间信息处理、空间数据挖掘、时空分析三个关键技术进行了综述,介绍了部分实验研究。本文拟为智能时空信息处理与分析的研究探索一条可行的研究路径。

1 智能时空信息处理与时空分析研究框架

智能时空信息处理与时空分析是目前海量时空数据累积过程中的迫切需要,它主要包含的关键技术有:智能空间信息处理技术、空间数据挖掘及图像挖掘技术和时空大数据分析技术等多个方面。研究智能时空信息处理与时空分析技术有助于加强对海量时空数据处理的能力,提高地学分析的深度,开拓地学决策分析的重要技术手段。

智能空间信息处理(intelligent spatial information processing,ISIP)是指利用人工智能的理论与方法,利用计算智能方法,如神经计算、模糊计算、进化计算等方法实现空间信息的智能化处理[6],属于地球空间信息科学(geo-spatial information science,Geomat⁃ics)与人工智能(artificial intelligence,AI)的交叉融合,是地球空间信息科学的重要发展方向[6]。从空间信息的获取到空间信息的应用和可视化都可以借助人工智能技术来提高空间信息的获取效率和应用效果。地球空间信息科学是以全球导航卫星系统(global navigation satellite system,GNSS)、地理信息系统(geographic information system,GIS)、遥感(remote sensing,RS)为主要内容,并以计算机和通信技术为主要支撑,用于采集、量测、分析、存储、管理、显示、传播和应用与地球和空间分布有关数据的一门综合和集成的信息科学和技术[7]。

时空数据是同时具有时间信息和空间信息的数据,是最重要的大数据之一,其智能化处理和分析是以测绘、遥感和地理信息技术为中心的地球空间信息学的重要途径和发展契机[8-9]。时空大数据分析是通过时空大数据的智能处理和分析,从时空大数据中提取时空信息、挖掘时空知识的过程和方法。

本文结合相关研究和本文作者的长期探索,提出了如图1 所示的智能空间信息处理与时空大数据分析的研究框架。该研究框架包括基础理论、数据获取、关键技术三大部分。其中,关键技术部分包括智能空间信息处理技术、空间数据挖掘及图像挖掘技术、时空大数据分析技术3个方面。

图1 智能信息处理与时空分析的研究框架

1.1 基础理论

智能空间信息处理与时空大数据分析是多学科交叉融合的学科新方向,深入分析并梳理其基础理论是开展持续深入研究的重要基础,具体包括概念格、商空间、粒计算、云模型、数据场、认知物理学、空间统计、空间聚类、空间关联等。

1)概念格:概念形成是人脑学习的重要特征,从概念形成去探讨人脑学习,通过数据库中大量数据的学习从而产生概念和知识的过程,是一个行之有效的途径。概念就是在头脑里所形成的反映对象的本质属性的思维形式。概念具有内涵和外延两部分,如果能够建立一种数学的形式化的数据结构将概念的内涵和外延以及概念与概念之间的不同层次的抽象关系表达出来,便能对数据挖掘和知识发现的过程进行有效的分析和处理。概念格(也称为形式概念分析)理论提供了此项功能,即利用概念格理论所形成的形式化体系可以很好地运用数学的方法描述概念的形成过程,以此为基础进行数据挖掘,产生了基于概念格的概念聚类方法、分类方法、关联规则挖掘方法等[10-11],并可以有效地应用于空间数据挖掘与图像挖掘[12]。

2)商空间:人类智能的一个公认特点,就是人们能从极不相同的粒度上观察和分析同一问题。人们不仅能在不同粒度的世界上进行问题求解,而且能够很快地从一个粒度世界跳转到另一个粒度的世界,往返自如,毫无障碍。这种处理不同粒度世界的能力正是人类对问题求解的强有力的表现[13]。商空间理论基于等价关系实现论域的划分,从而实现细粒度的原问题(X,f,T)转化为粗粒度的商层上的问题([X],[f],[T]),是基于等价关系的一种划分[13]。基于这种“划分”,可以将几乎所有的数据挖掘方法都联系起来,建立一个统一的数据挖掘框架,将聚类分析、分类分析、关联规则挖掘统一在该框架中,这样有利于在统一的框架下研究各种数据挖掘方法,便于多种挖掘方法的集成,也便于数据挖掘结果的直接应用[14]。

3)粒计算:粒度原本是一个物理学概念,用来度量微粒的平均大小。粒计算理论借用这一概念,用来实现对认知过程中概念或知识在不同层次或不同角度上的度量。粒计算理论模拟人类从不同层次,不同角度观察和处理问题的策略,根据需要在不同的粒度空间内求解问题,并且对计算中数据的不确定性具有很强的适应能力。粗糙集、商空间、模糊信息粒等理论和方法都相继在粒计算理论下进行了自身的延拓和扩展。目前,粒计算发展成为信息处理的一种新概念、新方法,覆盖了所有和粒度相关的理论、方法和技术,主要用于描述和处理模糊、随机、不完整和海量的信息及提供一种基于粒和粒间关系的问题求解方法[15]。

4)云模型:模糊性和随机性是不确定性的两个重要方面,传统的不确定性方法往往单独从模糊性,或者单独从随机性角度研究不确定性,不够全面,具有一定的片面性和局限性。如果能够寻找到一个能既考虑随机性,又考虑模糊性的模型,并且能兼顾二者之间的关联性,那么对于不确定性的表达和分析将会更加全面和科学。针对此问题,李德毅[16]提出了云模型理论,即提出利用一个统一的云模型实现定性概念与定量描述之间的不确定转换,并以此为基础发展了一系列关键技术,目前已经发展成为一个重要的不确定性处理和分析理论,并且正在不断发展和完善[17]。

5)数据场:数据场是一种不确定性知识发现的物理学方法,它借鉴物理学中场的概念来描述客体间的相互作用,将数据点看作是具有辐射能力的点,在数域空间的影响力形成了数据场[17]。给定样本集合D={x1,x2,…,xn},假设每个样本可用p个观测属性或变量进行测量。若将每个样本观测值视为一个数据点,则n个样本就构成p维特征空间的n个数据点。设每个数据点所处位置都是一个虚拟对象或“质点”,其周围存在一个作用场,且位于场内的任何对象都将受到其他对象的联合作用,则在整个特征空间上可确定一个数据场[17]。数据场理论目前广泛应用于空间聚类[18]、图像分割[19]等领域。

6)认知物理学:认知物理学将自然语言作为人工智能研究的切入点,借鉴原子模型、场和层次结构描述从数据到信息再到知识的人类认知过程,认知物理学的核心是云模型、数据场和可变粒度层次结构[17]。借鉴物理学中的原子模型表示概念,以自然语言作为切入点,将概念作为语言的基本模型,利用云模型表示概念,研究人类思维从定量到定性的双向转换过程。借鉴物理学中的场描述客体间的相互作用,认知物理学通过考察数据对象间的相互作用并建立场来描述原始、混乱、复杂、不成形的数据关联,揭示不同抽象程度或者概念层次上的知识。借鉴物理学中的粒度描述知识的层次结构,形成了数据、信息、规则和知识之间的可变粒度层次结构[17]。

7)空间统计:空间统计是对具有空间分布特征数据的统计分析理论和方法,是空间数据挖掘和图像分析的重要基础理论之一。空间统计的出发点是空间事物或现象的空间依赖或空间关联性。地理学第一定律表明:地理事物或现象在空间分布上是相互关联的,并且这种关联性与空间距离相关,通常距离越接近,空间关联性就会越强[20]。空间统计学被广泛应用于地质、生态、农业、土壤、林业、气候气象、海洋等环境学科以及人文地理、空间计量经济、流行病等社会经济学科。

8)空间聚类:空间聚类把特征相近的空间实体数据划分到同一类中,类间差别尽可能大,类内差别尽可能小。空间对象根据类内相似性最大和类间相似性最小的原则分组聚类,并据此导出空间聚类知识。例如,根据图像各像素的灰度值对图像进行自动聚类,从而实现图像的有效分割。

9)空间关联:空间关联知识是找出空间实体或实体的空间属性之间的关联关系,找出空间实体的特性数据项之间频繁同时出现的模式,主要指空间实体间的相邻、相连、共生和包含等关联规则,并且同时给予支持度和置信度作为关联知识的不确定性的度量。空间关联规则是空间数据挖掘的重要内容之一。

1.2 数据获取

数据获取是智能空间信息处理与时空大数据分析的前提和基础。随着遥感技术、传感网技术和通信技术的发展,数据获取手段越来越丰富。既有传统的测绘感知的数据获取手段,也有各种社会感知的数据获取手段。从传统的对地观测,发展为既对地观测,也对人观测[21]。

1.3 关键技术

关键技术包括智能空间信息处理、空间数据挖掘、时空分析等,将在第2部分详细介绍。

2 关键技术与实验分析

2.1 智能空间信息处理

智能空间信息处理是地球信息科学与人工智能的交叉融合。智能空间信息处理是利用计算智能(神经计算、模糊计算、进化计算等),以及认知物理学(云模型、数据场、粒计算等)、空间统计等方法从空间数据中提取空间信息的过程和方法。神经计算是指基于人工神经网络模型的智能计算方法,模糊计算是指基于模糊集、粗糙集等不确定性理论和方法的计算智能方法,进化计算是指基于遗传算法、蚁群算法等的计算智能方法[6]。以下重点介绍基于云模型、数据场和空间统计的智能空间信息处理方法。

2.1.1 云模型智能空间信息处理

云模型是一种综合考虑模糊性和随机性的不确定性分析理论,是不确定性人工智能的重要模型[17]。基于云模型可以发展一系列的智能空间信息处理方法,如云模型图像分割[22]、云模型空间聚类[23]、云模型遥感图像分类[24]等。这里以图像分割和遥感图像分类为例,对云模型智能空间信息处理方法进行说明。

图像分割或图像分类是将图像分解成若干个簇的过程,分解过程需要解决2 个问题:①图像数据如何生成簇?②簇如何表达?

提取图像簇的一个基本作用是从图像中提取出概念,并忽略无关紧要的细节,从而降低问题求解复杂度,因此也可以被看作是通过对图像中蕴含的概念进行提取和整理的过程。云模型提供了一种图像簇的形成方法—云变换[17,25]。云变换通过对数据的频率分布实现概念的提取,将数据的频率分布分解成若干个正态云模型的叠加。若给定数据X 的频率分布函数为f(x),云变换自动将数据分解成若干个正态云模型Ci(Exi,Eni,Hei)的叠加,如公式(1)所示。

式中,n为变换后生成云模型的个数;ai为加权系数;Exi为第i个云模型的期望值;Eni为第i个云模型的熵,Hei为第i个云模型的超熵。

以直方图来表示图像像素灰度的频率分布,则可以通过对图像直方图进行云变换实现图像的分割或分类。以TM遥感影像第5波段为例,统计图像直方图如图2 所示。利用云变换对图像直方图进行处理,则可以实现遥感图像的非监督分类。

图2 TM遥感影像第5波段及其直方图

直方图中包含多个峰和谷,对应图像中不同灰度的目标或背景,使用云变换可以将其分割成多个部分,每一部分代表图像中的一个区域。将图1 中的直方图通过云变换表示为3 个云模型的叠加,则可以将遥感图像非监督分类为3 个地物类型,如图3所示。

图3 基于云变换的遥感图像非监督分类

2.1.2 数据场智能空间信息处理

数据场是一种不确定性知识发现的物理学方法,可以应用于空间聚类[18]、图像分割[19,26]、人脸识别[27]等领域。这里以图像分割为例说明数据场智能空间信息处理方法。

借鉴场的思想描述图像本身存在的相互作用,充分兼顾图像全局认知和邻域局部关联,在不同的论域空间构建图像数据场,借鉴粒度层次的思想,通过数据场的类谱系图生成和质点的自适应迁移形成多层次、多视角的粒结构,在不同的粒度世界之间跃升实现对信息的抽象化和具体化,利用数据场的可变粒度层次结构实现图像粒化的计算[26]。如图4 所示,从数据到信息的阶段,利用数据场的抱团特性在图像不同决策空间上建模,利用影响因子的自适应优选,在最优的粒度层次下刻画图像粒内部对象之间和图像粒之间的分布规律,完成从像素特征值到质点势值的映射,通过图像粒场尽可能发现图像粒内部对象和图像粒之间的自然抱团特性。从信息到知识的阶段,在图像粒场的基础上,分别利用图像数据场和图像特征场实现多层次、多视角粒结构的粒度转换,同时选择相应的划分方式展开基于粒化的计算,完成从质点势值到像素标记的映射[26]。

图4 数据场图像分割的粒计算原理及解决方案示意图

2.1.3 基于空间统计的智能空间信息处理

空间统计是研究空间分布数据统计规律的学科,其主要的理论方法包括空间自相关统计量、空间变异函数、空间插值、空间回归、地理加权回归等。空间数据具有空间依赖性(空间自相关性)和空间异质性,地理学第一定律和第二定律分别揭示了空间数据的这两种特性。空间自相关统计量(如Moran’s I、Geary’s C 和Getis-Ord 指数)可用于度量空间数据的空间依赖性,揭示其空间分布模式。空间变异函数可以用于建模空间数据的结构特性,考虑这种特性的克里金模型能更好地实现空间离散数据的插值和预测。空间回归和地理加权回归分别实现了对空间依赖性和空间异质性的模型化表达,已成为建模地理变量之间空间关系的主要方法。

空间统计已被广泛用于遥感和地理空间数据的结构模式分析和空间关系建模。对于遥感数据,各地物类的影像特征具有显著的结构性[28],该特性对进一步的影像解译和信息提取具有重要的作用。空间自相关统计量可用于描述遥感影像的空间纹理和结构特征,并结合机器学习算法实现影像的地物分类[29]。空间变异函数可用于建模影像的空间结构模式,影像中不同的地物类由于具有不同的空间结构特性,也就对应不同的空间变异函数曲线,因此通过空间变异函数提取的影像特征可以用于区分影像中不同的地物类[29-30]。例如,它已被用于高分辨率卫星影像的结构特征建模,并进一步用于实现建筑区的提取[31]。对于地理空间数据,空间统计模型由于考虑了空间依赖性和空间异质性,在揭示地理变量之间的空间关系方面具有独特的优势。以新冠疫情事件为例,利用时空地理加权回归模型可以建立疫情初期湖北省各城市的确证病例数与人口流动因素之间的时空关系,揭示人口流动对新冠疫情确诊病例的影响[32]。

2.2 空间数据挖掘

空间数据挖掘是从空间数据(包括图像数据)中挖掘知识的过程[33-34]。这里重点介绍3个方面的技术和方法:基于概念格的空间数据挖掘方法、基于商空间和粒计算的图像理解方法、基于深度学习的遥感目标识别方法。

2.2.1 基于概念格的空间数据挖掘方法

空间数据挖掘是从空间数据中挖掘知识的过程,可以理解为从空间数据中形成空间概念的过程[12]。概念格(也称为形式概念分析)提供了一种数学的形式化的数据结构,可以将空间概念的内涵和外延,以及空间概念之间的不同层次的抽象关系表达出来,可以对空间数据挖掘与知识发现的过程进行有效的分析和处理[12]。

概念格的构建过程其实是一种概念聚类的过程,是一种从低层概念进行综合从而得到高层概念的过程,这个过程体现了从数据中提取隐含概念的过程。Hasse 图是概念格的一种可视化的表现形式,通过Hasse 图的绘制,可以将概念之间的泛化与特化关系进行直观的可视化表达。

秦昆[12,35]将商空间和形式概念分析理论结合起来,建立了一个概念驱动的统一的图像数据挖掘框架,并重点对光谱(颜色)特征、纹理特征、空间关系特征等方面进行了实验研究。针对图像纹理特征数据挖掘过程中伴随着高层概念的产生这一特点,吴涛[36-37]在此基础上引入概念格来挖掘关联规则。利用概念格的建格算法直接产生了频繁封闭项集,避免了不必要的比较,减少了比较次数,提高了算法效率,另外也避免了一些冗余规则的产生。

2.2.2 基于商空间及粒计算的图像理解方法

粒计算理论模拟人类从不同层次,不同角度观察和处理问题的策略,根据需要在不同的粒度空间内求解问题,粒度计算的理论与方法从观念上突破了传统优化思想的束缚,不再以数学上的精确解为目标,对计算中数据的不确定性有很强的适应能力,具有广泛的应用前景[38]。粗糙集、商空间、模糊信息粒等理论和方法都相继在粒计算模型下进行了自身的延拓和扩展[39]。粗糙集和商空间是从等价的观点来描述粒度,研究的对象是集合,是一种“清晰的粒度”[40]。模糊信息粒使用模糊集来表达信息的粒度,粒之间没有明确的界线,是传统信息粒化的一种推广[41]。

粒化是将信息或数据分解成若干个簇的过程。以图像数据为例,像素由于距离、灰度值或纹理等特征难以被区别而构成的簇可以称为“图像信息粒”。图像的粒化过程可以从两个角度考虑:一是直接对像素论域进行划分,实现粒化过程;二是对像素的特征计算不同的粒度,通过特征的粒化实现像素论域的划分。另外,粒度层次的构建也是粒计算方法的一个关键问题,通过构建图像的粒度层次树可以实现图像信息粒在不同粒度层次下对图像数据的覆盖。

商空间理论是粒计算的重要代表性理论。关泽群[42]探讨了图像概念形成中涉及商空间关系分析的抽象化与具体化,综合与分析过程,并借助将商空间关系分析和人工智能融为一体的商空间法加以描述,进而确立了较完整的商空间下的图像分析理论。秦昆[12]提出将商空间理论与概念格理论相结合,对图像数据挖掘与知识发现的机理进行研究,通过商空间理论建立图像数据挖掘的形式化分析体系,在该形式化分析体系的指导下,利用基于概念格理论的数据挖掘算法,从不同粒度的图像世界中提取出不同层次的概念,分析概念之间的包含与被包含关系,从而挖掘出图像数据中隐含的潜在有用的规律性知识。李刚[43]以问题求解的商空间粒度计算理论为基础,将像素分类方法和对象级分类方法相结合,提出了基于像素和面向对象的商空间合成方法。

2.2.3 基于深度学习的遥感场景分类和目标识别方法

遥感场景分类与目标识别是遥感图像解译的一项重要工作,随着深度学习技术的迅猛发展,使用深度学习技术开展遥感场景分类和目标识别已成为目前的主流方法。相比于传统的“特征工程+分类器”方法,深度学习方法具有较强的表征学习能力,更容易学习到遥感图像的高层语义信息,因此在识别表现上具有较大的提升。目前主流的基于深度学习的遥感场景分类和目标识别方法通过主干网络提取高层语义特征,然后通过多层次特征融合、优化损失函数、构建可分性更强的潜在特征空间、改进高层次语义特征理解能力等方法,进一步提升深度学习在遥感场景识别的性能[44]。

相比于自然图像,遥感图像成像面积更大,场景内的空间结构信息更加多样,目标分布更加复杂,现有深度学习方法获得的全局语义表征仍不足以有效描述遥感场景,导致分类表现仍不尽如人意。一种可行的思路是通过局部语义建模来增强对遥感场景中的关键区域的特征响应,以提高遥感场景的特征表达能力。所谓局部语义,是相对于全局语义的一个概念。具体而言,一张遥感场景图像整体有一个语义标签,但该图像的不同区域包含的地物信息不同,可能对应于场景整体的语义标签,也可能对应于其类别的语义标签。

毕奇[45-46]等研究了多种增强局部语义描述能力的深度学习遥感场景识别方法。第一类方法是通过多层次注意力机制,在深度网络特征提取的过程中,反复加强关键局部区域的特征响应,提高局部语义层面的特征区分度,从而进一步提升识别效果。第二类方法是通过多实例学习进行局部语义建模,将每个图像块视作一个实例,每个实例本身均可获得一个类别层级的特征表达[47-48]。此类方法在预测推理阶段,可以获得每个图像块所包含的场景语义类别信息,对于遥感场景的细粒度语义理解具有重要意义。第三类方法是通过构建诸如类别峰值响应图的可分度更强的特征表达,来实现局部语义描述[49]。

图5 多实例深度卷积神经网络遥感图像场景分类

2.3 时空分析

2.3.1 轨迹聚类与分析

行为轨迹大数据中隐藏着具有强时空相关性的时空聚类模式,蕴含着人们丰富的行为模式和活动规律。行为轨迹大数据的高性能时空聚类与社会分析是地理信息科学与工程领取迫切需要解决的关键科学问题[50]。考虑时空相关性的行为轨迹时空聚类挖掘过程包括:①行为轨迹数据预处理;②时空相关性分析;③属性特征提取;④考虑时空相关性的时空聚类;⑤时空聚类模式挖掘。行为轨迹时空聚类模型既是计算密集型的,也是数据密集型的,因此应分别从算法并行和数据并行两方面考虑,按照分布式数据库对数据并行的要求,研究行为轨迹的数据划分策略和弹性资源分配方法,按照高性能算法设计流程和方法,进行时空聚类算法的高性能优化求解[51]。行为轨迹时空聚类的应用包括:热点区域提取[52-53]、异常轨迹探测[54]、交通拥堵分析[55-57]等。

城市热点区域通常是指商业较发达、居民出行次数较多、交通流量较大的区域,在某种程度上是人们密集出行的体现。空间聚类是从人类移动轨迹中提取和分析城市热点区域的重要方法之一。基于轨迹聚类的城市热点区域提取是将表征人类活动的轨迹点或轨迹线划分成若干个类的过程,每个类代表一个城市热点区域。轨迹聚类过程中需要解决两个关键问题:轨迹相似性度量、轨迹划分。通过对代表乘客出行出发地和目的地的轨迹点进行空间聚类,可以有效地提取某一时刻城市的热点区域[52]。

异常轨迹是指轨迹数据中不同于大多数驾驶者常规选择路线的轨迹。利用这些异常轨迹可以分析驾驶者或乘客的异常行为,可以为城市交通管理和社会管理等提供决策支持。轨迹聚类是异常轨迹探测的常用手段之一。例如,以武汉市2014年5月的出租车轨迹数据为数据源,选取武昌火车站为出发地、武汉火车站为目的地,获取它们之间的所有载客轨迹,利用异常轨迹探测方法进行实验,提取出发地和目的地之间的正常轨迹聚类簇和异常轨迹,并进一步推断异常轨迹产生的原因[54]。

城市交通拥堵是车辆移动过程中产生的一种时空聚集现象,通过对缓速轨迹进行聚类分析,可以有效地挖掘城市交通拥堵区域[55-56]。城市交通拥堵存在一定的时空变化模式,基于数据场理论可以对城市拥堵区域进行分级,探索城市交通拥堵的时空变化规律[55],并利用形态学的方法,可以挖掘不同拥堵级别下城市交通拥堵区域从形成-增长-移动-缩小-消散的全生命周期变换模式[57]。

2.3.2 融合遥感与社会感知的城市功能区提取

传统的城市功能区提取与分析研究主要是采用土地利用现状图、问卷调查等数据进行分析和处理,往往存在数据单一、分析不够全面等问题,更多是对地物的物理属性的感知和观测,难以对城市的社会属性进行感知和观测。随着传感网技术、通信技术等的发展,对社会属性的社会感知成为传统遥感的物理感知的一种重要补充[58],综合应用传统的遥感数据和社会感知数据对城市化问题进行综合分析是一种切实有效的思路[59-60]。在这一背景下,张晔[61]基于高空间分辨率遥感影像、建筑物轮廓数据、开放街区地图Open⁃StreetMap(OSM)数据、出租车轨迹数据和兴趣点数据等多源地理数据,充分挖掘城市用地的自然物理属性和社会经济属性信息,从而提取城市空间内部各地区的功能属性,分析各组成部分之间的相互作用和功能分布模式[61-62]。

2.3.3 地理多元流分析

世界是一个相互关联的网络。物质、信息、能量等的移动或交换嵌入地理空间形成的地理多元流网络,为从地理和网络角度研究全球性问题提供了新的视角。如何构建多主题、时变的地理多元流网络,识别其网络结构、时变规律和关联模式,并为解决全球性的人口移动、航空交通、国际关系、国际贸易等问题提供支持,是迫切需要解决的问题。全球尺度地理多元流网络化挖掘及关联分析的研究框架包括:多源数据收集与整理、地理多元流网络构建与结构识别、地理多元流网络演化分析、地理多元流网络关联分析等。

国际关系(这里主要指国际政治关系)包括国家/地区之间的合作、冲突,以及积极关系、消极关系等,可以理解为国家/地区之间的一种信息流。国际关系研究正从国家/地区间的关系研究走向日益开放和多元化的网络空间关系研究。社会网络分析已经成为国际关系研究的一种新范式[63]。从地理视角探究国家/地区间各种关系的地缘政治,与社会网络分析对“关系”的关注非常吻合,可以借助社会网络分析研究地缘政治环境[64]。国际关系具有复杂性、及时性、时空性等特点,迫切需要时空大数据分析技术为其提供新的思路和技术手段。利用社会网络分析和时空大数据分析技术进行国际关系网络化挖掘是一种有效的新思路[65]。

国家/地区之间的贸易往来形成了以国家/地区为节点、贸易关系(贸易额或贸易商品和服务量)为边的国际贸易流网络。国际贸易流的网络化挖掘是研究国际贸易格局的重要方法。国际贸易流网络是一个典型的复杂网络[66],即:节点度分布具有无标度性,网络具有较高的平均聚集系数和较短的平均最短路径等。复杂网络为国际贸易流的研究提供了重要的理论和方法。将社会网络分析与空间分析相结合,可以有效地分析“一带一路”沿线国家之间的原油贸易关系,从而为贸易政策的指定提供重要的基础[67]。

航空航班数据是一种典型的流数据,基于航空航班数据的网络化挖掘是重要的航空流数据分析方法,目前基于航空网络的研究主要涉及网络测度和统计特征的演化分析[68]、网络的恢复力与稳定性分析[69]、航空网络与其他网络协同演化分析[70]、网络连通性和可达性分析[71-72]等。

网络化挖掘是研究宏观人口移动的重要方法,其思路是将个体的移动聚合到大尺度地理区域上,形成以地理单元为节点、地理单元之间交互关系为边的空间交互网络,通过步长分布、重力模型拟合、社区提取等方法分析其背后的地理格局[73]。

3 总结与展望

智能空间信息处理与时空分析是地球信息科学与人工智能、大数据、深度学习等跨学科交叉融合的新兴研究方向,是未来重要的学科发展方向和趋势。本文结合学科发展趋势,根据研究组的长期探索,提出了一种智能空间信息处理与时空分析的研究框架,将其中的关键技术总结为三大方面(智能空间信息处理、空间数据挖掘、时空分析),并深入剖析和综述了9 个方面的代表性关键技术(云模型智能空间信息处理、数据场智能空间信息处理、空间统计智能信息处理、基于概念格的空间数据挖掘方法、基于商空间及粒计算的图像理解方法、基于深度学习的遥感场景识别方法、轨迹聚类与分析、融合遥感与社会感知的城市功能区提取、地理多元流分析),该研究框架不一定全面,但是代表了我们提出的一种可行方案和思路。

未来的研究方向包括:①与时俱进,不断优化智能空间信息处理与时空大数据分析的研究框架;②加强基础研究,深入发展和探索智能空间信息处理与时空大数据分析的基础理论;③紧跟学术前沿,不断引入先进的人工智能理论与方法,优化智能空间信息处理的理论和方法;④面向空间决策支持目标,沿着“空间数据-空间信息-空间知识-空间决策支持”的过程,不断发展空间数据挖掘及图像挖掘的理论和方法;⑤开拓创新,针对时空大数据的特点和难点,不断发展时空大数据分析技术。

随着智能空间信息处理与时空大数据分析技术的不断发展,必将推动遥感测绘地理信息的创新、融合发展和转型升级。让遥感测绘地理信息的技术在新型基础测绘建设、智慧城市、数字经济等领域服务国家战略建设并惠及全社会。

猜你喜欢
信息处理时空数据挖掘
“毫米波雷达系统设计与信息处理技术”专题征文通知
改进支持向量机在特征数据挖掘中的智能应用
跨越时空的相遇
东营市智能信息处理实验室
基于Revit和Dynamo的施工BIM信息处理
探讨人工智能与数据挖掘发展趋势
镜中的时空穿梭
基于事故数据挖掘的AEB路口测试场景
玩一次时空大“穿越”
面向地震应急响应的互联网信息处理