王卷乐,李凯,严欣荣,郑莉,韩雪华
1.中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101;
2.中国矿业大学(北京) 地球科学与测绘工程学院,北京 100083;
3.中国科学院大学,北京 100049;
4.防灾科技学院,三河 065201;
5.江苏省地理信息资源开发与利用协同创新中心,南京 210023
地理对象涵盖了多种地球或行星表层空间的地理要素,是对地理综合体的空间分布规律、时间演变过程和区域特征的一种直接或抽象表达,是自然与人文科学的交叉,具有综合性、交叉性和区域性特点(傅伯杰 等,2015;傅伯杰,2017)。地理对象包括岩石、大气、水(含冰冻圈)、生物和人类圈这5 大圈层在地球表层中的自然和人文要素。自然属性要素对象包括地貌、土地类型、土壤、沙漠、冰川、冻土、戈壁、气候、流域、湖泊、河流、潜水、植被、地表环境、自然疫源地等各类单一要素或其地理综合体。人文属性要素对象包括人口、社会、经济、文化、政治、旅游、公众情感(观点、情绪、满意度、喜好等)等各方面。如何获取这些包括自然属性和人文属性的海量地理要素信息,是大数据时代开展地理科学研究的基础,也是地理学大数据驱动科学发现研究范式转变的根本。
地理要素的时空分布信息来源于地理大数据的挖掘和分析。对地观测卫星、物联网传感器、社交媒体和网络公共平台获取了海量的地理要素相关数据。挖掘和应用这些数据是研究地理规律的重要途径,对这些地理要素提取信息的过程,也是对其进行特定分类的过程。由于以往受制于数据源和大数据处理技术的限制,自然地理要素多只由科学考察与调查、人工或人机交互的遥感解译等方式获取,人文地理要素信息则主要通过社会调查和统计等方式提取。这二者之间少有交集。然而,随着大数据和人工智能应用的快速崛起,海量的遥感数据和网络社交媒体文本都是产生地理要素信息的大数据来源,如何智能地提取地理对象的自然属性和人文属性成为地理学共同关注的问题。
本文从地理要素分类角度,回顾了人工智能和机器学习的历程,探索不同地理要素的分类方法,分析对比了基于遥感大数据的自然要素与基于文本大数据的人文要素信息的分类提取方法,并分析其差异和共性,预期使两类对象的分类提取都能够从大数据和人智能应用中惠益。
人工智能(Artificial Intelligence)的最初理念是使用计算机来构造复杂的、拥有人类同样智慧的机器(Eisenecker,1995)。人工智能的实现包括专家系统、进化计算、推荐系统和机器学习(Machine Learning)等方式(Mitchell,1997)。人工智能的发展经历了萌芽、发展、瓶颈、复苏、爆发共5 个时期(图1)。20 世纪40 年代,M-P 神经元模型被提出(McCulloch和Pitts,1990),将神经元的理念引入计算机模型。到20世纪50年代,人工智能算法得以发展,诞生了感知器(Rosenblatt,1958)、梯度下降法等算法。Novikoff(1962)推导并证明感知器收敛理论,这为感知器学习规则的应用提供了理论基础。60 年代至70 年代,受限于计算机性能和复杂非线性化的问题,人工智能发展遇到了瓶颈。80 年代开始,人工智能技术开始复苏,机器学习成为一个独立的研究方向,创立了第一本机器学习专业期刊《Machine Learning》,人工智能领域的权威期刊《Artificial Intelligence》出版机器学习专辑。期间也诞生了在深度学习领域影响深远的反向传播算法(Rumelhart 等,1988)、卷积神经网络(Lecun 等,1989)、决策树(Quinlan,1986)等。20 世纪90 年代后,人工智能算法爆发。自1998 年前苏联统计学家Cortes 和Vapnik 在《Machine Learning》上发表SVM(支持向量机)起,以SVM 为代表的统计学习便大放异彩(Cortes 和Vapnik,1995)。与此同时,集成学习与深度学习的提出,成为机器学习的重要延伸。集成学习的核心思想是通过多个基学习器的结合来完成学习任务,最著名的是Schapire(1990)提出的Boosting 算法、Freund 和Schapire(1997)提出 的AdaBoost 算法、Breiman(1996)提出的Bagging 算法以及Breiman(2001)提出的随机森林算法。Hinton 和Salakhutdinov(2006)提出深度学习,其核心思想是通过逐层学习方式解决多隐含层神经网络的初值选择问题,从而提升分类学习效果。
图1 机器学习发展历程Fig.1 History of machine learning
机器学习具有可移植性强、鲁棒性高的特点,广泛应用于地理对象数据的分类研究,例如各类遥感影像地物信息提取、社交媒体文本信息挖掘、网络舆情话题分类等(杜培军 等,2016;郑治豪等,2018;徐军 等,2007)。在中国自然科学基金地理学科2021 年项目申请中,深度学习和机器学习作为关键词的使用频数分别为第1 和第7(高阳等,2022)。这进一步证实了机器学习等信息分类方法已成为当前研究热点。
1970 年代以来,遥感分类技术随着对地观测数据的积累不断发展。机器学习在遥感影像分类中的应用包括土地利用/覆盖制图、目标检测、变化监测以及回归方法等(Salcedo-Sanz 等,2020)。不同尺度的土地利用/覆盖信息制图是遥感影像分类的主要驱动力。20世纪80和90年代,多数的分类都采用像元作为分析单元,每个像元被标记为一个单一的土地利用/覆盖类别。以像素为基本分析单元的一系列分类技术如无监督(K-Means 和ISODATA 等)、有监督(即极大似然、人工神经网络、决策树、支持向量机、随机森林等)、混合分类(即半监督和融合监督和无监督学习)被开发出来(Alajlan 等,2012;Zhang 等,2005)。机器学习算法被广泛应用于各类自然地理要素的监测和制图中,并被集成在一系列经典的遥感分类软件中。
许多研究人员发现当这些像素级分类方法应用于异构对象区域时有一定的局限性,因为对象的大小可能比像素小得多(Li 等,2014)。一个像元不仅可以包含单一的土地利用/覆盖类型,还可能包含多种类型的混合。因此,针对像素混合问题的模糊分类和光谱混合分析技术在20 世纪90 年代发展起来(Adams 等,1995;Wang,1990)。这些基于亚像素的分析方法已经应用于多种地理对象的研究中,包括植被和城市分析(Legleiter 等,2022;Zhu 等,2022a)。机器学习参与亚像素的分类,可为混合像元分解(于丰华 等,2022)、亚像元制图(任武和葛咏,2011)等任务提供模型方法的支持。
随着超高分辨率传感器的推出,面向对象的分类方法自20 世纪90 年代末开始发展(Blaschke,2010;Yu 等,2006)。面向对象的方法将许多具有相同属性的像素分组为一个对象,“对象”而不是单个像素被认为是分析的基本单位(Walter,2004)。机器学习算法在多种尺度的面向对象分类中都表现出良好的稳定性和精度水平(宋茜,2016;赵丹平 等;2016)。除土地利用/覆盖的遥感影像分类之外,机器学习方法结合夜间灯光影像被用于描述城市发展程度、绘制难民安置地图等,广泛应用于地理对象中的人文要素研究(Xu等,2021)。
近年来,获取遥感数据的对地观测平台数量呈指数级增长,越来越多的在轨和计划发射的卫星,以及可获得高空间分辨率数据的新平台(如无人机等)都让机器学习算法在遥感应用中富有前景。目前在遥感分类或信息提取中,机器学习的应用不局限于单次或某一步骤使用,而是贯穿在数据获取、处理、融合、分类或验证的全过程(Salcedo-Sanz 等,2020)。例如在数据预处理阶段,卷积神经网络、支持向量机等机器学习方法能够实现云、阴影、霾、缺失数据和噪声的处理,使遥感数据具有更高的质量。此外机器学习方法还能够融合不同遥感传感器数据,生成更高时空分辨率影像。
文本挖掘也称网络文本数据挖掘(Web Text mining),是指从大量网络或社交媒体文本数据中抽取事先未知的、可理解的、最终可用的信息的过程。文本挖掘的典型任务包括文本分类、文本聚类、语义标签提取、观点抽取、情感分析、文档摘要和文本主题模型等。文本分类技术TC(Text Categorization)作为组织和管理文本信息的有效手段,主要是将无标签文档自动分类到预定的类别集合中。文本分类是自然语言处理中最基本的任务之一,主要包括情感分析(SA)、主题标签(TL)、新闻分类(NC)、问题解答(QA)、对话行为分类(DAC)、自然语言推断(NLI)和事件预测(EP)等。
文本分类研究模型分为统计模型和深层学习模型。统计模型中,朴素贝叶斯(Naïve Bayes Classifier)是Maron(1961)基于应用Bayes 定理提出的算法模型。该算法主要使用先验概率来计算后验概率,由于结构简单而被广泛使用。Cover和Hart(1967)提出K 近邻算法(KNN)对未标记的样本进行分类,每个样本都可以用它最接近的K个邻近值来代表。分类与回归树CART(Classification and Regression Trees)由Breiman(1984)提 出。CART 决策树使用“基尼系数”来选择和划分属性,不仅可用于分类也可用于回归。Quinlan(1993)基于信息增益比对特征进行划分,提出C4.5 算法,通过“增益率”来选择最优划分属性。Cortes 和Vapnik 提出支持向量机(SVM)来解决模式识别的二元分类问题(Cortes 和Vapnik,1995)。Joachims(2002)首次使用SVM 方法对文本分类,该模型将每个文本表示为一个向量。随机森林(RF)是一种重要的基于Bagging 的集成学习方法(Breiman,2001),可以用来做文本分类和回归等问题研究。
深度学习模型中,Socher等(2011)、Socher等(2012)、Socher 等(2013)提出RAE(Recursive AutoEncoder)、矩阵—向 量RNN(Matrix-Vector RNN,MV-RNN)和递归神经张量网络RNTN(Recursive Neural Tensor Network)。Kim(2014)提出将卷积神经网络CNN 应用到文本分类任务,利用多个不同尺寸大小的卷积核来提取句子中的关键信息(类似于多窗口大小的单词组),能够更好地捕捉局部相关性。Tree-LSTM 通过改进经典的递归神经网络,引入LSTM 中的记忆单元和门机制,从而更好地进行词向量的组合得到整个句子的向量表示(Tai,2015)。Bahdanau等(2016)首次将Attention 机制应用于自然语言处理领域中。2017 年谷歌团队提出采用自注意力机制(self-Attention)进行文本分类,可以减少训练的时间(Vaswani 等,2017)。HAN(Hierarchical Attention Networks for Document Classification)是一个针对文本分类任务的层次化模型,通过“词—句子—文章”的层次化结构来表示一篇文本,通过对文本中重要性不同的句子和词给予不同“注意力”,提高模型的可解释性(Yang 等,2016)。之后有学者提出了将这些深度学习模型进行混合,将CNN、RNN、LSTM、GRU和Attention结合用于文本分类。
地理要素的分类流程主要分为数据获取、数据预处理、特征构建或模型训练以及精度评价等环节。面向自然要素和人文要素的分类流程如图2所示,其在相应环节中存在异同。数据预处理阶段,影像分类需要辐射校正、影像裁切等,而文本分类则需要语料清洗、文本分词、去停用词等。特征信息构建阶段,影像分类需要构建易于目标地物分类的特征信息,比如归一化差值植被指数NDVI(Normalized Difference Vegetation Index)、归一化差值水体指数NDWI(Normalized Difference Water Index)等。这些特征能体现植被、水体与其他地物的差异,在植被、水体要素分类中能起到较好的效果。文本分类则需要利用文本词典和语料,在特征空间里度量各个词语的相关性。常用的词向量模型有Word2Vec、BERT 等。在模型训练过程中,参与的模型往往都是可以在遥感和文本分类中通用的,比如SVM、KNN、K-Means、决策树等。这是因为图像和文本都在上述方式中进行了数字化处理,输入神经网络模型的数据为格式化后的数字信号。对影像数据和存在语序问题的文本语料,针对性地选择符合特定目标的分类器往往能取得更好的分类效果。比如,CNN 常用于图像分类,RNN、Transformer、LSTM 常用于文本分类。相较于影像分类大量文本语料中的分词、词向量构建等预处理,以及分类器构建过程中的语序问题,是文本分类中难点。
图2 遥感影像和网络文本分类主要流程Fig.2 The main process of remote sensing image and web text classification
应用案例从单一地表要素(水体)和复合地表要素(土地覆盖)遥感分类以及社交媒体文本分类角度出发。水体分类和土地覆盖分类揭示遥感影像分类的具体流程和方法,社交媒体文本分类则对应文本分类方法。
3.2.1 遥感影像单要素水体分类
以蒙古国北部的图拉河为例,利用深度学习监督分类技术可实现水体的高效提取。图拉河流经蒙古国首都乌兰巴托、图尔省以及布尔干省,经色楞格河汇入贝加尔湖。该地区的土地覆盖类型主要有草地、林地、耕地、建筑区以及水体5大类。其中,草地覆盖最广,林地主要位于乌兰巴托以及中央省东北部,耕地分布在中央省西北部,建筑区主要位于乌兰巴托市,水体以图拉河为主。Landsat 8 影像中条带号131027、132027、133027这3 景影像可覆盖研究区。其中131027 影像用于模型训练,131027、132027、133027 用于预测与验证。
图3为水体提取的技术路线图。图拉河水体提取的流程主要分为图拉河区域影像数据获取、数据预处理及标签数据构建、水体提取模型Pixelbased CNN 模型构建(Li 等,2021)、模型训练和预测、精度评价,共5 部分。Pixel-based CNN 水体提取模型采用多次卷积和拼接操作,兼顾了地物的纹理特征和光谱信息。
图3 水体提取技术路线Fig.3 Technology route of water extraction
图4 土地覆盖分类技术路线Fig.4 Workflow of landcover classification
训练过程中Pixel-based CNN 模型精度高达99.90%。在3景影像中选取了水体和非水体验证点数量各164 个,验证精度为92.07%,Kappa 系数0.84。对比传统NDWI、MNDWI 阈值法以及UNet、DNN 等深度学习方法,Pixel-based CNN 拥有最高的精度。Pixel-based CNN 模型提取的河流连续性强,减少了阴影被误分为水的情况。
3.2.2 遥感影像土地覆盖复合要素分类
Gong 等(2013)利用Landsat 数据通过监督分类算法获得了30 m 空间分辨率的全球地表覆盖分类结果。光谱特征作为土地覆盖分类的主要特征,在全球人工选取91433个训练样本,分别采用随机森林、决策树、最大似然以及支持向量机四种机器学习方法进行分类。全球土地覆盖分类的总体工作流程如图5所示。它包括数据预处理、训练和测试样本收集、使用时空邻域场景的局部训练样本逐场景进行图像分类,以及最终的精度评估。
图5 主题抽取与情感分类框架Fig.5 Topic extraction and sentiment classification framework
通过人工选取的38664个样本,验证得到支持向量机方法的分类精度最高,总体精度为64.89%,其次依次为随机森林(59.8%)、决策树(57.9%)和最大似然(53.9%)。在此基础上,Gong 等(2019)依托Google Earth Engine 和Sentinel-2 影像数据研制了全球10 m分辨率的土地覆盖产品。
Chen 等(2015)选取多源的遥感影像数据作为数据源,包括Landsat TM、ETM+以及环境卫星(HJ-1)。收集了格式、精度、分辨率各异的多源土地覆盖数据、DEM 数据、地形数据、生态区数据以及地理知识背景,并和影像数据整合。采取基于“像元—对象—知识”的POK(Pixel-Object-Knowledge)分类方法生产了全球2000年和2010年的土地覆盖数据产品,总体精度超过80%。
3.2.3 社交媒体文本分类
以微博社交媒体文本数据中的新冠疫情(COVID-19)公众话题提取为例分析网络文本分类。通过新浪微博数据中心官方API,以“冠状病毒”和“肺炎”为关键词,获取自2020年1月9日0 点至12 月9 日24 点的微博文本。微博信息包括用户名、用户ID、微博文本、地理位置、发布时间等属性字段。为消除噪声并提高分词效率,须对原始数据进行文本过滤。使用Python 正则表达式对原始社交媒体文本进行过滤,去除干扰信息(例如http 链接、标点符号)、停用词、无意义文本、重复的文本。对原始数据清洗预处理后,得到有效微博文本6946196条,其中带地理坐标且位于中国区域内有328241条。
案例研究基于潜在狄利克雷分配LDA(Latent Dirichlet Allocation)主题模型和随机森林算法构建主题抽取与分类框架,从新冠肺炎相关的社交媒体文本中分层获取公众情感话题(王卷乐 等,2020)。首先使用Python 中文分词工具“jieba”进行切词处理,该步骤是将句子切分成一个个单独的词的过程。之后使用LDA 主题模型进行主题抽取,生成各文本的主题概率分布以及各主题的单词概率分布。最后将已标注主题的样本数据作为随机森林算法的训练样本,基于Python 中的“Scikit-learn”库,对整个数据集进行分类。
分类生成以下7个一级话题:“疫情通报”“疫情科普”“官方应对”“个人应对”“观点情绪”“求助信息”“捐助信息”。之后对“个人应对”“观点情绪”和“求助信息”主题的文本数据应用上述步骤,得到细粒度的二级分类。包括“恐惧担忧”“质疑政府/媒体”“谴责恶习”“客观评论”“科学防疫”“祈福祝愿”“呼吁救助”“复工意愿”“居家防护”“家庭宣传”“就医求助”“物资求助”和“其他”等13 个二级话题。通过计算准确率、召回率和F1 值,一级话题类的准确率和F1 值分别为83%和82%,二级话题类的准确率和F1 值分别为78%和76%。
在机器学习领域,分类任务主要有监督分类和非监督分类两类方法。监督分类是一种提前标注类别,利用数据和标注标签训练分类器的方法。监督分类中通过大量标签数据的参与,可以有效获取、构造地理要素的特征使其易于分类。非监督分类不提前进行数据标记,可以在缺少标签的情况下依靠数据的统计特征建立决策规则完成分类。非监督分类通常是通过聚类实现,将特征空间内分布较近的数据归为同一类别,分布较远的则为其他类别。在特征明显、类间差异较大的情况下,非监督分类是一种高效的方式。但在地理对象复杂多样时,非监督分类往往难以胜任。
两类地理要素分类在机器学习方法的使用中存在明显的共性和差异。共性包括:(1)流程通用性。遥感分类和文本分类的流程总体一致,其本质上是将信息数字化,选取易于分类的特征信息,构建分类器,完成分类并促进其普适应用;(2)方法相通性。遥感影像分类和网络文本分类在很多情况下是可以相互借鉴的。常用于计算机视觉的CNN 也可用于NLP 文本分类,常用于文本处理的Transformer 在近两年开始在图像分类、语义分割、目标检测等领域广泛应用。差异包括:(1)数据处理侧重点不同。文本分类重在分词与词向量的构建,影像分类重在获取目标对象的光谱、纹理以及波段指数等特征信息;(2)方法针对性。影像数据和文本数据存在自身特点。影像本身以数字信号存储,数值的大小与地物的信息息息相关。文本信息虽然也以数字编码形式存储于计算机中,但是编码的大小难以反映不同文字之间的关联性及含义。在分类过程中,遥感影像分类重点关注特征波段的纹理特征信息,例如以CNN 为基础的GoogLeNet,VGG,ResNet 等骨架神经网络常用于影像分类的任务中。而文本分类则需要考虑数据的向量化和文本的语序问题,因此向量化的word2vec、LDA 等模型以及RNN、LSTM等网络常用于文本分类任务。
在以上共性与差异认识的基础上,不同地理对象分类方法之间可相互借鉴。多源异构的文本数据和遥感影像数据的结合可以促进多模态的地理对象分类的发展。文本词语的特征相似性度量可以在影像分类的特征选择中发挥作用,高精度的POI 数据可以为遥感影像变化检测(Zhu 等,2022b)、遥感影像地物分类服务(Zhu 等,2021);遥感影像的时空变化信息也可以反过来为文本提取和分类提供补充信息。网络大数据文本信息和遥感影像的结合,在多模态数据融合、分类体系构建和样本/语料库辅助分类3 个方面具有前景。(1)遥感分类可融合多模态数据(例如POI 数据、街景数据、GPS、光学、红外、微波等)来提高分类的精细度和精确度,文本分类亦可使用多源要素与文本数据的结合辅助进行分类。例如,高精度的POI数据、文献统计数据可为遥感数据的监督分类提供辅助样本;地理要素中的文本分类可在现有语料基础上结合地理、自然、人文知识辅助实现高精度分类与应用。(2)遥感分类目前已经建立了多种可推广、认可度高的分类体系,使得分类结果可以被广泛应用。有些分类体系是针对全球尺度的,并且形成可更新、对比的长时序数据产品,例如全球土地覆盖数据产品(Gong 等,2013,2019;Chen 等,2015)。相比于遥感分类,文本分类目前缺乏通用的技术模式,因此可充分借鉴遥感分类的进展构建适用于不同事件的自然语言标准分词体系。(3)遥感分类目前已经发展了多个样本库用于机器学习算法进行分类与学习,构建多尺度、多数据来源、统一分类体系的样本库可促进遥感数据分类的快速发展。自然语言处理工作中高质量语料的参与是预处理和模型训练的前提条件。发展覆盖多类型地理要素的多语言语料文本库,可推动地理要素文本分类的快速应用和发展。
遥感影像分类发展至今,从数据的采集、加工和一致性处理和分类过程来看,已实现了多样的分类体系、方法和工具。机器学习方法可为影像分类的全过程提供智力支持,并不断有新的机器学习算法加入。用于分类的多源数据也趋向于同化,不同轨道的主被动地球观测数据、分布式的地面站点观测数据、泛在的社交媒体数据都被用于支持遥感影像分类以求获得更高的时空精度(Estes 等,2016;Li 等,2017)。尽管文本数据与遥感数据在获取、存储、表达方式存在差异,但其在研究的地理对象上是存在联系的,因此针对特定的目标对象分类可以将二者结合开展研究。例如,社交媒体数据、兴趣点数据可以提供适合于精准监测地理环境的实时信息,特别是在与智慧城市、灾害应急和环境变化相关的各种应用中(Chi等,2017;Eismann等,2009;Gamba,2013;Huang等,2020;Shapiro,2006)。
地理要素分类与人工智能的结合具有很大潜力。随着大数据的发展,多源异构数据的挖掘利用,联合文本和影像/图像的多模态学习可以为地理对象研究提供新的方向和思路,推动构建“自然—人文—信息”的三元世界(俞肇元 等,2022)。另一方面,深度学习是一个“黑匣子”,其以数据驱动为主来完成任务,但是这种方法存在难以解释、过度依赖样本数据等问题,忽略了地理知识方面的信息。随着大数据、网络化和信息化的快速发展,遥感、地信等技术越发趋向于技术发展,而忽略了地理学上的联系(李新 等,2022)。传统知识驱动以专家的知识、经验和推理为前提,其解释性强,具有较强的稳定性,但是存在复杂问题难以用经验解决的情况。因此,知识驱动与数据驱动相结合是后深度学习时代发展的一大趋势(Reichstein等,2019),地球科学领域知识和深度学习方法的集成融合有望成为未来推进遥感信息提取的主流趋势(Ge 等,2022;陈旻等,2021)。数据引领信息挖掘经验知识,知识指导方法合理使用数据。
自然要素和人文要素是地理大数据的两大组成。大数据时代下,自然要素和人文要素分类信息的提取都需要地理对象分类方法的支持。随着人工智能技术的引入,这二者在分类方法上都在广泛使用机器学习和深度学习等新方法。本文回顾了地理要素分类以及人工智能发展的历程,通过对比自然和人文两类地理要素在分类流程、方法、应用方面的异同,并列举了遥感影像单一要素、复合要素提取技术和社交媒体话题分类3个案例,探讨了地理对象分类合而不同的特点。研究发现遥感影像和网络文本两类地理要素在机器学习分类方法上可相互借鉴,进一步丰富了对人工智能和大数据支持下的地理对象分类方法认识。随着大数据技术和人工智能算法的发展,两类地理要素间的协同分类发展、知识驱动分类、多模态分类研究等是未来地理要素分类可深入的研究方向。