王明常,丁 文,赵竞争,吴琳琳,王凤艳,纪 雪
吉林大学地球探测科学与技术学院,长春 130026
病虫害是林木健康生长面临的挑战之一,能够导致森林产生退化现象[1]。常见的全球森林害虫落叶松毛虫(Dendrolimussuperans),是一种食叶害虫,是中国东北部森林大面积覆盖区危害较大的害虫之一,对长白山地区构建安全、健康的森林生态屏障产生了重大威胁[2]。落叶松毛虫通过幼虫摄取针叶损害松属植被,叶片的破坏会影响光合作用和水分传输,从而导致营养物质的流失,这也被称为“无烟”火灾[3]。落叶松毛虫的侵害对农业和林业生产造成了严重破坏,限制了林业的持续发展,对生态系统的稳定性构成威胁,导致了巨大的经济损失[4]。对于长白山区域的落叶松毛虫害,实施有效的识别是防治的重点。早期发现并确定虫害发生的范围,有助于制定相应的防治措施,减少损失,并对保护森林生态系统具有重大意义[5]。
“图谱”是对某一学科的资料进行研究,通过系统地编辑这些资料,构建出能够描述实物的图形[6]。知识图谱的概念最早可以追溯到1960年代的语义网络,但随着互联网和开放链接数据的快速发展,Google在2012年首次提出了知识图谱的概念[7-8]。知识图谱是人工智能的一部分,它是一种对大量信息进行有效组织的重要手段。目前,一些知名的通用知识图谱包括Freebase、DBpedia、Wikidata和YAGO2[9-12]。在金融、医疗、情报等领域,知识图谱也实现了特定的行业应用。在病虫害领域的知识图谱研究方面,前人已经取得了部分成果:有学者[2-4]专注于研究领域本体,构建病虫害领域的本体模型,并通过这些模型来解决实际问题;还有学者[13-14]专注于研究领域数据,在对这些数据进行分析之后,使用知识抽取技术从数据中提取实体和关系,以实现对知识的提炼;另外一些学者[14-15]采用文献计量手段,通过关键词聚类来构建知识图谱,对病虫害领域的研究进行了可视化展示。
传统的林业病虫害监测主要依靠地面样本调查,然而,由于森林生态系统的复杂性,快速、全面地开展林业病虫害监测存在一定的困难。近些年,遥感技术在森林受损识别中得到了广泛应用。通过利用卫星传感器收集到丰富的湿地植被光谱信息和纹理信息,可以更准确地揭示林地植被的特性[16]。然而,精确检测林业病虫害仍然存在一定困难。如今,由于机器学习能够有效地处理大量数据,并具有自动化和智能化的优势,许多研究人员选择使用机器学习算法来进行精确的林业病虫害识别。Samuli等[17]利用在芬兰赫尔辛基4个研究区域春季和秋季收集的基于无人机的多光谱图像,采用随机林森模型,对两种季节中遭受小蠹虫侵害的树木进行了分类。Zhang等[18]提出了一种用于选择无人机高光谱图像中的最佳波段的算法,并将支持向量机与边缘保持滤波器相结合,实现了对被油松毛虫破坏的树冠的自动识别。
随着遥感技术的迅猛发展,获取多源数据变得更加便捷。由于多源数据能够提供更加全面、准确和多样化的信息,因此其在林业病虫害监测领域具有很好的应用潜力。Latifi等[19]采用陆地卫星TM(thematic mapper)和SPOT(systeme probatoire d’observation de la terre)遥感数据,运用随机森林模型,探讨了中分辨率数据在分类受小蠹虫侵害区域方面的潜力,实现了对损伤类别的空间监测。Näsi等[20]研制了一种新颖的遥感系统,该系统由基于FPI(fabry-perot interferometer)的微型高光谱相机和配备RGB波段的彩色相机构成,可以获取单个数据的三维信息和光谱数据;并且通过运用K-最近邻(K-NN)方法对收集的数据进行分类,可识别出受到云杉树皮甲虫侵害的单个异常树木。Oumar等[21]将WorldView-2的光谱波段、植被指数以及地形数据的坡度和坡向分别导入一种回归模型,以监测和绘制南非夸祖鲁丰纳塔尔桉树人工林因青铜虫侵害所造成的损害。这些研究人员在林业病虫害识别工作中都采用了多源数据,并强调多源数据在林业病虫害识别领域具有巨大潜力。
面对森林生态保护与管理工作的需求,针对传统方法无法应对森林系统的复杂性,仅依靠遥感数据无法全面、准确地利用多样化的信息等问题,本研究使用知识图谱来提取识别落叶松毛虫害的特征,并与多源数据相结合,运用随机森林模型对研究区的落叶松毛虫害进行识别。此外,本研究选择不同的特征组合来构建虫害识别模型,探讨最佳特征组合以实现虫害识别。本研究的主要创新之处包括:1)构建知识图谱以提取落叶松毛虫害的特征;2)建立落叶松毛虫害的遥感识别模型;3)研究不同特征组合对虫害识别效果的影响。
如图1所示,研究区位于中国东北部吉林省长白山国家级自然保护区中,面积约为418.04 km2。研究区为温带大陆性季风气候,年降水量在700~1 400 mm之间,年平均温度为3.54 ℃,海拔高度为828~1 633 m[22],地势以山地和丘陵为主。长白山林区经常遭受病虫害的侵袭,导致林业方面巨大的经济损失,并对长白山森林生态的健康和可持续发展产生了严重影响。
图1 研究区地理位置
合成孔径雷达(synthetic aperture radar, SAR)数据所提供的地物特征信息更为丰富,可在分类过程中作为光谱数据的补充,为虫害识别提供了更有利的辅助数据。哨兵1号(Sentinel-1A)卫星因具有较短的重访周期、双极化特性、快速的生产效率以及精确的卫星定位等优势而备受瞩目[23]。Sentinel-1A通常能够实现高空间分辨率和高时间分辨率的监测。单颗卫星的最短重访周期为12 d,其空间分辨率可达到1.73 m(距离向)×4.3 m(方位向)。研究区Sentinel-1A数据如图2所示,干涉宽幅(IW)模式参数如表1所示。
表1 Sentinel-1A数据影像IW模式参数
a. VV数据;b. VH数据。V. 垂直;H. 水平。
哨兵二号(Sentinel-2A)卫星由欧洲航天局开发并发射,该卫星配备了一台多波段成像仪,能够捕捉土壤、水域、植被、沿海地区和内陆水道的图像,同时还为应急救援提供支持。Sentinel-2A由两颗卫星组成,分别是2A和2B。Sentinel-2A具备宽刈幅、高空间分辨率和短重访周期等特点,该卫星系统的投入使用后,每5 d对赤道区域进行一次全面扫描,而对于高纬度的欧洲地区,只需要3 d[24]。这颗卫星距离地球786 km,配备了13个光谱波段,幅宽达到290 km,并具有3种空间分辨率,覆盖从可见光到短波红外的范围,分别为10、20和60 m[25]。根据研究需求,可以在可见光(B2—B4)和近红外(B8)波段选择10 m的分辨率,在红边(B5—B7)和短波红外(B11、B12)波段选择20 m的分辨率[26]。在这些波段中,红边波段对植被状况反应敏感,对于植被监测具有关键作用。Sentinel-2A是目前唯一包含3个红边波段的遥感数据。
地形数据对松毛虫的地理分布和树木生长状况有影响,通过对各种地形数据进行统计分析,可以研究虫害在不同地形因子上的发生规律[27]。本研究获取了两个研究区域30 m空间分辨率的ASTER GDEM(advanced spaceborne thermal emission and reflection radiometer global digital elevation model)数据,可用于生成高程、坡度、坡向等地形环境因子。ASTER GDEM是一种数字高程模型,具有30 m的全球空间分辨率,是高分辨率高程影像数据[28]。数据的有效性范围介于83°N和83°S之间,涵盖了全球陆地表面。DEM数据的预处理过程包括镶嵌、裁剪和重采样,处理后的DEM数据分辨率为10 m。DEM数据参数如表2所示。
表2 DEM数据参数
2.2.1 图谱构建
1)知识图谱原理
语义网络在20世纪50—60年代被提出,这是知识图谱概念的起源。20世纪70年代,知识图谱的前身逐渐出现,例如“专家系统”“语义网”和“语义链接”等[29]。在数据时代,知识图谱作为人工智能领域的一部分,是一种重要的信息组织方法。构建网络化的知识库是知识图谱的基础,其中带有属性的实体通过关系连接,形成一个具有有向图结构的知识库[30]。为了实现知识网络的可视化,需要找到一种通过图的形式描述知识内部关系和发展进程的技术方法。边和节点是知识图谱的主要组成部分,节点代表概念或实体,而边表示概念/实体之间的语义关系[31]。目前具有代表性的开放域知识图谱包括YAGO、BaleNet和CN-DBpedia等。这些图谱的优点在于语义丰富、质量高、规模大且结构友好。基于知识图谱的辅助分析和决策支持功能,通过知识推理实现目标专业领域知识的掌握,从而实现这些功能。
2)构建知识图谱的数据源
构建森林虫害遥感识别特征知识图谱的数据主要来源于国内外相关文献。中文文献主要来自知网(https://www.cnki.net)数据库,英文文献主要来自web of science(http://webofscience.com)数据库平台,这些数据均为非结构化数据。在知网上,以“虫害监测”和“虫害识别”为关键词搜索,共找到58篇关于森林虫害遥感识别的文章,本研究共使用42篇。在web of science上,以“monitoring of forest insect”为关键词搜索到4 853条结果,以“recognition of forest insect”为关键词搜索到693条结果,本研究筛选出符合要求的英文文献62篇。以上104篇文献构成了本研究数据源。
3)图谱构建流程
依据所获得的国内外文献,运用知识图谱相关技术和理论构建森林虫害遥感识别特征图谱的设计思路如图3所示。图谱在逻辑上分为数据层和概念模式层。数据层是概念模式层的映射,也称为实例表达,通过知识收集、抽取、融合与存储最终构建数据层。概念模式层是知识图谱的基础,通过构建本体对概念模式层进行存储和表达。
图3 知识图谱构建流程
本文通过对数据库中与虫害识别相关的国内外研究文献进行收集和整合,再根据文献研究内容设计概念模式层。在该层次中,首先抽取了“地区”“虫害”“识别特征”“特征类别”等实体知识,以及“发生”“使用”和“包含于”等关系知识;接着将抽取的实体、关系和属性进行进一步融合和整理;最终将其存储在图数据库中,并对森林虫害遥感识别特征图谱进行可视化,借助知识图谱的检索功能,实现特征筛选。
2.2.2 特征选择
针对光谱数据的应用,本研究选取了Sentinel-2A多光谱遥感数据。构建基于Sentinel-2A的虫害识别模型,需要借助Sentinel-2A影像获取由知识图谱筛选出的特征,包括8个光谱波段、16个光谱指数特征(表3)和8个纹理特征(表4)。此外,还选取了地形特征(表5)。在Sentinel-2A进行数据预处理时,已经将B5、B6、B7、B8波段重采样至10 m分辨率,并对分辨率相同的波段进行了重新组合。鉴于8个波段数量较多,统计纹理特征会产生大量数据,因此本文首先对Sentinel-2A的8个波段进行主成分分析,然后提取纹理特征。根据主成分分析结果,前两个主成分占据了重新组合的Sentinel-2A影像8个波段信息的98.95%;因此,选择第一和第二主成分进行纹理分析。通过灰度共生矩阵法分别获取两个影像的8种纹理特征,移动窗口大小为5×5,差分值为(1,1),灰度量化级为64。
表3 光谱指数特征描述
表5 地形特征描述
2.3.1 模型构建
1)随机森林算法原理
随机森林(random forest, RF)是一种当前较为流行的机器学习方法,主要通过集成多个决策树对样本进行分类[32],其原理如图4所示。RF因其学习过程具有灵活性高、速度快、分类精度高且不易过拟合的优点,被广泛应用于图像分析、信息提取等领域。RF算法属于Bagging算法,是集成算法的一种,决策树是RF的基本单元。根据Bagging算法的特性,多个决策树之间相互独立[33]。分类结果的数量由决策树的数量决定,通过投票机制确定最终的分类结果。通过目视识别方式选取2 400个像元作为训练样本数据,包括受灾区1 200个、健康林1 000个及其他区200个。
图4 随机森林原理图
2)不同特征组合的落叶松毛虫害识别模型
本研究通过结合不同数据源对长白山落叶松毛虫害进行识别。选择Sentinel-2A多光谱遥感数据,结合由知识图谱筛选出的Sentinel-2A光谱指数特征、波段特征和纹理特征构建模型一;选择Sentinel-2A光谱指数特征、波段特征和Sentinel-1A纹理特征(VV和VH极化数据)构建模型二;综合使用Sentinel-1A、Sentinel-2A和地形数据,即在模型二的基础上增加了地形特征,构建模型三。通过构建3种不同模型,分析了在识别落叶松毛虫害时,单一数据源和多源数据综合使用对虫害识别精度的影响。图5为构建模型三的流程图,模型三的数据输入比模型一多了Sentinel-1A雷达数据和地形数据,比模型二多了地形数据。
图5 基于Sentinel-2A、Sentinel-1A和地形数据的落叶松毛虫害识别模型
2.3.2 精度评价
研究采用总体精度和Kappa系数来评估精度。总体精度是正确分类的准确性;Kappa系数用于验证预测土地覆盖分类与地面真相之间的一致性。总体精度和Kappa系数的取值范围是0~1,值越大,分类的效果越好。计算公式如下:
(1)
(2)
(3)
式中:κ为Kappa系数;Po为总体精度,为正确分类的像素在整个图像所有像素中的占比;n为类的数量;Pii为预测每个类的正确像素数;N为总像素数;Nip为预测为i类的所有类的像素总数;Nit为所有i类的像素总数。
利用知识图谱作为先验知识,挖掘前人在特定区域和特定森林虫害研究中的经验遥感特征。首先, 针对森林虫害监测任务,融入森林虫害识别相关知识,并通过地理学知识来丰富与森林虫害识别相关的认知。然后,进行特征筛选,以我国东北地区的落叶松毛虫害为例,确立长白山落叶松毛虫害的特征;依据包含关系判断识别特征所属的特征类别,完成知识图谱选择特征的目标。最后,在知识图谱中根据空间对象的语义特征筛选出识别特征,可以评估我国东北地区落叶松毛虫害识别特征的研究状况。图6展示了我国东北地区落叶松毛虫害知识图谱的提取结果。
EVI1. 增强型植被指数1;EVI2. 增强型植被指数2;PSSR. 颜料特定的简单比率;CRI2. 改进型类胡萝卜素反射指数;ARI2. 改进型花青素反射指数;RVI. 比值植被指数。
在相同的检验样本下,评估研究区3种落叶松毛虫害识别模型的识别结果分类精度。研究区的检验样本包括受灾林300个像元、健康林250个像元及其他区域50个像元。各模型的分类精度如表6所示。
表6 研究区3种落叶松毛虫害识别模型精度对比
图7展示了落叶松毛虫害模型识别结果。可以发现,3种模型在识别落叶松毛虫害发生的大致区域方面表现存在一定差异。
a. 模型一;b. 模型二;c. 模型三。
模型一的识别效果产生了部分噪声,导致误分类现象的产生;仅基于Sentinel-2A数据的遥感识别模型还存在云遮挡的问题,这也会导致识别精度的降低,不能够很好地区分健康林和受灾林(图7a)。由表6可知,模型一总体精度为88.39%,Kappa系数为0.802 2,在精度上远低于模型二、模型三的模型识别精度。
模型二比模型一更好地区分了健康林和受灾林; Sentinel-1A雷达数据可以不受云雨等复杂天气的影像,补充了仅基于Sentinel-2A数据的不足,对识别整体效果产生了积极作用(图7b)。由表6可知,模型二的总体精度为91.70%,Kappa系数为0.859 0,在精度上较模型一有较明显的提升。
模型三的识别效果较模型一、模型二都好,说明多源数据能够对仅基于Sentinel-2A数据产生的错误识别现象起到抑制作用;模型三还利用了地形数据,其识别效果较模型二也有所改善(图7c)。由表6可知:模型三的总体精度为92.78%,Kappa系数为0.876 6;较模型二总体精度提升了1.08%,Kappa系数提升了0.017 6。这表明地形数据对模型的识别效果起到正面作用。
在不同数据集下,知识图谱提取的特征都展示出了较高的稳定性。利用知识图谱技术,可以迅速地将不同研究区域的落叶松毛虫害特征进行提取,应用于不同地区的落叶松毛虫害识别。本研究将知识图谱技术应用于林业病虫害的识别,能够有效地从知识中挖掘松毛虫的特征,并提取适用于研究区域的特征,通过构建落叶松毛虫害知识图谱,进行落叶松毛虫害特征的筛选,并将这些特征作为识别长白山地区落叶松毛虫害的关键要素。在将知识图谱技术提取的特征与多光谱数据、雷达数据结合的过程中,发现落叶松毛虫害的遥感识别效果明显改善,精度明显提升。这意味着生态和害虫信息对于提升识别精度具有显著作用。知识图谱中包含了丰富的生态和生物信息数据,可以提高识别和定位落叶松毛虫害的准确性。这一结论突显了知识图谱在生态系统观测和害虫防治方面的潜在作用。
本研究旨在探讨知识图谱与遥感技术融合在虫害识别任务中的表现,以及多源数据融合对落叶松毛虫害识别精度的提升作用。遥感数据通过知识图谱获得了丰富的语义信息和上下文背景,从而有助于更准确地识别和划分地物。遥感技术通过获取高分辨率和广泛覆盖的数据,为知识图谱的建立和保持提供了重要帮助。这种综合应用在各种地理环境和地物类型中都得到了证实,展示了其通用性和适用性。本研究发现,知识图谱与遥感技术之间有相互补充作用。知识图谱为地物提供了语义信息和关联知识,有助于弥补遥感数据的一些不足,例如数据不完整和噪声问题等。遥感技术以其高分辨率和实时性为知识图谱的不断更新和保持提供了强大助力。因此,这种相互补充的关系使得知识图谱与遥感技术的融合具有更大的优势,能够更全面地揭示地物的特性和变化。
综合运用多源数据来识别病虫害的效果优于仅使用单一数据源,多源数据能够弥补单一数据源的不足。由表6可知,综合使用多源遥感数据显著提升了识别落叶松毛虫害的精确度。本研究中,采用了多种遥感数据,如卫星信息和航空影像等。总体而言,在识别落叶松毛虫害信息方面,多源遥感数据的综合利用展现出了巨大的可能性。进一步的研究和开发可以使多源遥感数据的利用更加高效。
1)通过整理大量文献,构建了知识图谱,实现了对森林虫害信息与特征识别信息的可视化整合。该研究能够获取不同地区各类森林虫害的遥感识别特征,并为尚未开展研究的地区或虫害提供了参考。
2)结合知识图谱与遥感技术,将知识驱动转换为数据驱动,为构建虫害识别模型提供了有效的特征。
3)经对比分析,发现基于Sentinel-1A、Sentinel-2A和地形数据结合的落叶松毛虫害遥感识别模型表现最好,总体准确率达到了92.78%,Kappa系数为0.876 6。