陈佳云 徐向英,2* 章永龙 周 烨 汪红江 谭昌伟
(1.扬州大学信息工程学院,扬州 225127;2.教育部农业与农产品安全国际合作联合实验室,扬州 225127;3.扬州大学农学院,扬州 227127)
中国是农业大国,“十四五”规划明确指出,发展农业是我国农业产业链优化升级的重要途径,是农业供给侧改革和乡村振兴战略的重要抓手。随着我国农业信息化的持续推进,智慧农业的发展已成为农业现代化发展的重要组成成分。智慧农业是指利用传感器、物联网、大数据分析、云计算等信息技术,实现以农业信息感知、定量决策等个性化服务为技术特征的现代农业产业形态[1]。然而,目前的农业信息化面临着基础设施不够完善,信息化人才匮乏,农业信息资源管理不规范等问题[2]。受限于知识传播途径以及农业生产的复杂性、区域化特点,我国的农业领域尚未形成一个完整的、易于应用的知识库系统,知识图谱的出现使这一问题得到改善,离散的数据能够被串联成农业知识的语义网络,便于实现农业知识的问答、农产品的推荐等下游应用。同时将知识图谱应用到农业领域能够充分发挥农业数据的多样性,周期性等特征,能融合专家知识和实践经验,形成丰富的农业知识库,有利于农业大数据分析和“互联网+农业”的发展。传统农业知识图谱大多包含文本信息,知识表现形式比较单一,知识库的信息量有限,知识图谱的应用效果有待提升。将多模态信息加入传统知识图谱是当前知识图谱领域的最新趋势,能够在知识库中融入大量的视觉、声音等信息,丰富图谱的知识内涵、增加图谱的适用性。因此,多模态知识图谱是农业知识库未来发展的重要方向[3]。
早期的知识图谱构建主要基于文本处理,特别是利用结构化数据可以快速构建三元组,很大程度上减少了知识图谱的构建工作量。知识图谱可分为通用知识图谱和领域知识图谱,通用知识图谱中包含现实世界中大量的常识信息,覆盖面极广,如Freebase[7],YAGO[8]等。领域知识图谱主要面向某一特定领域,例如医学知识图谱SIDER[9],电影知识图谱IMDb[10]等。领域知识图谱正在以其强大的专业性和专业知识的聚合性逐渐引起各个领域的关注。
随着知识图谱在垂直领域中的应用效果逐步凸显,农业研究人员意识到可以将知识图谱技术应用到农业领域,推动农业信息化的发展。例如,Cheng[11]等人提出基于半结构化数据的中国气象与农业知识图谱的构建方法,为农作物气象报告的自动生成提供相关农业知识。Chen[12]等人构建了名为AgriKG 的农业知识图谱,能够从原始文本中识别农业实体和关系,并将传入的知识添加到知识库中,实现了基于该知识图谱的农业知识检索和问答。张海瑜[13]等人通过构建农业语义领域知识图谱和智能检索系统,不仅成功扩展了知识图谱在农业中的应用范围,还成功解决了农业信息检索不准确以及不匹配问题。
知识图谱是一个具有有向图结构的语义网络和知识库,以三元组(实体—关系—实体)的形式描述了实体与实体之间在客观世界中的关系,其中节点表示实体,边表示实体之间的关系,再通过结构化技术对知识进行建模,实体之间通过关系相互联系,构成网状的知识结构。如图1 所示,将相关水稻病虫害知识通过知识抽取技术整理成相关三元组,利用py2neo库技术将其存储进图数据库中形成相应知识图谱。知识图谱在自然语言处理领域应用广泛,如智能问答[4],语义抽取[5],推荐[6]等各个方面,已成为人工智能发展的重要动力。
随着大量知识以非结构化和半结构化的形式不断涌现,图像、视频、音频等多模态数据开始受到研究人员的广泛关注[14]。多模态数据使跨模态语义理解与知识表示需求变得更加迫切,作为承载底层海量知识并支持上层智能应用的重要载体,知识图谱也急需多模态化[15]。2019 年,多模态知识图谱被正式提出,Richpedia[16]作为首个多模态知识图谱,通过向维基百科中的文本实体分发足够多的图像来构建多模态知识图谱。当前多模态知识图谱主要研究图像和文本两种模态,Liu[17]等人从链接预测和实体匹配出发,研究跨实体和图像的关系推理。Wilcke[18]等人提出一种多模态信息传递网络,不仅可以从图结构中进行端到端学习,还可以从图像的多模态节点特征集中进行端到端学习,其中异构多模态数据以知识图谱的形式表示,能够从每个模态中提取相关信息。Sun[19]等人分别介绍了基于特征的方法和基于实体的方法来对多模态知识图谱进行表示学习。基于特征的方法[20]将多模态信息作为实体的辅助特征,根据图结构以及实体的视觉信息来定义三元组,同时每个实体都包含图像或文本属性。基于实体的方法[21]将不同的模态信息视作结构化知识的关系三元组,而非特征。
当前,虽然多模态技术在农业知识图谱中尚未见应用,但借鉴开放领域和其他领域知识图谱的多模态实现,通过迁移学习能够将多模态信息融入已有的农业知识图谱中。图2 是一个多模态农业知识图谱的示例,它包含图像、文本两种模态信息,图中“水稻”实体(entity),既包含了图像属性(has image),又包含文本属性(has description),同时“水稻”(entity)和“分布地区”(entity)之间用located in(relation)连接起来,最后利用基于特征的方式将图像、文本两种模态信息作为水稻实体的属性来构建多模态农业知识图谱。通过这个农业多模态知识图谱,能够清晰地获取水稻图像以及病虫害图像等知识,为下游应用提供更加丰富的领域知识。
图2 多模态农业知识图谱示例Fig.2 Example of Agricultural Multimodal Knowledge Graph
知识图谱的构建方法从早期的人工搭建逐渐过渡到目前利用机器学习、信息抽取和信息处理等技术半自动或自动化地构建,其内容也从单模态延伸到了多模态领域。传统知识图谱的构建主要采用自底向上的模式,包含3 个步骤:信息抽取、知识获取、知识融合。多模态知识图谱的构建则需要考虑多模态数据的加入,构建流程如图3 所示。同时多模态知识图谱的构建涉及多种关键技术,包括多模态信息抽取、多模态表示学习、多模态实体链接技术等。
图3 知识图谱的技术架构Fig.3 The technical architecture of knowledge graph
多模态知识图谱中,模态表示是构建图谱的重要环节,其含义是提取模态数据的语义信息,即学习模态的表示,这一直是个充满挑战的问题[22]。模态表示可分为单模态表示和多模态表示,多模态表示既可以从多个模态融合获取,也可以从多种模态中同时学习得到。
单模态表示可以对单个模态信息进行线性或者非线性映射,从而产生单模态的语义特征表示。单模态表示主要处理对象有文本,图像,视频,音频等信息,不同类型的信息适用不同的机器学习模型。多模态表示学习利用神经网络学习图像、视频等多模态数据在相应特征空间的特征向量表示[22-23],并映射到与实体结构特征向量相同维度的空间中,将各个模态的特征向量表示进行拼接,从而能够得到在共同表示空间中各模态的高层语义表示。多模态表示学习通过利用多模态之间的互补性,去除模态之间信息的冗杂性,从而学习到更好的特征表示。多模态表示学习按实现方法可分为联合表示学习和协同表示学习,联合表示学习[24]将多个模态信息一起映射到一个统一的多模态向量空间。协同表示学习[25]则是将多模态中的每个模态分别映射到各自的表示空间,与此同时映射后的向量之间要满足一定的相关性约束。
3.2.1 文本表示学习
文本表示学习是对文本进行向量化表示,再利用机器学习模型对其进行文本特征提取,最后用模型的输出向量作为文本表示。文本特征主要使用神经网络提取,常用的方法包含循环神经网络(recurrent neural network,RNN[26]),长短期记忆网络(long short term memory network,LSTM[27])等。近年来,随着Bert[28]和Attention[29]模型的迅速发展及其本身强大的功能,此类模型及其变体展现了比RNN,LSTM 更好的特征提取效果,并逐渐呈现取代之势。
3.2.2 图像表示学习
在图像模态处理方面,通常使用卷积神经网络,通过一系列的卷积和池化操作对输入图像进行特征提取,然后将提取的特征进行全连接,产生图像的特征向量。典型的卷积神经网络模型有AlexNet[30]、VGG[31]、ResNet[32]等,AlexNet 通过增加神经网络的深度来获取图像的特征表示,利用ReLU 作为激活函数,解决了Sigmoid 函数在网络深度较深时的梯度弥散等问题,另外在训练时使用Dropout 来避免模型过拟合。VGG 的结构相较于AlexNet 能够深入提取图像中的语义特征,获得更好的图像表示。当网络深度增加时,网络的准确度出现饱和,甚至出现下降趋势。ResNet 在VGG 的基础上,通过短路机制加入残差单元解决了这个问题。ResNet 模型结构精简,即使卷积层和池化层深度不断增加,通过ResNet 生成的矩阵表示所包含的语义信息也不会减少。
3.2.3 声音表示学习
与文本,图像一样,声音模态表示学习的主要目的是提取声音信号中的语义特征表示向量。声音模态数据在计算机中以模拟信号形式存在,需要将声音的时域波形转换为声音数字信号,进行数字化处理获取离散数字信号序列,然后再对数字信号序列进行声音特征向量的提取[15]。当前声音特征提取的研究方法有:梅尔频率倒谱系数MFCC[33]、线性预测倒谱系数LPCC[34]、多媒体内容描述接口MPEG7[35]等,最常用的梅尔频率倒谱系数先将线性频谱映射到基于听觉感知的Mel 非线性频谱中,然后转换到倒谱(cepstrum)上,这样最符合人的听觉特征,故梅尔频率倒谱系数是当前比较普遍有效的声音特征提取算法。
知识图谱作为知识与语义网络的融合,具有优秀的语义处理能力。在农业领域,可以通过各种农业网站、文献资料、实验数据或者实地调研来获取农业数据,农业多模态知识图谱的研究可以推动农业数据的研究并在农业智能问答、病虫害识别、作物生长监测、农产品推荐等方面起到极大的推动作用。
随着我国农业现代化的不断推进,农业服务网站、农业大数据平台快速发展,广大从业人员能够利用网络方便地查询所需信息。但随着网络数据量的增加,如何从海量信息中筛选出准确、可靠的信息,如何便捷高效地利用这些信息,成为充分发挥农业信息资源作用、助力农业生产大计所需亟待解决的问题[36-37]。
视觉问答是由Antol[38]等人最先提出的,其任务是给出:一张图像以及一个关于图像的问题,问答系统要能够通过查询知识库回答这个问题。农业视觉问答是农业智能问答领域颇具挑战性的工作,不仅要对农业问题进行语义分析,还需要考虑到农业图像中不同因素的影响,将视觉信息和问题文本进行多模态融合来应对这项挑战。
有别于传统的专家咨询系统,基于知识图谱的农业问答系统能够实现自动化的农业知识问答服务,减轻专家指导负担,帮助农民更好地进行农业生产。李岩[37]等人针对搜索引擎检索和人工查询方法的不足,提出了基于知识图谱构建农业智能问答系统的架构,通过提取关键字、对问题分类等方法实现对问题的理解,之后通过查询知识图谱、匹配最佳关系,获取查询结果并反馈答案。周子豪[39]构建了基于知识图谱的茶叶知识问答系统,同时针对现有的知识图谱存在大量隐含关系没有被挖掘,限制了知识图谱的规模等问题,以TransE[40]模型作为基础提出了融合三元组名称信息的知识表示学习模型。该模型在CBOW 模型训练的词向量基础上,通过嵌入层为实体向量和关系向量进行初始化,使实体和关系拥有了丰富的语义信息,能够提供对茶叶病害、虫害、管理方式、种植方式等问题更有说服力的问答结果。张颖[41]等人利用可视化技术对土壤肥力问题进行可视化挖掘与分析,构建了土壤肥力知识图谱。
目前已有的农业知识图谱中,图像、音频、视频等多模态数据的使用仍然极少。随着图像识别等技术的发展,生产场景中的图像或视频数据将发挥更大的作用,将此类多模态数据融合入知识图谱,能够利用多模态数据描述实体角度的互补性缓解文本描述的歧义性。例如将不同品种的作物图像融入知识图谱能够更好地弥补文字描述的抽象性,使表型性状类似的不同作物品种更易区分。同样,如将害虫或禽鸟的声音信息加入图谱,能够更好地定位相关实体。在用户提出问题时,能够通过图像或声音追问的方式更好地理解问题;在给出回答时,能够利用图像或视频信息提供更明确的答案。同时,基于视觉识别的问答系统能够进一步结合图像识别技术,对用户提出的基于图像的问题进行回答。如用户在田间拍摄相关作物图像后将问题和图像一起提交给问答系统,系统能够在知识图谱中进行文本和图像的联合搜索与匹配,从而实现视觉问答。这类智能问答系统,能够更广泛地为广大农户提供面向田间地头的种植技术支持,缓解专家指导压力,通过图文一体化的多模态数据融合构建模型,更好地实现知识推理。相较于传统问答系统,其在更好地识别问题意图,更准确地查找答案,更明确地回答问题,增强问答系统的可信度等方面均具有极大的优势。
农作物病虫害是我国农业生产的主要灾害之一,它具有种类多,易暴发成灾等特点,已经严重影响到农作物的产量和质量。所以,在农作物病虫害预防与治理工作中,首要问题是如何快速、有效、精准地识别农作物病虫害种类,并确定病虫害发生的位置和范围,评估病虫害的严重程度,从而采取相关防治措施及时止损[42]。传统方式中,农作物病虫害的识别依靠专家在现场进行诊断,时效性和效率均偏低。基于计算机视觉的农作物病虫害识别研究可以提高病虫害识别的精度和水平,实时、准确、快速地识别病虫害,进而及时地采取相应的补救措施,可以大大提高经济效益[43]。于合龙[44]等人利用知识图谱对水稻病虫害的异构数据信息进行结构化存储,建立病虫害之间的语义关系,并提出面向水稻病虫害的知识图谱构建方法和基于图的水稻病虫害检索算法,通过引入节气实体实现水稻病虫害的预警。在此基础上,应用确定性因子(Certainty factor,CF)模型和知识图谱的知识推理方法,实现了水稻病虫害的诊断。Guan[45]等人以果树病虫害为例,构造农业领域的知识图谱,通过知识表示模型对农业领域的知识进行编码,结合用户提供的描述文本,得到果树病虫害特征实体的表示向量,然后将表示向量和害虫图像表示向量通过CNN-DNN-BiLSTM 网络进行训练,从而识别果树病虫害。
目前病虫害识别系统主要基于视觉识别技术,针对特定的作物,能够识别的病虫害种类和精度完全取决于已有数据集中的数据完整性,即对于数据量足够的病虫害类别能够进行较好地诊断,而对于缺少数据的病虫害无法清晰识别[46]。多模态病虫害知识图谱能够将作物易感的所有病虫害信息集成于图谱中,结合图像、声音等数据形式,提高相似症状病虫害的区分度,特别是对于罕见发生的病虫害,能够不受已有数据稀少的影响,实现推理与诊断。随着气候变化的加剧,病虫害的发生、繁殖、扩散方式均出现新的特点,而通过多模态病虫害知识图谱能够将最新研究结果融入知识库,从而在病虫害发生之初能够及时进行诊断,进一步提升作物病虫害诊断的效果。对于未知或罕见的病虫害,用户通过提供相关病虫害的名称、图像甚至声音,都可以在知识图谱进行检索,并以文字、图像、视频等用户所需要的方式给出及时反馈,大大提高了病虫害识别的准确度,并能够及时指导农户做出病虫害防治的应对措施。
通过收集农作物不同阶段的图像信息与生长信息构建作物多模态知识图谱,与各类作物模型结合,可以进行农作物生长的模拟和农作物产量的预测,帮助种植户进行栽培决策和规划。
利用作物生长图像与作物生长参数进行匹配,不仅可以对作物生长进行实时监测,还可以对作物产量进行预测。基于多模态知识图谱的监测或预测系统,能够扩展图像中的视觉上下文,推理作物生长参数间的相关性,并与图谱中丰富的语义相关联,在场景图的构建上可以引入视觉概念之间的关联知识,有效增强多模态数据的推理能力,使监测或预测模型具有更高的可解释性。例如,Choudhary[47]等人将收集到的农作物生长数据和智能农场本体连接起来,填充知识图谱,利用生成的知识图谱提供结构性信息,并通过使用SPARQL查询来聚合数据,利用深度学习模型预测作物产量,减少了种植成本,控制了人工成本。Chukkapalli[48]等人认为个体农场所有者应联合起来组成农业合作社,共享资源、数据以及领域知识,团队将智能农场的转换数据添加到合作生态系统中的合作农业本体中来填充知识图谱。该知识图谱能够检索智能农场中的农作物数据,并利用该数据训练异常检测模型,用以进一步检测和识别种植过程中的植株生长异常、病虫害感染等异常事件。
现有的作物生长预测模型,能够根据已有机理或统计模型进行生长预测,但推理和搜索能力还较为薄弱[49],将多模态知识图谱与作物生长预测模型融合,能够加强模型的知识推理和搜索能力,对异常天气、延迟播种、延迟采收等非常规条件下的作物生长具有更好的预测能力。另一方面,结合图谱中的相关栽培知识,作物监测模型能够在预测相关长势信息的同时获得对应的栽培措施,从而实现作物长势预测与栽培指导的结合,既能够帮助研究者们对作物生长规律进行研究分析,又能够服务于种植户,进行作物栽培指导。
推荐系统旨在预测用户对尚未考虑的物品或社会元素的“偏好”,根据物品特征或者用户的社会环境来构建模型[50-51]。把图像和文本等多模态数据引入知识图谱可以解决推荐系统中存在的数据稀疏等问题,增强推荐系统的准确性。
随着“互联网+农业”的发展,农产品的销售渠道逐步拓展到网络平台,电子商务与农产品的结合有利于推动农村经济发展,促进农产品交易的规范化和产业化。结合知识图谱的农业电子商务能够将合适的农产品进行网络推荐,通过对外观、产地、品种等信息的设置,推荐系统将对知识图谱中的实体特征进行匹配,最终将符合需求客户的农产品以文本描述、图像或视频介绍的方式推荐给用户。Tejaswini[52]等人提出了水产养殖领域的推荐系统,基于鱼类的知识图谱,实现了适合渔民的最佳鱼苗类型和最佳养殖环境推荐,给渔民提供了巨大帮助。
多模态知识图谱能够通过语义丰富的图结构产生解释性更强、更准确的推荐方案,对农产品推荐系统的实施效果具有极大的促进作用。随着物联网技术的发展,物联网实时视频监控信息被用于农产品溯源等领域,在多模态知识图谱中融入相关溯源视频,实现种植或养殖过程的溯源追踪,将在农产品的推荐系统中提供更安全可靠的产品,大大推动了农产品销售的透明化发展,能够在保障餐桌食品安全的同时增加农民收益。另一方面,将物联网的传感器数据、文本或图像数据等融合构建的多模态知识图谱应用于蔬果销售、粮食批发等农业推荐领域,为用户推荐具有特定品质、外观的农产品,能够保障农产品的质量,促进定制农业产业链的发展。
知识图谱本质上是实体之间关系的语义网络,多模态数据的加入,为传统知识图谱提供了重要的视觉和声学知识,能够实现更加准确的对象级搜索。但是,目前农业知识图谱的发展还存在以下不足:(1)开放领域知识图谱中关于农业部分的内容相对偏少,尚不足以支撑农业领域应用的需求。(2)现有的垂直领域知识图谱表现形式还显单一,农业实体和属性大多以文本数据形式呈现。随着数字农业和智慧农业的发展,农业数据中的图像,音频,视频等多模态数据不断累积,这些多模态数据的价值有待得到充分挖掘。(3)现有农业知识图谱的规模较小,针对不同应用需求的适应性有待改进。因此构建大规模的多模态农业知识图谱或将成为农业知识图谱研究的新方向,新趋势。
近几年,研究者们运用知识图谱在农业智能问答、农业知识检索、辅助病虫害防治等方面进行了积极的探索与尝试,取得了良好的效果。今后,针对农业知识图谱发展的不足,应积极探索多模态知识图谱技术,使其在智慧农业领域发挥更好的作用。