基于知识图谱的番茄种植管理可视化查询

2024-01-10 02:08:46于合龙郭文忠文朝武龙洁花
农机化研究 2024年3期
关键词:管理策略图谱番茄

张 宇 ,于合龙,郭文忠,林 森,文朝武,龙洁花

(1.吉林农业大学 信息技术学院, 长春 130118;2.北京市农林科学院 智能装备技术研究中心,北京 100097)

0 引言

合适的种植管理策略是番茄果实稳产、高产的关键步骤[1],且随着农业信息化[2]和农业智能装备的快速发展,降低了番茄种植管理的劳动强度。当前,番茄的专业技术人员众多,不同品种的番茄在不同生育期的种植管理策略也不同,技术人员的种植管理经验很难大范围推广。番茄种植管理策略存在信息多源异构、复杂多样等特点,在解决快速、准确获取番茄种植管理策略时存在两个难题:一是随着数据规模的增大,如何构建一个标准化的关系数据库;二是如何充分和高效率使用数据库中的数据。

针对上述问题,于合龙[3]等人针对复杂的水稻病害数据存储和高效检索问题,提出了基于知识图谱的关联特征挖掘模型。张青岭[4]等人以茶叶病虫害知识图谱为例,介绍了知识图谱的绘制工具及其应用。吴茜[5]等人对基于知识图谱的农业问答系统进行研究,对用户提出的农业领域问题给出精准的答案。童宁[6]等人基于结合短文本语义的图查询方法实现了一个面向异构网络的图查询可视分析系统,可以基于查询有效分析挖掘异构网络的数据和关系特征。

知识图谱解决了农业方面大量零散数据的存储问题,可视化查询从不同品种番茄在不同环境下种植管理的角度,为番茄种植管理领域的专家经验知识充分利用提供支持,二者相结合在作物领域的应用研究具有重大意义。

1 可视化查询系统框架

基于知识图谱[7-9]的番茄种植管理可视化查询系统框架主要包含4部分,即数据获取、图谱构建、相关算法及系统构建及应用,如图1所示。

工作时:第一步通过python爬虫技术获取网页有关数据并结合北京市农林科学院的专家数据,再通过数据处理整理成结构化数据;第二步使用 Neo4j 的模块化CREATE语句,利用“自顶而下”和“自底向上”相结合的方法构建番茄种植管理知识图谱;第三步利用输入层和嵌入层分别对输入问题进行预处理和向量化表示,再输出语义相似度最高的答案;最后,利用Python的PyQt框架与第三步的算法融合设计一个用户查询界面,根据输入问题输出该品种番茄最佳种植管理策略。

图1 基于知识图谱的番茄种植管理可视化查询系统框架Fig.1 Visual query system framework of tomato planting management based on knowledge graph

2 番茄种植管理知识获取

目前,国内典型的知识图谱有“美团”智能大脑、小米知识图谱、TCMLS和OpenKG.CN等;国外具有代表性的有Freebase[10]、DBpedia[11]、Yago[12]和Wikidata[13]等。

本文知识来源包括专家、百度百科、书籍等,其数据包括结构化数据[14]、半结构化数据[15]和非结构化数据[16]。其中,结构化数据可以直接进行整合并知识表示,而半结构化数据和非结构化数据需要经过实体抽取、关系提取、属性提取和知识提取转化为结构化数据后再进行知识表示;最终,将表示的知识进行质量检测,选取其中质量高的知识存储,构建番茄种植管理知识图谱以便应用服务。

3 番茄种植管理知识图谱构建

图2为构建番茄种植管理知识图谱的流程。首先,将多源异构的番茄种植管理数据进行结构化处理(抽取实体信息、关系信息)为结构化数据,再进行知识质量检测,最终将知识存储于图数据库中。其中,知识更新、知识质量检测和知识推理是不断更新的过程,以此保证番茄种植管理知识图谱中信息的准确性。

图2 番茄种植管理知识图谱构建流程Fig.2 Construction process of tomato planting management knowledge map

3.1 构建方式的选取

本文的数据结构以三元组为基础结构,故选取以Neo4j[17]图数据库为基础构建番茄种植管理知识图谱。虽然知识图谱与番茄种植管理是第一次结合,但番茄的种类、种植管理方法会更新,所以基于处理好的数据,构建数据结构层,选择自顶向下和自底向上相结合的模块化CREATE构建方法[18],此方法速度快、灵活性强、内容更新方便,无需整体修改。

3.2 知识更新

番茄种植管理知识图谱可快速提供给更多学者相关番茄种植管理的知识,但本文中知识图谱的内容可能无法包含所有的番茄品种及番茄的种植管理相关知识,且随着科技的发展,会出现越来越多的番茄品种。本文知识导入方法的最大优势是可以利用从底到顶的方式随时更新知识,可以实现第一时间出现在知识图谱中。经过以上步骤后,完成构建番茄种植管理知识图谱,如图3所示。

图3 番茄种植管理知识图谱示例Fig.3 Example of tomato planting management knowledge map

4 问题预处理及语义相似度计算

图4为系统内部算法的工作流程。工作时,具体地对输入问题进行预处理,然后与番茄生产管理知识图谱进行语义相似度计算,输出最佳生产管理策略。

图4 系统内部工作流程Fig.4 Internal workflow of the system

4.1 输入层、嵌入层和RCNN层

输入层对输入问题进行预处理,预处理成功后得到干净的词序列。嵌入层将输入关键词在低维空间进行向量化表示,循环神经网络在训练过程中会出现梯度消失和梯度爆炸的问题,故只能捕捉少量的匹配信息。另一种LSTM网络利用不同的函数处理隐藏层的状态,实现对重要信息的筛选,能很好地解决梯度问题,捕捉更多的匹配信息。所以,结合CNN网络可以保留关键信息和LSTM可以捕捉更多匹配信息的特点提取关键特征信息[19]。具体如下:

1)LSTM结构。文中使用的LSTM网络结构。假设X(t-1),Xt,…,Xt+1为输入词序列,每个字都是一个向量,通常用向量表示;ht-1,ht,…,ht+1表示隐藏元,共t+1个,每个隐藏元都由之前的字算得到,故可以认为包含之前所有字的信息。始终有一个隐藏元h0,代表初始信息,一般采用全0的向量进行初始化。

2)RCNN层。利用卷积神经网络对拼接后的词序列语义表示进行信息融合,其计算过程为

yi=CNN(xi),i∈[1,L]

(1)

其中,yi表示卷积处理后xi对应的特征表示。

4.2 番茄种植管理数据语义相似度

选用余弦距离作为查询内部知识语义相似度[20]的方法,再将内部排序第一的知识表达出来,并认为任何两个事物的相似度取决于其共同信息量的大小和个性信息量的大小,详细公式为

(2)

其中,A=(A1,A2,…,An),B=(B1,B2,…,Bn) 、A和B均为语义向量;n表示语义向量的维度,相似性的值域为[0,1]。

种植管理特征包括种植管理方法、种植管理量、生育期、有无吐水情况等特征信息。本文关键词特征向量与种植管理特征向量语义相似度计算公式为

sim(t,T)=α·sim(t,Th)+β·sim(t,Tl)+γ·sim(t,Tm)+δ·sim(t,Tp)+ε·sim(t,Tw)

(3)

其中,t表示查询关键词的特征向量;T表示种植管理知识特征向量;sim(t,T)表示关键词向量特征与种植管理知识的整体相似度;sim(t,Th)表示关键词向量特征与种植管理知识主题向量特征的相似度;sim(t,Tl)表示关键词向量特征与适合种植管理方式向量特征的相似度;sim(t,Tm)表示关键词向量特征与种植管理生育期向量特征的相似度;sim(t,Tp)表示关键词向量特征与吐水情况向量特征的相似度;sim(t,Tw)表示关键词向量特征与种植管理量向量特征的相似度;α、β、γ、δ、ε分别表示这些相似度的可调比例权重参数,α+β+γ+δ+ε=1。

5 知识图谱可视化查询系统实现

5.1 系统实现

设计系统使用处理器为2.6GHz六核Intel Core i7,操作系统为macOS Big Sur,设计软件为Python3.6。设计前,需要准备好信息数据和品种对应的图片,知识数据利用2知识图谱的数据格式保存,图片存放于表格同级路径下的 pictures 文件夹下面,表中图片与表格内的数据需要一一对应;然后,使用python语言将表格内的数据注入到变量中,通过指定下标的变量数组值与所查询的值匹配来获取同数组内的所有值,并使用tkinter可视化工具输出到界面中。具体的设计过程包括以下5步:①准备设计环境框架,即PyQt框架;②构建初始界面组件,制定主函数执行内容,读取数据;③设定全局变量,读取第三方库;④查询按钮响应函数,唤醒数据预处理;⑤按钮初始化函数,打开初始化查询界面,输入问题,经过内部语义相似度计算输出最佳种植管理策略。

所设计的可视化查询初始化界面如图5所示。

图5 可视化查询初始化界面Fig.5 Visual query initialization interface

5.2 系统系能分析

为了测试此查询系统的性能,添加了Neo4j的自带查询语言Cypher[21]作为对比分析,在不同的A、B、C 3组人群中针对准确性、查询响应时间和可操性做对比实操。其中,A组为计算机从业者(某大学信息技术学院计算机类学生),B组为农业工作者(某市农林科学院),C组为既非农业又非计算机的路人,每组100人,如表1所示。利用式(4)将正确回答的问题数除以输入总问题数的比值作为准确率,即

(4)

其中,A表示准确率;t表示回答正确的输出值;T表示所有的输入值。

可操性标准分为:优、良、中、差。其中,优为90~100,良为80~90,中为70~80,差为0~70。

由表1可知:在查询时间上,可视化查询系统远远低于Cypher查询语言;在准确率上,农业工作者在可视化查询系统和非农业工作者在Cypher查询语言上的准确率优异;在可操性上,可视化查询系统的可操性明显高于Cypher查询语言的可操性。造成以上结果的原因:Cypher查询语言需要非计算机工作者认真学习Cypher,而可视化查询系统只按照步骤即可。

表1 可视化系统与Cypher查询语言对比Table 1 Visual system compared to Cypher query language

5.3 实践应用

本查询方法中的终端用户通过移动设备直接对构建完成的知识图谱发出任务请求。

在4.1节中,实现了可视化查询不同品种番茄的种植管理志,在山东“寿光”型玻璃温室中实现该方法。开始种植番茄时,通过控制平台查询得知需要种植品种番茄的不同种植管理方法,并通过系统内部计算得出其中最适合生产目标的种植管理方式,根据选取的种植管理方法修改水肥一体化控制参数、环境控制参数等进行种植管理、施肥等操作。图6为查询的具体应用界面。

图6 可视化查询应用界面Fig.6 Visualized query application interface

6 结论

1)知识图谱可视化查询通过图形图像描述知识资源及它们之间的相互联系,并在此基础上提供查询服务的一项计算机技术。“自顶而下”和“自底而上”的模块化构建方式可以解决传统CREATE构建语句的速度缓慢、即时更新、内容精确等问题。CNN网络和LSTM的结合可以保留更多的匹配信息,最后经过语义相似度计算可以输出最合适的番茄种植管理策略。实践应用表明:设计的策略提高了农业相关工作人员的查询效率,在山东寿光玻璃温室的应用中得到种植管理的一致好评,只适用于智能温室,有待于在普通大棚中普及。

2)随着知识图谱在新一代人工智能发展中发挥愈加关键的作用,不同领域知识图谱的可视化查询方法与技术将会有更广泛的需求与应用。因此,基于统一模型的知识图谱可视化查询语言、感知语义的知识图谱可视化技术、面向领域知识图谱优化的可视查询方法及大规模知识图谱的高效可视化查询策略,将是未来知识图谱可视化查询重要的发展方向。

猜你喜欢
管理策略图谱番茄
房建工程招标组织与合同管理策略
番茄炒蛋
秋茬番茄“疑难杂症”如何挽救
今日农业(2021年21期)2022-01-12 06:31:52
论减税降费背景下的企业财务管理策略
建筑工程管理策略探讨
建筑施工安全管理策略的应用探索
绘一张成长图谱
番茄果实“起棱”怎么办
今日农业(2020年23期)2020-12-15 03:48:26
补肾强身片UPLC指纹图谱
中成药(2017年3期)2017-05-17 06:09:01
主动对接你思维的知识图谱