钱 晔,孙吉红
(1.云南农业大学,a.大数据学院(信息工程学院);b.数据工程技术研究中心,昆明 650201;2.国家农业农村大数据中心云南分中心,昆明 650201;3.绿色农产品大数据智能信息处理工程研究中心,昆明 650201;4.云南省科学技术院,昆明 650051)
云南地区常年日照充足、雨量充沛、海拔差大[1],造就了享誉国内外的花卉王国。较强的紫外线为花卉增添了绚丽的色彩,成就了亚洲最大的鲜切花市场,占全国70%以上的市场份额,出口量突破80亿枝,仅菊花出口日本的数量每年超越1亿枝。昆明市更是同时享有“春城”“花城”的美誉。鲜切花充满了整个春城,鲜切花产业成为了年产值超过400亿元的云南支柱产业之一。但是,繁华的鲜切花市场背后,存在着一系列的问题,主要表现为花农甚至鲜切花种植企业无法准确判断来年畅销鲜切花的具体品种,无法评估在特定环境下某种或某几种鲜切花的成本、利润,无法严控鲜切花的病虫害以及品质,造成大量的鲜切花滞销、大量花农亏损及企业亏损。与此同时,供不应求、天价鲜切花等现象也时有发生,使得原本应有的繁荣市场变成了“股票市场”。随着科学技术的发展,人工智能技术不断更新,尤其是近年来大数据技术的迅猛发展[1],进一步推动人工智能的发展。目前,智能模型已经突破传统模型的局限,在处理复杂或不完全信息、模拟非线性、自适应自学习、优化算法等方面具有无可比拟的优势,具有一定优越性和先进性[2]。结合鲜切花在选种、种植、管理等过程中遇到的问题,将智能算法与多个领域相结合,构建鲜切花价格预测模型[3]、鲜切花病虫害预测模型[4]、鲜切花产业智能平台[5,6]等智能模型,并且智能模型在交通、农业、金融、工业、科技等领域也得到了广泛的应用,已经建成交通大数据中心、农业大数据中心、金融大数据中心等,并发挥重要作用,适合解决复杂问题[7,8]。
本研究在智能算法构建鲜鲜切花价格预测模型的基础上,结合知识图谱技术寻找不同品种鲜切花的关联与区别,构建鲜切花知识图谱推荐模型[9],分别向不同种群人员推荐不同品种鲜切花,实现个性化推荐功能[10],为种植户、种植企业提供参考依据,给出推荐结果[11],为云南省解决鲜切花产业存在的问题提供参考。
由于云南省特殊的地理位置和气候条件,孕育了花卉王国。2020年,云南省鲜切花种植面积达到1.94万hm2,同比增长16.4%,产量达到146.6亿枝,产值830.1亿元,成为云南省特色经济产业之一。
本研究以云南省鲜切花产业为研究对象,阐述了鲜切花产业各环节的关键点和存在的问题,主要包括以下3个方面的问题解析。
花农、中小型鲜切花种植企业难以确定来年鲜切花的畅销品种,只能够根据种植经验选择种植的品种。该种植方式具有主观的因素,出现“丰收、丰产、不丰腰包”的现象。这种现象的原因在于花农、中小型种植企业往往难以支付专家论证会议的费用,以至于凭借经验盲目地种植某种或某几种鲜切花,在鲜切花上市后,无法取得预期的收入。
鲜切花作为一种观赏性极强的花卉,病虫害直接影响鲜切花的品质。花农根据鲜切花的市场行情种植不同品种的鲜切花,每种鲜切花病虫害防治的方法各异,部分花农甚至中小型种植企业的工人也难以了解每种鲜切花病虫害防治方法,使得在温度、湿度等因素变化较大的时期,大量鲜切花感染病虫害,花农、中小型种植企业受到了较大的经济损失。
鲜切花作为一种供欣赏的花卉,保鲜是最为重要的关键因素,出现了干花、永生花等不同系列的代替品,但是鲜切花仍然是花卉市场的主流。一旦采摘的鲜切花超过了保鲜期,它的使用价值就近乎等于零。同时,鲜切花的预估价格是否精准也成为鲜切花销售环节中的重要因素。因此,在云南省鲜切花产业中,最后也是最重要的一个环节——销售环节,成为了最为关键的环节,涉及到鲜切花的价格、需求量、供给量等各种复杂的因素。
知识图谱以结构化的方式对所有知识作出表示[12]。随着人工智能技术的快速发展,知识图谱在知识的自动获取、知识表征和推理学习、基于图谱的深度挖掘等方面取得了突破性进展,知识图谱相关技术已经在智能语义搜索、问答系统以及公安、医疗、军事等行业落地应用[13-15]。
云南省鲜切花领域知识图谱研究技术路线如图1所示,本研究主要从数据获取、知识提取、知识融合、构建云南省鲜切花领域知识图谱、纠正、补充、更新等方面进行研究。
图1 云南省鲜切花领域知识图谱研究技术路线
本研究构建云南省主要鲜切花品种知识图谱数据来源于以下2个方面。
第一个方面:来源于昆明国际花卉拍卖交易中心官网中主要鲜切花品种以及官方公布的数据信息。
第二个方面:通过网络爬虫技术,对云南省主要品种鲜切花的产量、销售量、价格等重要数据进行网络爬虫,获取有用的数据。
由于鲜切花品种繁多,同一品种之间具有不同的属性,因此构建鲜切花知识图谱中各对象之间存在复杂的关系,部分研究对象之间的特征在不同网站中存在一定的差异性。本研究采用具有直观性、形式化模型的特征,与大部分领域模型进行映射的NeoJ图数据库对知识进行存储。
本研究构建云南省鲜切花领域知识图谱的知识提取功能包括实体、属性、关系3个部分的提取。以世界五大切花及畅销切花为主要研究对象,将菊花、月季、康乃馨、唐菖蒲、非洲菊、百合等主要鲜切花作为知识提取的实体部分,将各实体之间的特性进行归纳、收集、整理,提取香气、花色、花瓣形状、单瓣(重瓣)等特性作为知识提取的属性,最后将各实体的属性以及实体间的关系进行分类、关联,找出构建鲜切花领域知识特征实体识别方法。
构建鲜切花领域知识图谱时,知识融合环节尤其重要,本研究主要将相同鲜切花具有不同名称,相同种类鲜切花具有不同形状,同种鲜切花在不同环境下的用途等情况,具体表现在以下几个方面。
1)同种鲜切花具有不同的功能属性。例如:玫瑰鲜切花作为一种观赏性和食用性都较高的鲜切花,可以用于制作香精香料、鲜花饼、插花等,根据不同用途对同一种玫瑰鲜切花进行不同方式的改良,种植出不同特征的玫瑰鲜切花。
2)不同种类鲜切花具有相同的功能属性。例如:菊花、月季、康乃馨、唐菖蒲、非洲菊并称世界五大切花,在香气、花型、颜色等方面的属性各异但却有相同的属性——观赏。近年来,作为园艺疗法的各类鲜切花提供了芳香疗法等功能,对于精神疲劳、高血压等患者具有一定的缓解作用。
3)相同种类鲜切花具有不同的花名。例如:同一种鲜切花因所处的地理位置不同、生长环境不同,所呈现的花色、花型相应不同。
知识融合能够将网络资源中分散的数据资源进行有机的整合形成完整的数据资源,有利于数据资源的整合,方便查询。拟采用基于图神经网络的实体对齐方法进行知识融合。以月季鲜切花为例,具体流程如图2、图3所示。
图2所示为月季鲜切花的不同属性的信息,通过爬虫技术,在A网站中找到月季鲜切花颜色、花型、香气等属性,主要包括:月季鲜切花颜色主要有红色、黄色、白色、蓝色、香槟色等,花型包括单瓣、半重瓣、莲座等,香气包括强香、淡香、清新等不同类型。在B网站中找到月季鲜切花花语、别称、品种等,主要包括:红色的月季代表“爱”“热情”,白色的月季代表“尊敬”,粉色的月季代表“初恋”。月季鲜切花的别称包括“月月红”“月月花”“四季花”等,品种主要有“红双喜”“大游行”“御用马车”等76个品种。
图2 月季鲜切花属性
经过知识融合后,将月季鲜切花的相关信息进行整合形成一个完整的体系,不需要通过大量的时间在网络中爬取数据、整理数据、删除错误数据,只需要查询云南省鲜切花领域知识图谱就能够查询到具体的信息,减小工作量,节约时间(图3)。
图3 知识融合流程
由于鲜切花种类繁多、种植量大、销售量大、花色丰富、花形差异较大,通过网络爬虫收集到的数据存在数据残缺不全,甚至存在少量的错误信息,构建的知识图谱存在数据量不够、知识偏差、误差较大等问题,进行知识完善和修改势在必行。因此,本研究以昆明国际花卉拍卖交易中心数据信息为基础,建立云南省鲜切花领域本体,对其进行实体、属性、关系的形式化表示,从而对网络爬取的实体进行融合、合并,进而实现对自动创建的云南省鲜切花领域知识图谱的完善和修改。
以云南省主要鲜切花品种为研究基础,对云南省鲜切花领域中主要的品种为本体的术语进行提取,并在此基础上定义概念间的类属和组成关系。其中,Member-of关系定义了概念间的类属关系;part-of关系定义了概念间的组成关系。可用图的形式表示本体结构如图4所示。
图4 月季鲜切花本体关系
在表示鲜切花领域语义内容时,以鲜切花中最具有代表性的世界五大切花为对象进行说明。因此,将菊花、月季、康乃馨、唐菖蒲、非洲菊的典型类属关系的概念表示为Member-of关系如图5所示。为进一步研究不同鲜切花的关联与区别,对月季鲜切花中最为常见的大花香水月季进行本体描述。其中,将研究对象进行详细分类,主要分为颜色、特征、品种等多种属性;将颜色分为单色、复色两种,其中单色包括白色、黄色、红色、蓝色、黑色等;特征包括植株的形状、气味、观赏性等;品种主要是依据不同的颜色进行分类,并且相同颜色的品种细分为不同的花名,例如白色月季包括“肯尼迪”“婚礼白”“绿云”等品种。鲜切花领域本体part-of关系示意图,具体描述方式如图6所示。
图5 鲜切花领域本体Member-of关系
图6 鲜切花(大花香水月季)领域本体part-of关系
构建云南省鲜切花领域知识图谱后,查询各种类鲜切花之间的关系以及相同鲜切花在不同环境中的属性等。本研究采用云南省鲜切花领域知识图谱,为构建基于智能算法的鲜切花推荐模型群提供基础性支撑。对于种植鲜切花的农户、中小型企业而言,选种是种植鲜切花是否盈利、盈利多少的关键因素之一。对于花农而言,选种主要是选择种植成活率高、销售量大、销售价格高的品种。但是,很少存在同时满足以上3个条件的鲜切花品种。并且,鲜切花销量、销售价格不会固定一成不变的,随着人们的需求量以及市场的供应量而决定。因此,花农根据种植经验以及自身模糊的判断去选种种植,往往出现供不应求或者供大于求的不良现象。针对种植鲜切花的中小型企业,企业管理人员通过专家咨询等方式对来年或者下一季鲜切花的价格进行预测。此外,企业管理人员会采用传统的数学方法构建模型进行价格预测。
一是针对高端批发商收集整理数据。由于昆明国际花卉拍卖交易中心聚集了全国乃至全亚洲最具有代表性的批发商,他们的意见将对全国乃至全亚洲的鲜切花市场产生巨大的影响。因此,针对这些专业人士进行问卷调查,并将问卷调查结果进行分析整理,统计喜欢的鲜切花颜色、花型、香气、品种等多种因素。二是针对大众消费人群收集整理数据。分别赴各大鲜切花销售市场进行问卷调查,统计喜欢的鲜切花颜色、花型、香气、品种等多种因素。三是针对专业群体收集整理数据。分别对高校、科研院所等研究人员以及鲜切花种植企业的管理(技术)人员进行采访,统计认可的鲜切花颜色、花型、香气、品种等多种因素。分别将3个不同类型的调研数据进行分类整理,形成3类不同的数据集合。以云南省鲜切花领域知识图谱的构建为基础,将收集到的数据与知识图谱中的关键节点进行匹配,增大数据信息量。随着数据量的不断增加,将每类数据再次进行详细划分,形成更加细化的数据分类集合。当数据量不断增加,数据集合类型不断细化,达到100种类型后,组成构建智能推荐模型的数据结合。
3.2.1 确定隐含层神经元数量 以BP人工神经网络算法构建智能预测模型为例,构建鲜切花智能推荐模型。设定3层BP神经网络,通过试验确定隐含层神经元数量,具体算法如下:
1)设定BP神经网络构建智能推荐模型中最大迭代次数为1 000次,学习率为0.01。
2)分别设置BP神经网络中隐含层节点数为2—9,当迭代次数达到1 000次,并且R值最接近1时的节点数为最终确定的节点数。
3.2.2 构建基于BP神经网络算法的智能推荐模型 在MATLAB平台上,采用BP人工神经网络算法构建智能推荐模型,为种植鲜切花的农户、中小型企业乃至大型种植鲜切花企业提供推荐鲜切花品种,具体算法如下:
1)直接使用MATLAB中神经网络工具箱中函数newff构建网络。
2)将100类数据中50%关键节点数据量作为影响因素输入网络中,对BP网络进行训练。
3)将剩余数据作为测试集数据输入测试集中,将输出推荐的结果,实现推荐功能。
4)只有网络训练结束,否则将返回第2步继续进行网络训练。
面对不同用户输入需求的关键因素,智能推荐系统将进行相应的推荐。由于智能推荐模型的精确度取决于训练数据集、测试数据集中数据量的大小。因此,数据积累到大于等于1 000组数据时,该模型才具有可借鉴性。在数据量大于1 000组的前提下,数据量不断增加,将不断提高智能推荐模型的推荐精准性。
1)针对花农,智能模型能够提供一种咨询功能,即花农可以选择需要查询鲜切花的品种,智能模型自动输出该品种鲜切花在下一期的销售价格、需求量等信息,并且根据近期的温度、湿度情况,提供该种鲜切花病虫害防治的方法。
2)针对中小型种植企业,智能模型有选择性地提供该企业种植的主要鲜切花品种在花卉拍卖市场中的价格、需求量等信息;提供鲜切花预警系统的权限,即在花卉拍卖市场中,各种鲜切花价格的行情变化图,供中小型企业分析市场行情;提供并实时更新该企业防治病虫害的方法。
3)针对研究人员,智能模型能够提供试验过程中产生的所有数据,为改进智能模型提供数据支撑。
构建基于知识图谱的鲜切花智能推荐模型,实现定制化的鲜切花推荐功能,为不同环境下的人群专业定制不同鲜切花,便于针对不同情况选择不同鲜切花进行种植。但是,由于时间、地域的跨越,该模型难以进行大规模的推广。因此,引入云平台设计云平台环境下鲜切花智能推荐系统(图7)。
图7 云平台在云南省鲜切花产业中的应用结构
1)首先向云计算服务商申请云计算平台,能够为云南省所有花农、中小型乃至大型鲜切花种植企业提供价格低、推荐结果精准、安全性能强的基于智能算法的鲜切花种植推荐模型的用户端。
2)基于智能算法的鲜切花种植推荐模型用户端界面使用方便,随时可以通过手机端或者PC端进行查询,并且能够实时更新各种推荐的数据。
3)鲜切花种植推荐模型使用成本低,仅需要向服务商提供维持模型运行的费用,大大降低了使用者的成本,能够为用户推荐精准信息,为花农、散户、企业提供精准的决策信息。
鲜切花产业作为云南省支柱产业之一,是云南省脱贫攻坚与美丽乡村建设的主要内容,是云南省绿色产业发展的重中之重。借助知识图谱、人工神经网络算法等大数据技术,构建基于智能算法的鲜切花种植推荐模型,为花农种植鲜切花品种提供了精准数据;为鲜切花种植的中小型企业发展指明了方向;为大型鲜切花育种、种植企业的决策提供了辅助支撑作用。同时,为鲜切花领域的科研人员提供了数据收集整理的最佳平台,为构建云南省鲜切花领域大数据平台奠定了基础。