曹 艳,刘 强,胡 亮,胡 旭,刘远利
(1.四川省农业科学院农业信息与农村经济研究所,成都 610066;2.四川省农业科学院,成都 610066)
【研究意义】成果评价和估值是技术转移过程中不可或缺的一环,是确定转化科技成果并进行产业化的基础,同时也是进行对外商业化谈判、确定许可费比例的前提,是发挥科技第一生产力作用的关键[1]。基于数据的客观便捷的农业科技成果价值评估,是提高农业科技管理效率、科技投入产出效益、科技评价准确性和客观性的基础,是成果交易转换中不可或缺的重要环节。【前人研究进展】国家标准化管理委员会于2015年12月10日发布了农业科技成果评价技术规范,明确了评价的原则、内容和程序,该规范主要从技术、效益和风险3个维度给出农业科技成果评价指标的定义及权重赋值。传统的农业科技成果评价过于依赖专家的主观判断,和以数据为基础的评价方式相比,更缺少客观、公正,信息技术的发展给农业科技成果的交易估值带来了新方法。神经网络算法ANN(Artificial neural network)是一种模拟生物神经网络的结构和功能的数学算法模型,具有分布式存储、并行处理、自学习和自组织等优势,能够适应复杂的非线性问题[2-3]。神经网络由输入层、隐藏层和输出层组成,从输入层输入样本特征值,经过隐藏层处理后传输给输出层,由输出层输出最终的评估值。神经网络算法ANN能从历史数据中自学习规则,此外还有高速并行运算、多维度数据处理、分布式信息存储等方面的优势[4-7]。神经网络中的权值通过模型对样本的学习得到,因此,使用神经网络方法对农业科技成果价值进行评价,能够有效避免人为赋予权重时的主观影响[4]。在大样本的支持下,研究者能够建立对农业科技成果价值进行评估的综合评价模型。模糊逻辑系统(Fuzzy logic system)[8-11]是综合利用模糊概念和模糊逻辑构成的包含模糊输入数据集、模糊规则库、模糊推理机和模糊输出数据集的系统,它被广泛用于现代控制系统中,如专家系统等[12-14]。模糊系统[15-16]是基于规则的系统,可以模拟人的逻辑思考过程并定义大量规则,这些规则可以结合领域内的专家知识形成模糊规则集合。BP神经网络作为应用最广泛的神经网络之一,被研究者用于科技成果价值评估的实践中。专利是一种重要的科技成果,其价值主要由其带来的未来收益所决定,受众多因素影响,且影响因素间也可能存在相关性。BP神经网络能够很好地解决专利价值评估这一非线性且带有主观能动性的问题[17]。秦薇[18]以农业科技成果中植物新品种权为研究对象,通过对植物新品种权价值影响因素的确定、数据的获取和BP神经网络模型的训练,得到基于BP神经网络模型的植物新品种权价值评估方法。对成果价值具有影响的指标确定是建立评价体系的重要步骤,李雷霆[4]利用粗糙集理论对农业企业孵化器运营水平评价指标进行初步筛选,再使用RBF神经网络进行评估,能够有效降低神经网络输入维度,加速学习速度,提高评价效率。在实践中,粗糙集理论与RBF神经网络结合的R-RNN模型能够准确评价农业企业孵化器目前所处的运营水平,为农业企业孵化器的进一步提高提供有力帮助。Li和Xu[19]用BP神经网络对研究通过模糊综合评价(FCE)和层次分析法(AHP)所建立的高校科技成果转化模式的评估指标体系及其权重值进行验证,结果显示该评价模型的学习和预测能力都具有较好效果。【本研究切入点】突破固有的指标体系或权重不能完全脱离专家分析的依赖,直接从历史交易数据提取指标并学习、存储规则知识,同时用于价格预测。【拟解决的关键问题】针对农业科技成果估值难题,基于农业科技成果历史交易数据,采用改进的五层模糊神经网络IFNN(Improved fuzzy neural network)提取农业科技成果相关指标并学习、存储其规则知识,应用于农业科技成果的估值,为农业科技成果转化交易提供重要依据。
数据集采用四川农业科技成果交易历史数据602条,其中,70%作为训练集,20%的数据作为验证集,10%用于测试[20]。
数据预处理:首先抽取评价对象相关的历史交易信息和交易产品的属性数据,包括成果的名称、所属品类、历史交易价格、抗性、平均产量、品质、阶段(成熟度)、适应性等。
1.2.1 试验流程 本研究的目标是实现农业成果交易价格预测,即通过农业成果多维度指标(包括产量、抗性、品质、阶段等)来预测评估对象的交易价格。估值模型评估流程(图1)主要包括以下4个步骤。
图1 估值流程Fig.1 Evaluation flow
图2 五层模糊神经网络FNNFig.2 Example of the five layers FNN
1.2.2 数据抽取 抽取2011 年1 月1 日至2022年12 月31 日四川省农业科技成果数据。基于整理入库的四川农业科技成果交易历史数据项和四川省农业经济学会发布的《农业科技成果应用价值评价种植类评价指标体系》(T/SAAE002—2022)选取与评价对象交易价格最相关的8个特征项,具体包括:名称、类型、金额、时间、平均产量、品质、抗性、阶段、适应性、品种权,数据集估值特征说明如表1所示。
表1 农业科技成果数据集估值特征释义
1.2.3 数据预处理 先进行数据清洗,采用缺失值均值插补操作,然后进行特征构建工作,通过对特征特性等字段的内容识别提取多列字段通过基本运算生成对应的量化数据,最后通过将数据按比例缩放,使之落入一个小的特征空间内。为了让抽取得到的数据具备可比性,对抽取的历史数据进行特征构建及标准化。采用归一化处理,将数据统一映射到[0,1]区间上。Min-max标准化(Min-max normalization)亦称离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间,对序列x1,x2,...,xn进行转换的函数如下:
式中,max为样本数据的最大值,min为样本数据的最小值。
1.2.4 分析与建模 基于模糊神经网络模型FNN进行价格预测,把模拟数据和实际数据进行预处理后,分别灌入估值模型的特征输入层,模型根据数据特征自动提取规则和存储知识,最后得到模拟训练结果和实际训练结果,用来支撑对比分析在模拟完备数据和缺失部分数据时,评估准确率的高低差别及原因,从而对模型和估值流程进行改进。
1.2.5 应用结果反馈 模型训练阶段,利用历史成交数据,进行模型训练,得到的估值结果,和实际成交价格进行比较后,对模型进行纠偏。实际业务中,跟踪曾经进行交易价格预测值的成果,收录成果的最终成交价,用于模型优化。
将数据集经过归一化处理,得到数据集(表2),接着对模型进行训练,并检测模型的准确率,训练数据模拟了数据集选择性抽取对应的7个不同维度,其他特征数据为缺省状态。
表2 数据集归一化结果
抽取实际业务数据集,在农业科技成果数据中,选取农作物品种作为模型训练样本,首先进行数据清洗,提取农作物的数据。抽取得到的结果如表3所示,实际获得的数据有不少字段缺失数据。
表3 作物品种量化数据集的抽取
以评估油菜品种价值为例,提取油菜品类及其主要属性的样本数据,形成油菜品种量化数据集(表4)。
表4 油菜品种量化数据集
神经网络算法从历史数据中归纳存在的模式或者与不同特征之间的关系,但它学习到的模式或特征关系难以解释,结合模糊理论的优势,形成模糊神经网络系统,能够把输入特征数据转化为模糊集合,结合不同规则形成结果,实现用模糊权重代替实数权重,可以让计算过程不受限于专家主观设定的参数,并且让网络保持结果的可解释性[21-22]。构建的五层模糊神经网络算法FNN,第一层为输入层,为精确值,节点个数为输入变量的个数。第二层为输入变量的隶属函数层,实现输入变量的模糊化。第三层为规则层,实现知识的创建与存储。第四层为分类层,完成对成果的分类和预测。第五层为输出层,完成交易价格的估值预测,并给出具体结果。
同类农业科技成果数据及其交易数据完备时,在抗性和适应性维度上,训练结果未能明显区分开,逐步加入质量、品种权、阶段、平均产量等多个维度后,样本产生了较大程度的聚类(图3),模拟数据的模型训练准确率能够达到96%,在实际应用中,数据的准度、精度、密度、完整度都会影响评估结果的准确率。
图3 训练集维度空间Fig.3 Space graph of the training set dimension
运用实际业务数据训练FNN模型,模型的训练准确度达到80%(图4)。
准确度:80.0%图4 FNN模型训练准确度Fig.4 Training accuracy of FNN Model
2.4.1 采用FNN模型存在的问题 现有样本数据和模型存在的问题是农业科技成果的交易信息具有动态增加的特点,因此需要模型具有接受增量数据进行增量学习并持续动态更新的能力;在不重新训练模型的情况下持续接入增量样本实现模型动态学习并形成新的模糊规则以提高模型在预测交易价格时的正确率和对增量样本区间数据预测的适应性。但FNN模型在遇到增量数据时,需要重新学习包含增量数据在内的全部数据,耗费大量时间和运算资源重新调整参数,在实际业务场景下难以落地使用,为了提高估值模型的实用性,需要对FNN模型进行改进。
2.4.2 构建改进的五层模糊神经网络 构建改进的五层模糊神经网络IFNN(Improved fuzzy neural network)算法是在FNN算法基础上增加增量学习(Incremental learning),以保证改进后的模糊系统能够不断从增量样本中学习到新的知识和规则,并能在以前已经学习到的知识基础上增加新知识。增量学习避免了重新学习的低效,类似人工学习模式,不断地学习并接收新知识与规律的同时,模型的判断识别能力和处理问题能力随之增加。增量学习步骤(图5)包括:①新增规则:根据新增样本判断是否已存在该分类样本,如不存在,则创建一个新分类规则;如存在则执行扩展操作,修正现有规则所适应的范围;②重复检查:对应新创建的或扩展后的分类与已有分类进行比对监测,如存在重复会导致分类不唯一,则执行消除操作;③消除操作:消除前计算各个维度的重叠值,并确定该值对应的最小维度后,再执行消除操作。
图5 增量学习步骤Fig.5 The steps of incremental learning
2.4.3 改进估值流程 模糊神经网络和很多的机器学习算法类似,也是批处理学习(Batch learning)模式,即假设在训练之前收集到所有的训练样本,通过学习这些样本,完成学习任务,随后便会应用到实际分类预测任务中。但农业科技成果交易数据会随着时间不断增加,不可能一次性训练就让估值模型持续适用。新增交易数据转化成增量样本对模型估值的准确性、动态适用性至关重要。新增的成果交易数据需要通过各种渠道,在交易实时发生后尽快入到样本库,同时,新增交易数据结构还会因数据规范更替而变化,增量数据在提供给IFNN算法进行增量学习前,须进行数据预处理。因此针对改进的五层模糊神经网络IFNN,估值流程也需要改进(图6)。
图6 改进的估值流程Fig.6 Improved evaluation flow
改进的估值流程首先在完成从历史数据抽取特征数据的同时,对数据源进行判断,持续抽取新增信息,对得到的增量数据执行数据清洗、特征构建和数据标准化,经过上述预处理后的增量数据提供给IFNN算法,实现增量学习。
2.4.4 改进评估流程得到的训练结果 选取10条油菜实际业务样本数据作为增量数据,IFNN通过增量学习后,其估值准确率达到86.67%(图7),与FNN的估值准确率80%相比,提高6.67%(表5)。证明通过改进支持增量学习构建的IFNN算法能够在不重新对全部数据进行学习的情况下,优化模型并渐进地进行知识更新,提高估值准确率,同时降低了模型对时间和运算资源的需求,更适应实际业务要求。
表5 IFNN与FNN模型训练准确度对比
准确度:86.67%图7 模型训练准确度Fig.7 Model training accuracy
估值实例选择实际已经成交的品种绵油328,用以验证模型准确度。绵油328的详细信息中,提取出农作物名称:绵油328,类型:油菜,时间:20171128,阶段:可量产,品种权:无,品质:种子芥酸含量51.3%,商品菜籽硫苷含量129.72 μmol/g,含油率44.57%,平均产量:198.19 kg,抗性:抗菌核病。经FNN和IFNN模型估值模型运算,均得到预测价格为50万,与实际成交价格相同(图8)。
图8 绵油328交易价格预测结果Fig.8 Prediction result of transaction price of Mianyang Petro328
农业科技成果价值评估是成果转化交易的前提。在采用实际业务数据训练时,IFNN模型估值准确度比FNN模型提高6.67%,在新增样本量仅增加10个的情况下,已经显著提高。选取15个油菜品种,对比FNN和IFNN模型估值结果(表6),除中油杂39 和中油杂27两个品种的估值,FNN和IFNN模糊隶属度不同,其他估值结果相同。中油杂39估值中,两个模型估值均偏离实际成交价格较多;中油杂27的IFNN估值准确,FNN估值偏离较多。表明,实际业务估值时,IFNN估值准确度高于FNN。
表6 FNN和IFNN模型估值结果对比
IFNN模型从算法上满足了估值准确度随增量学习持续提高的要求。但为了进一步提高估值准确度,还需要更完备的训练数据。训练数据主要存在三个方面的问题:一是现实采集到的农业科技成果缺失较多数据项;二是成果描述大多采用文字描述,需要量化,但数据的量化未标准化,计算机自动提取困难;三是获得成果的说明大多是描写成果优秀之处,缺点少或无。因此,要获得农业科技成果评估的完备数据,需要在成果研发和管理过程中,遵守治理数据的规范,实时生产存储高质量数据,从而为实现农业科技成果价值评估的实时性、动态性提供更有利的数据支撑。
本研究针对农业科技成果估值的难点,提出一种基于改进的五层模糊神经网络IFNN的农业科技成果动态估值方法,在四川农业科技成果交易数据集上进行试验,本方法估值准确率达到86.7%。在成果各个阶段,及时对成果做出高效便捷的价值评估,能为其进一步投入、转化交易提供依据。尽管实际业务数据预测准确度(86.7%)与模拟完备数据预测准确度(96%)有一定的差距,但随着农业科技成果交易数据增加,IFNN模型估值准确度能够在持续增量学习下不断提高,IFNN估值模型具有可操作性和现实意义,适用于实际业务下农业科技成果价值评估。