基于PCA-GA-SVR的鲜食葡萄运输过程品质建模

2022-06-30 07:31朱志强冯建英
农业大数据学报 2022年1期
关键词:鲜食感官样本

贺 苗 李 鑫 朱志强 冯建英*

(1.中国农业大学信息与电气工程学院,北京 100083;2.国家农产品保鲜工程技术研究中心(天津),天津 300000)

1 引言

葡萄由于具有良好的风味及较高的营养价值而深受大众消费者的喜爱[1],我国葡萄主产区和主销区普遍分离,因而葡萄从葡萄园到消费者餐桌需要经过生产者、收购商、批发商、分销商、零售商、消费者等环节,物流过程较长[2]。葡萄浆果汁多肉嫩,在物流运输过程中其品质容易受到物流环境、震动、搬运等因素的影响,造成营养价值和商品价值的降低。因此,对鲜食葡萄运输过程中的品质进行准确评价具有很强的现实意义。

生鲜水果的品质指标可以由其理化指标和感官品质指标来表征。理化指标需要通过物理、化学等手段进行测量和评价[3-4],检测结果具有客观、准确等优点,评价结果距离普通消费者的认知和感受较远[5],专业人士才能够看懂鲜食葡萄理化指标背后代表的品质信息。感官品质指标一般需要开展感官评价来获取数据,感官评价通过感官评价员对鲜食葡萄的外观、香气、果粒风味、质地等感官品质指标进行评价打分[6-7]。感官评价的结果更接近消费者对果品品质的感受和认知,但存在组织实施成本大、主观性强的弊端[8]。由于水果品质指标的内部关联性,鲜食葡萄的感官属性与理化指标有着一定的联系,因此可以将理化指标与感官评价结合,对鲜食葡萄的理化指标和感官品质进行建模,量化理化指标与感官品质的关联关系,从而得到更全面和有效的品质评价结果。

目前已有一些研究应用机器学习算法对食品的感官品质进行评价[9-11]。由Vapnik 于1995 年提出的支持向量回归(Support Vector Regression,SVR)算法利用了支持向量机(Support Vector Machine,SVM)的算法思想,并引入不敏感损失函数ε 解决非线性回归问题[12]。SVR 应用广泛,在解决小样本、非线性及高维模式识别等问题上显示了一定的优势[13]。蒋华伟等[14]、Yao[15]等学者基于SVR 模型预测了小麦、肉类的品质。针对简单SVR 具有欠学习、过拟合等不足,学者们从不同角度探讨了简单SVR 模型的改进和优化[16-19],经过优化改进的SVR 有着比简单SVR 更好的效果。鲜食葡萄理化指标和感官品质评价样本数据具有小样本、非线性、时变性等特征,因而预期支持向量回归模型(SVR)可以较好地拟合鲜食葡萄理化指标和感官品质之间的非线性关系,并对简单SVR优化改进以得到更高的预测精度。

综上,本研究将通过鲜食葡萄运输仿真实验获取葡萄理化指标和感官品质数据,提出一种基于改进SVR 的鲜食葡萄感官品质建模方法,利用鲜食葡萄的理化指标参数预测其感官品质,以实现鲜食葡萄品质的快速、动态评估,为感官品质预测提供了新的方案,还可将结论反馈到物流管理中,提升鲜食葡萄的品质。

2 材料与方法

2.1 实验与数据

2.1.1 鲜食葡萄物流运输调研

当前鲜食葡萄运输模式主要有常温运输、保冷运输和冷链运输。常温运输不采取任何制冷措施,保冷运输于运输开始之前在田间进行预冷,运输中利用棉被等包裹住葡萄以维持果实的低温,而冷链运输全程通过人工制冷手段使鲜食葡萄维持在适宜的低温环境中。常温运输和保冷运输一般用于短距离运输,冷链则可以实现远距离和长周期运输。实验之前,先跟踪调研了三条典型的鲜食葡萄供应链,通过传感器获取了运输过程的环境因子数据,以便后续在实验室开展鲜食葡萄模拟仿真实验。

2.1.2 葡萄运输模拟实验

根据鲜食葡萄实际运输过程的环境因子监测结果,在实验室条件下通过温湿度调控,模拟了三种运输过程,实验地点为国家农产品保鲜工程技术研究中心(天津)。三种运输模拟实验选择同一品种、同一批次的鲜食葡萄,实验葡萄购于天津红旗农贸综合批发市场,品种为巨峰。

实验中当温、湿度有显著变化(温度变化1℃,或湿度变化1%)时,随机取出25 串样本,对鲜食葡萄理化指标进行测定,同时开展感官品尝实验。常温运输、保冷运输、冷链运输模拟实验分别进行了12 次、13次、17次测定。实验设计如图1所示。

图1 运输模拟实验设计流程Fig.1 Design process of transport simulation experiment

2.1.3 感官评价实验

感官评价实验伴随理化指标检测实验开展,实验地点在国家农产品保险工程技术中心的感官分析实验室,参照NY/T1986-2011标准设计了鲜食葡萄感官评价评分标准表,如表1所示。邀请的10名感官评价员均具有生鲜农产品工程专业背景,并且接受过专业的鲜食葡萄感官评价培训。评价员根据评价指标和评分标准,对每次取出的葡萄样本进行感官评价,得到葡萄样本在不同时间点上各感官属性指标的分值,加总得到其感官品质总分;对10 份感官评价结果取均值,获得感官评价最终得分。

表1 鲜食葡萄感官评价评分标准Table1 Table Grape Sensory Evaluation Scoring Standard

2.1.4 数据预处理与数据集建立

对获取的运输时长、葡萄理化指标和感官品质数据进行预处理,包括去重、修正异常值、去除错误数据、数据标准化等,最终得到鲜食葡萄品质数据集。常温运输数据集包含300 条记录,保冷运输数据集325 条记录,冷链运输数据集425 条数据以及混合数据集1050 条。四种数据集中,每条记录具有三方面的特征属性,即运输时间、理化指标(失重率、可滴定酸含量等11项指标)、感官品质得分。

2.2 基于PCA-GA-SVR 的建模方法

2.2.1 基于SVR的鲜食葡萄感官品质评估基础模型构建

以鲜食葡萄的理化指标数据作为输入,鲜食葡萄感官评估得分作为输出,实现对鲜食葡萄的理化指标与鲜食葡萄的感官品质之间的关系建模。假设为支持向量回归模型的目标输出值即感官评价得分,为支持向量回归模型的输入变量即理化指标数据值向量,其中Xi表示第i个样本葡萄的理化指标数据值向量;n表示指标的维数,即n=11。建立与输出之间的Yi={yi}的映射关系:Rn→R。用训练样本集{(xi,yi),i=1,2,…,n}训练模型,输入输出的形式为:

SVR 的精确性和推广能力很大程度上依赖于核函数及超参数[20-22],因而核函数的类型选择及其参数确定至关重要[22-23]。鲜食葡萄数据集具有非线性特征,因此线性核函数的效果欠佳;多项核函数能够解决非线性问题,但多项式核函数参数较多,应用高阶多项式会大大增加其复杂度,甚至达到无法计算的程度[24];Sigmoid 核函数在实际的应用中应用较少,这是因为当Sigmoid 核的参数满足某些特定条件时,Sigmoid 核函数才符合半正定核[25];径向基核函数适用性更强,对于不同分布的样本均能适用,能够较好完成低维空间到高维空间的非线性映射[26],且径向核函数的参数较少,在参数确定和选择时较简单。因此,本研究选择径向基核函数作为支持向量回归模型的核函数,径向基核函数表达式如下:

2.2.2 基于PCA的鲜食葡萄理化指标降维方法

鲜食葡萄共有11 项理化指标,维度较高,如果直接使用原始样本数据会影响支持向量回归模型的预测精度及泛化能力[27]。主成分分析法(PCA)可以消除变量之间的相关性,从而实现数据降维、提高模型的运算效率和预测效果。本研究利用主成分分析法对原始数据进行降维,在保证原始数据的信息量的同时,能够为后续的模型算法减少了运算次数,提高计算效率。主成分分析的具体步骤如下:

(1)利用经过预处理的理化指标数据构造样本矩阵:

其中m为样本的个数,4 个数据集的m 取值不同;n为样本的维度,此处n=11。

(2)建立相关系数矩阵R

式中rik是由矩阵X的第i列和第k列构成的随机变量的相关系数。

(3)求R的特征根及特征向量

令|R-λI|=0,根据数值从小到大排列求出的矩阵R 的n个特征根:λ1,λ2,…,λn。利用初始因子载荷计算特征向量。

(4)计算贡献率及累计贡献率

计算第i个主元素的贡献率ωi:

则前k个主元素的累计贡献率ω:

一般情况下,当主成分的累计贡献率达到85%,就认为这些主成分足以表示原样本数据的大部分信息[28]。

(5)确定主成分表达式

根据求出的特征向量,确定主成分的表达式:

其中,i=1,2,3…,m;uim为对应的特征向量。

2.2.3 基于遗传算法(GA)的SVR参数优化方法

优化算法是指通过使输出结果和正确结果之间的误差最小化的方式来更新迭代参数并优化模型的算法[29]。支持向量回归模型的预测精度取决于核函数类型,而影响其性能的关键因素是核函数中的参数g 和惩罚因子C。惩罚因子C 如果过小,则对误差的惩罚偏小,会导致“欠学习”;C 过大会对误差惩罚偏大,减少了对模型结构的限制,导致“过学习”[30]。当径向基核函数的核参数g 较小时会降低支持向量回归模型对数据样本的正确预测能力;当g 较大时会提高支持向量回归模型对样本数据的正确预测能力,g趋向于无限大时,可能会造成“过学习”。因此,正确的选择合适的误差惩罚系数C 和参数g 来优化支持向量回归对其性能有着重要的影响。

遗传算法(genetic algorithm,GA)通过对一组可能解所构成的初始群组进行选择、交叉和变异操作,使得样本适应度值不断提高,直至寻求到全局最优解。遗传算法对支持向量回归模型的参数寻优基本思路为:估计支持向量回归模型的惩罚因子C 和核参数g 的取值范围,其中个体为每一个(C,g),种群由多个(C,g)构成,编码组成部分相当于个体基因,通过利用适应度函数即均方误差函数MSE 的评价,选出最优的参数C和g。

2.2.4 PCA-GA-SVR模型优化的整体思路

综上,本研究构建PCA-GA-SVR 优化模型以实现通过鲜食葡萄的理化指标评价其感官品质的目的。模该型的核心思想和实现步骤如下:

Begin

Step 1.采集数据,对数据进行预处理,包括去重、修正异常值、去除错误数据、数据标准化等,得到实验的样本数据集;

Step 2.对输入变量即理化指标数据利用主成分分析法进行降维;

Step 3.从数据中随机选取训练集与测试集,训练集与测试集的比例为4:1;

Step 4.参数配置。设置种群数量和最大进化代数,定义参数C和g的取值范围;

Step 5.初始化编码数据,通过配置的初始参数,编码生成初始种群;

Step 6.对种群个体进行计算,得出种群中每个个体的适应度;

模型的主要流程图如图2所示。

图2 PCA-GA-SVR 模型流程图Fig.2 PCA-GA-SVR model flow chart

3 结果与讨论

针对三种不同运输实验的混合数据集建模,并将四种数据集的建模结果进行比较,探索鲜食葡萄理化指标和感官品质的关系。

3.1 理化指标的相关性分析

对理化指标之间、以及理化指标与感官品质进行了相关性分析。通过分析各变量之间的相关性矩阵,发现理化指标数据与感官品质之间的相关性受到运输模式的影响较小,因此由于篇幅原因只展示常温运输中鲜食葡萄品质指标的相关系数矩阵,如表2 所示。感官评价与失重率、果梗拉力、果梗叶绿素含量、可滴定酸含量、抗坏血酸含量、可溶性固形物含量、硬度、弹性、凝聚性、咀嚼性、回复性这些变量之间存在中等及以上的相关性;失重率、可滴定酸含量、与抗坏血酸含量之间存在强正相关性,与果梗拉力、果梗叶绿素含量、硬度、咀嚼性、弹性、凝聚性、回复性呈现强负相关性;果梗拉力、果梗叶绿素含量、硬度、弹性、凝聚性、咀嚼性与回复性之间存在中强相关性。由于鲜食葡萄的各项理化指标数据在运输过程中受温度、湿度环境条件的影响,葡萄果实散发水分,失重率上升,果实失水,果汁收缩,可溶性固形物含量及抗坏血酸含量因此上升;在此过程中葡萄的各项质构指标也因为果实的失水而下降。通过主成分分析可以把相关性较大的样本数据进行简化,用少数几个主成分代替原样本数据。

表2 常温运输过程鲜食葡萄品质指标的相关系数矩阵Table 2 Correlation coefficient matrix of quality indexes of table grapes for normal temperature transportation

3.2 理化指标的降维结果

一般情况下,当主成分的累计贡献率达到85%,就认为这些主成分足以表示原样本数据的大部分信息。常温运输的理化指标主成分分析结果如表3 所示,可以看出前3 个主成分的累计贡献率为90.486%,高于85%,因此前3 个指标可以代替11 个原始理化指标。类似地,保冷运输、冷链运输以及混合三种运输模式的前3 个指标可以代替11 个原始理化指标。

表3 常温运输理化指标主成分贡献率Table 3 Contribution rate of principal components of physical and chemical indicators of normal temperature transportation

3.3 基于PCA-GA-SVR 组合方法的感官评估建模结果

3.3.1 模型评估方法

采用平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)、决定系数(R2)作为评价模型的指标。

3.3.2 模型参数优化结果

分别将不同运输模式下通过PCA 降维后的3 个主成分作为PCA-GA-SVR 鲜食葡萄品质评价模型的输入变量,鲜食葡萄的感官评价分数作为输出变量,支持向量回归模型的核函数选择径向基核函数,利用遗传算法优化支持向量回归模型的参数,遗传算法初始化种群规模为N=30,最优惩罚因子C和核参数g的范围从0.01 到100,最大迭代次数为100,均方误差MSE作为适应度函数。

经过算法迭代,最终基于遗传算法对支持向量回归模型的参数进行优化结果如下:常温运输最优惩罚因子C为3.1815,核函数g为0.0533;保冷运输最优惩罚因子C 为3.999,核函数g 为0.0497;冷链运输最优惩罚因子C 为3.225,核函数g 为0.0461;混合数据集的最优惩罚因子C为3.124,核函数g为0.0387。

3.3.3 建模结果及分析

针对四个数据集,按照4:1 比例分别随机选取样本建立训练集和测试集,基于PCA-GA-SVR 模型对理化指标与感官品质进行建模,并以SVR、PCA-SVR模型作为对照,模型在不同数据集上的性能评价结果如表4所示。

表4a 常温运输PCA-GA-SVR 组合模型评价结果Table 4a Evaluation results of PCA-GA-SVR combined model for normal temperature transportation

表4b 保冷运输PCA-GA-SVR 组合模型评价结果Table 4b Evaluation results of PCA-GA-SVR combined model for Cold Storage Transportation

表4c 冷链运输PCA-GA-SVR 组合模型评价结果Table 4c Evaluation results of PCA-GA-SVR combined model for Cold Chain Transportation

表4d 混合数据集PCA-GA-SVR 组合模型评价结果Table 4d Evaluation results of PCA-GA-SVR combined model for Mixed Datasets

可以看出,PCA-GA-SVR 评价模型与PCA-SVR相比,指标MAE、MSE、RMSE 均下降,R2均在提高,表明遗传算法在选择最优参数方面的优越性;PCAGA-SVR 预测模型与SVR 预测模型相比,评价指标MAE、MSE、RMSE 均发生下降,R2均在提高,说明了PCA 对于输入变量的选择可以有效降低待处理问题的复杂性。而混合数据集中模型的精度相较于其他三个数据集更高,可能的原因是不同运输模式对理化指标数据与感官品质评价之间的模型关系影响较小,而混合数据集由于数据量大、训练样本较多,使得模型的准确性有所提高。优化模型及对照模型的拟合结果如图3所示。

由图3 可以看出,SVR 与PCA-SVR 预测结果较为接近,拟合结果均与原始数据有一定差距,尤其在感官评价分数变化波动较为剧烈的附近误差更大。经过遗传算法优化的PCA-GA-SVR 模型预测的准确性和精度有了明显的提高,与测试集中原始数据拟合效果更好。

图3a 常温运输PCA-GA-SVR 组合模型的拟合结果Fig.3a Fitting results of PCA-GA-SVR combined model for normal temperature transportation

图3b 保冷运输PCA-GA-SVR 组合模型的拟合结果Fig.3b Fitting results of PCA-GA-SVR combined model for Cold Storage Transportation

图3c 冷链运输PCA-GA-SVR 组合模型的拟合结果Fig.3c Fitting results of PCA-GA-SVR combined model for Cold Chain Transportation

图3d 混合数据集PCA-GA-SVR 组合模型的拟合结果Fig.3d Fitting results of PCA-GA-SVR combined model for Mixed Datasets

4 结论

本研究提出了基于PCA-GA-SVR 组合方法的鲜食葡萄感官品质评价模型,实现了利用理化指标数据预测评估感官品质。主要结论如下:

(1)构建了基于PCA-GA-SVR 组合方法的鲜食葡萄感官品质评估模型:主成分分析法(PCA)用于降低输入数据的相关性和维数,遗传算法(GA)用于对支持向量回归模型(SVR)参数进行优化和调节。通过实验表明,针对常温运输、保冷运输、冷链运输以及混合数据集,基于PCA-GA-SVR 组合模型的感官品质评价模型性能均最优,能够较好地反映鲜食葡萄理化指标与感官质量之间的非线性映射关系,且混合数据集中模型数据量大、模型训练充分,模型精度更高。

(2)由于理化指标数据与感官品质之间的关系受到运输模式的影响较小,因而本研究提出的感官品质评估模型可以较好地应用在任何运输方式上,用来反映物流运输中鲜食葡萄品质变化情况,辅助物流过程中生鲜农产品的品质控制与管理。

猜你喜欢
鲜食感官样本
早春种好鲜食玉米有诀窍
种好鲜食玉米有诀窍
全国鲜食玉米速冻果蔬大会举行
规划·样本
感官训练纸模
感官训练纸膜
随机微分方程的样本Lyapunov二次型估计
鲜食甜玉米栽培技术研究
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
“官员写作”的四个样本