范振岐,张含笑,王彦群,2*
(1塔里木大学信息工程学院,新疆 阿拉尔 843300)
(2华中农业大学信息学院,湖北 武汉 430070)
库尔勒香梨是新疆特色水果,也是中国最优质的地方梨品种之一,香梨果皮薄、质脆,果肉白色、多汁味甜、近果心处略酸、香味浓郁,是国家地理标志产品[1],以其优异的品质在国内外享有盛誉,是当地果农创汇增收的主要来源,已成为当地支柱产业之一[2]。库尔勒香梨品质的好坏,一个重要的指标就是糖度(Brix),也常常作为香梨等级评判的重要标准。根据库尔勒香梨标准 NY/T 585—2002[3],香梨糖度大于或等于12.5为特级,大于或等于12而小于12.5为一级,大于或等于11而小于12为二级。所以,糖度的测定是香梨等级评判的关键。糖度中大部分的成分是可溶性固形物,常用可溶性固形物含量反映糖度。传统的检测糖度方法是采用数字式糖度计或阿贝折射仪测量果汁的可溶性固形物含量[4-5],以此作为果肉的糖度,但此方法是有损检测,很难用于果品品质无损检测仪以及基于内部品质的果品工业化分级设备的研发中。因此,急需寻找一种简单、快速、无损的检测方法来检测香梨糖度从而进行分级,而近红外光谱分析技术正好满足这些要求。
近红外光谱分析技术可以测试物质对光的吸收、透射和反射的能力以确定特定成分含量,是一种快速、高效、低成本的检测技术,已广泛用于农产品品质无损检测。在蜜柑、苹果、芒果的糖度[6-8],甜瓜、蜜瓜、土豆、洋葱、脐橙、猕猴桃等可溶性固形物含量及干物质含量[9-11],草莓维生素C[12]和凤梨的水、纤维素[13]的检测方面得到了较好应用。关于梨的品质研究方面,已经有对梨表面色泽[14]、梨酸度[15]、砂梨的糖度[16]、南果梨的可溶性固形物[17]、翠冠梨可溶性固形物含量[18]和梨坚实度[19]等方面的研究。库尔勒香梨皮薄多汁的属性为无损检测技术应用提供了很好的条件。将振动频谱技术[2]、介电谱技术[4,20]、可见/近红外光谱技术[5]、高光谱技术[21]分别用于无损检测库尔勒香梨的可溶性固形物含量,已经取得了较好的预测效果。当前,库尔勒香梨果实品质成为人们研究的热点,但是利用近红外光谱技术进行库尔勒香梨等级判别的研究很少见。考虑到水果品种的差异性,糖分在不同水果中的光谱响应也不尽相同,因此需要综合系统地比较各种近红外光谱变量筛选方法和建模理论在库尔勒香梨含糖量预测中的性能,从而获取适用于库尔勒香梨等级评判的近红外光谱的最佳建模理论。
本试验以香梨糖度作为检测指标,使用近红外光谱仪采集波段范围在900~1 700 nm内的数百个香梨样本光谱数据,对原始光谱选择合适的预处理方法,筛选特征波段,以糖度特征光谱数据作为参数,利用最近邻域法、支持向量机、随机森林方法建立库尔勒香梨等级判别模型,并针对模型的优劣进行比较,从而建立适用于库尔勒香梨的基于近红外光谱的等级判别模型。
选购大小均匀、无损伤的库尔勒香梨350个作为样本集。对样本清洗以去除表面灰尘并进行依次编号后,放在室温中24 h以消除温度对所构建模型性能的影响。在采集光谱数据前,对样本沿赤道部位每隔120°进行采样区域标记,每个样本共标记3个采样区。
采用Micro NIR 1700便携式光谱仪,扫描获得样本吸光度原始光谱,对每个样本采集3次光谱数据,取平均值作为最终的试验数据,进行进一步分析。待采集完光谱数据后,将样品按原编号放回储存,以便后期进行糖度的测定。重复此步骤,直到采集完350份样品的光谱图像,扫描的光谱数据以Excel表格的形式导出。
光谱数据采集后,在样品的3个标记区域各切取一块带皮的果肉,分别人工压汁并过滤,用手持糖度计进行测量,记录3个糖度值,并对3个值取平均作为该样本糖度最终参考值。依次获取350个样本的糖度。
本试验通过4种方法对原始光谱数据进行预处理与分析,分别为一阶差分、二阶差分、标准正态变量变换(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)方法。
从复杂的信息中有效地提取具有代表性的信息建立模型,需要对样本进行选择,最常用的方法是基于欧式距离和浓度的样本选择方法(sample set partitioning based on joint x-y distance,SPXY)。将每个香梨的光谱数据建模为数据向量,近红外光谱吸光度作为特征值。使用SPXY算法将近红外光谱建模样本集按4∶1进行划分,80%样本组成训练集,20%样本组成预测集。从训练集提取光谱特征,作为预测阶段的特征集合。
由于原始光谱数据中包含了大量的噪声及冗余信息,如果将原始光谱都用于分析建模,会导致建模时间长且计算量大,所建预测模型复杂且稳定性较差。因此,要从原始光谱数据中选取具有一定代表性的特征波长,使模型简化、消除非线性或无关变量,从而使模型具有更强的预测能力和更好的稳健性。本研究采用相关系数法对近红外光谱数据进行降维,筛选出相关性异常显著的特征波长用于建模。
以糖度特征光谱数据作为参数,利用最近邻域法(k-nearest neighbors,KNN)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)方法建立库尔勒香梨等级判别模型,采用正确率来评价模型的优劣。其中,正确率越接近1,则说明所建模型的分类结果越好。
综上所述,基于近红外光谱的香梨等级判别模型的主要流程如图1所示。
图1 基于近红外光谱的香梨等级判别模型主要流程
香梨样本糖度分布如图2所示。由香梨糖度测定统计结果可得,糖度最大值为16.58,最小值为11.02,平均值为13.60,标准偏差为1.14。香梨样品根据SPXY算法按照4∶1的比例分为训练集和预测集。训练集与预测集的指标如表1所示。
表1 训练集与预测集的指标
图2 香梨样本糖度分布
图3a为香梨原始光谱。可以看出:光谱采集波段在900~1 700 nm之间,存在噪声和大量散射基线漂移,因此需要对原始光谱数据进行预处理。利用一阶差分、二阶差分、SNV、MSC四种处理方法处理,并进行比较分析,得出最优处理方法。四种处理方法处理效果如图3b、3c、3d、3e所示,可以看出,经过MSC预处理后的光谱有效地去除了噪声、散射、基线漂移影响,光谱特征增强,优于另外3种方法,有利于特征波长的选择。
图3 样品原始光谱及处理后光谱
糖类物质主要含O—H、C—H键,游离O—H键对应的近红外光谱吸收波段为960~980 nm、1 360~1 390 nm和1 400~1 420 nm;结合O—H键的近红外光谱吸收波段为1 000~1 130 nm;C—H键对应的近红外光谱吸收波段为1 150~1 200 nm和1 410~1 450 nm。利用相关系数法结合农产品各成分近红外光谱吸收波长对光谱数据进行降维,根据图4所示的波峰及波谷,选取出糖分含量的十二个特征波长分别为914 nm、933 nm、951 nm、970 nm、976 nm、1 001 nm、1 131 nm、1 150 nm、1 397 nm、1 404 nm、1 416 nm和1 540 nm,这些特征波长几乎都与糖类物质近红外光谱敏感基团对应,可用于后续模型的建立。
图4 相关系数法进行特征波长选择
香梨样品已经根据SPXY算法按照4∶1比例分为训练集和预测集。基于训练集,采用3种方法对特征谱段进行建模。在Anaconda开发环境中,利用python中sklearn软件包进行数据建模。KNN模型中KNeighborsClassifier函数使用默认参数,RF模型中RandomForestClassifier函数的参数max_depth设为2,random_state为0,SVM模型kernel参数设为线性核函数。糖度大于或等于12.5为特级,定义为0;大于或等于12而小于12.5为一级,定义为1;大于或等于11而小于12为二级,定义为2。然后利用建好的模型对36个预测集样本进行分类。三种模型的分类结果如表2所示,不同等级香梨的预测正确率如表3所示。
表2 不同模型下的分类结果
表3 不同等级香梨的预测正确率 %
三种模型分类结果与真实值的比较如图5所示。结合表2、表3及图5可以看出,KNN模型的准确率为100%。再比较模型的运行时间,KNN模型运行时间较短,介于另两种模型之间。接着,比较不同等级香梨的预测能力,三种模型对特级、二级香梨的预测正确率较高;对于一级香梨,SVM模型的预测正确率最低,RF模型稍高,KNN模型的正确率最高。其中,SVM模型将一级样本(样本27)判定为特级、一级样本(样本35、36)判定为二级,RF模型将一级样本(样本35、36)判定为二级,都是误判。
图5 三种模型分类结果与真实值的比较
综上所述,KNN模型在分类结果和运行时间方面较优,可用于构建香梨等级评判模型。
对于原始光谱的预处理方法,多元散射校正方法有效地去除了原始光谱的噪声、散射、基线漂移影响,光谱特征增强,明显优于一阶差分、二阶差分、标准正态变量变换等方法,这符合预期。对于特征波长的选择,研究中使用了相关系数法,以后可以尝试用连续投影算法或遗传算法来进行特征波长的选择,进行对比,找出最优方法。
在构建库尔勒香梨等级判别模型方面,KNN模型准确率高于RF模型和SVM模型,运行时间也较为理想。在不同等级香梨的预测能力方面,三种模型均对特级、二级的预测准确率高;KNN模型对于一级的预测准确率优于另外两种模型。综合考虑这些因素,KNN模型是较理想的库尔勒香梨等级判别模型。
后期的研究方向将利用混合智能优化算法,如遗传算法改进SVM方法或基于遗传算法优化RF方法建立香梨等级判别模型,再与KNN模型比较,来验证KNN模型是否仍有较高的准确率。
通过一阶差分、二阶差分、SNV、MSC预处理方法对香梨原始光谱进行预处理分析,结果表明,MSC方法更适合于香梨近红外光谱数据的预处理。
研究香梨糖分的近红外光谱响应,并使用相关系数法提取12个特征波长变量,根据库尔勒香梨标准NY/T 585—2002,以糖度特征光谱数据作为参数,利用KNN、SVM、RF方法建立库尔勒香梨等级判别模型,并比较模型性能。结果表明,KNN模型在分类结果和运行时间方面较好,可用于构建基于糖度的库尔勒香梨近红外光谱等级评判模型。MSC+KNN处理方法可用于构建库尔勒香梨等级评判模型,这可为进一步研究库尔勒香梨等级评判的便携式检测装置提供理论参考。