卜文华,孙学景
(山东省东营市垦利区市场监督管理局,山东 东营 257500)
食品鉴别和检测是确保食品安全的重要环节,也是促进食品行业发展的重要途径。近年来,随着人们对食品安全的重视,快速准确的食品鉴别和检测技术越发受欢迎,也取得了突破性的进展。在食品真实性鉴别方面,王冰峰等[1]基于液相色谱串联高分辨质谱的组学分析技术,针对冒充、稀释、非法添加和非标注成分这4类掺假行为进行了研究,实现了隐蔽掺假食品的真伪鉴别。陈爱亮[2]基于物种特异性单一脱氧核糖核酸(DNA)标记扩增检测的食品真实性定性鉴别技术,对食品真实性进行了鉴别,为食品真实性定性鉴别提供了一种新思路。在食品成分鉴别方面,张媛媛等[3]通过对猪、牛、羊、鸡、鸭对5种动物的总DNA模板进行PCR扩增,对食品成分进行了鉴别。结果表明,该方法具有操作简单、成本低且准确率高的特点,可用于肉类罐头食品和长时间高温加工食品中动物源成分的鉴别。在食品添加剂方面,吴婉琴等[4]建立了高效液相色谱-四极杆-飞行时间质谱快速筛查鉴别食品中非法添加的62种中药材的方法,实现无标准品情况下中药材的定性筛查,解决了食品中非法添加中药材难以识别和确证的难题。通过上述研究可以发现,食品的鉴别与检测在技术上取得了突破性进展,但综合分析以上研究成果来看,目前的研究对同品种不同种类食品的鉴别和检测相对较少。因此,为实现对同品种不同种类食品的鉴别和检测,本研究以不同种类的大米为研究对象,提出一种基于图谱特征和多元分析方法的食品鉴别与检测方法。
PCANet模型是一种结构简单的轻量型深度学习网络模型,常用于不同场景下的小体积数据分类预测。其基本结构如图1所示,主要包括三层结构。其中,第一层结构和第二层结构相似,负责去平均并通过PCA提取主成分进行卷积;第三层结构是输出层,负责非线性输出和直方图量化[5]。
图1 PCANet模型结构
(1)
最后将输出的特征向量通过分类器即可实现分类。本研究选用支持向量机作为最终分类器,用于食品种类鉴别。
PLSR模型是一种集多元线性回归、主成分分析和相关分析为一体的多元数据分析方法,可有效解决自变量因子间的多重共线性影响问题[7]。
由于食品水分含量对食品种类鉴别具有一定的重要意义,因此为探究食品中的水分,研究采用PLSR模型进行检测。
2.1.1图像特征提取
根据大米的特点,研究选用其形态和纹理作为图像特征来进行提取。针对大米的形态特征提取,首先进行阈值化处理以获取二值图像,然后截取大米的矩阵区域,得到仅含大米的二值图像,最后根据二值图像中大米的轮廓跟踪其外边界后,再来进行8联通处理与标注。如此,即可获取大米的形态特征。
针对大米的纹理特征提取,研究首先选用灰度梯度共生矩阵(GLGCM)算法提取其灰度熵和梯度熵,如式(2)和(3)[8],然后通过离散小波变换(DWT)算法提取其熵和能量,如式(4)和(5)[9],最后采用五阶高斯马尔科夫随机场模型法(GMRF)提取其12维特征向量进行实现,如式(6)[10]。
(2)
(3)
(4)
(5)
θ=(θ1,θ2,…,θ12)T
(6)
2.1.2光谱特征提取
针对大米光谱特征提取时基于图像分割的感兴趣区域提取。首先,将采集的高光谱图像进行阈值化处理获取二值图像,然后截取大米矩阵区域提取其感兴趣区域,并将二值图像与高光谱图像进行“与”操作,最后对感兴趣区域的像素光谱进行平均计算,获取的平均光谱即为提取的光谱特征[10]。
形态和纹理图像特征和光谱特征提取的流程可概括为图2。
图2 图谱特征提取流程
基于上述提取的图像特征和光谱特征,采用PCANet模型对大米种类进行分类,采用PLSR模型对大米水分含量进行检测,即可实现大米种类的鉴别与水分含量检测,具体操作流程如下:
(1)高光谱图像和反射光谱采集与预处理。利用高光谱成像仪采集大米高光谱图像,利用PSR-3500便携式地物光谱仪采集大米反射光谱。考虑到光谱中含有一定噪声,需要对其进行去噪预处理;
(2)图谱特征提取。根据上述图像和光谱特征提取方法对大米的形态和纹理图像特征进行提取,以及光谱特征进行提取;
(3)特征降维。由于提取的图谱特征维度较高,增加了大米种类鉴别与水分含量检测的复杂度,因此采用主成分分析法(PCA)对提取的特征进行降维。PCA降维的处理方法如式(7)[11]:
(7)
(4)大米种类鉴别与水分含量检测。采用PCA-Net模型对大米种类进行分类,采用PLSR模型对大米水分含量进行检测。
本次实验在Windows10操作系统上进行,通过scikit-learn框架和Python语言实现PCA与分类模型的构建,采用MATLAB R2018b实现回归模型和数据分析及光谱处理。系统配置Intel(R)Xeon(R)Gold6152 CPU,NVIDIA Tesla P40显卡,24 GB显存,256 GB内存。
本次实验选用我国的4种优质大米作为所提食品鉴别和检测方法的研究对象,具体包括哈尔滨五常大米、伊犁大米、宁夏珍珠米、增城丝苗米。
为避免随机误差对结果的影响,实验购买了每种大米3种不同批次,并随机从每个批次中选取150粒大米,即每种大米共450个样本。最终,实验共获取1 800个大米样本。
考虑到原始样本的光谱特征数据中含有一定噪声,会对最终结果造成影响。因此,在实验前,研究对原始样本光谱特征数据进行去噪处理。首先,采用MSC算法计算所有光谱特征的平均光谱,并采用平均光谱作为最优光谱,以减少散射噪声对有效光谱信息的干扰。然后采用S-G smoothing算法增加光谱的平滑性,减少噪声干扰[12-13]。
图3为大米原始光谱通过MSC算法和S-G smoothing算法进行预处理后的光谱对比。图3中,(a)图为原始光谱,(b)图为通过S-G smoothing算法处理后的光谱。
图3 大米光谱预处理前后对比
由图3可知,通过MSC算法和S-G smoothing算法进行预处理后的大米光谱更加平滑,噪声更少。由此说明,所采用的噪声预处理方法有效。
此外,考虑到不同数据量纲不同,研究采用min-max归一化方法对数据进行了处理,具体操作如下[14]:
(8)
式中,x为光谱特征值,xmin和xmax为样本光谱特征的最小值和最大值。
最后,将预处理后的数据按4∶1比例划分为训练集和测试集,用于分类模型的训练和测试。其中,训练集共1 440个样本,测试集共360个样本。
本次实验选用正确分类率(CCR)、决定系数(R2)、均方根误差(RMSE)评估所提分类模型的性能。其计算方法如下[15]:
(9)
(10)
(11)
3.4.1光谱反射率分析
4种大米测试样本的反射率光谱曲线见图4。
图4 不同种类大米的反射率光谱
由图4可知,不同种类的大米光谱大体趋势相同,但光谱反射率存在明显差异。在0~683 nm范围内,所有种类的大米光谱反射率较低,且基本保持平稳;在683~782 nm范围内,所有种类的大米光谱反射率快速上升;在782~960 nm范围内,所有种类的大米光谱反射率出现波动。其中,宁夏珍珠米和伊犁大米的光谱反射率主要在400~720 nm范围内较高,其原因是该两种大米相较于其他种类大米,米粒的透明度更高;五常大米、伊犁大米和增城丝苗米在720~960 nm范围内的反射率较低,分析其原因是,相较于其他种类大米,其含水量较少。
3.4.2光谱特征鉴别大米种类
为探究光谱特征对大米种类的鉴别结果影响,实验采用PCANet模型对预处理后的光谱进行鉴别,得到结果如图5所示。
图5 光谱特征鉴别大米种类的正确分类率
由图5可知,利用光谱特征鉴别测试集中大米种类的正确分类率达到97%以上,说明光谱特征对大米种类鉴别具有一定的有效性。
3.4.3大米形态和纹理图像特征的分析
为探究大米形态和纹理特征对大米种类鉴别的影响,实验结合大米的形态以及大米的纹理特征和反射光谱图进行分析。其中,大米的形态选用外观、面积、长轴比、离心率和周长5个参数进行分析。这5个参数的均值和标准差见表1。
表1 不同大米种类形态参数的平均值和标准差(像素)
由表1可知,不同种类的大米形态参数均值和标准差不同,但存在某些大米种类的参数均值相近,可能对大米种类鉴别造成一定影响,导致大米种类鉴别结果存在一定误差。
大米的纹理特征是基于446.94 nm波长的单色图进行提取,首先通过GLGCM算法提取其灰度熵和梯度熵,然后通过DWT算法提取其熵和能量,通过GMRF提取其θ2、θ3,最后计算这些纹理特征的标准差和均值,结果见图6。由图6可知,不同大米的纹理特征标准差和均值不同,但部分大米种类的纹理特征均值差异较小,会对大米最终鉴别结果造成一定影响。
图6 不同大米种类纹理特征参数的标准差和均值
综合上述结果可知,不同种类的大米形态和纹理特征参数差异较小,若仅采用其中一种方法鉴别大米种类难以实现精确的大米种类鉴别,但以其作为辅助信息,可在一定程度上提高大米种类鉴别的精度。
3.4.4多特征融合鉴别大米种类
为探究大米光谱+形态+纹理多特征融合对大米种类鉴别的性能,研究采用PCANet分类模型分别对多特征融合的大米种类以及基于形态、纹理单特征和基于光谱+形态、光谱+纹理、纹理+形态双特征的大米种类进行鉴别,结果见表2。
表2 不同特征的鉴别结果对比
由表2可知,相较于基于形态和纹理单特征和基于光谱+形态、光谱+纹理、纹理+形态双特征的正确分类率,基于光谱+形态+纹理多特征融合的正确分类率最高,训练集正确分类率CCRP和测试集正确分类率CCRT分别达到98.88%和98.69%,具有明显的优势。由此说明,基于光谱+形态+纹理多特征融合的鉴别方法更能有效准确地鉴别大米种类。
3.4.5高光谱成像对大米水分的鉴定
为探究高光谱成像对大米水分鉴定的影响,研究采用PLSR模型结合高光谱成像鉴定大米水分,结果见图7。
图7 大米水分鉴定结果
由图7可知,利用PLSR模型对大米高光谱成像进行水分鉴定可取得良好的结果,校正集和预测集上的决定系数分别为0.75和0.74,校正集和预测集上的均方根误差分别为0.54和0.60。
为展现大米水分含量,研究利用可视化技术对上述鉴定结果进行了可视化。图8为其中20粒大米的水分含量情况示例。图中颜色越红表示水分含量越高,越紫表示水分含量越低。由图8可知,不同种类的大米水分含量不同,利用可视化技术展现PLSR模型结合高光谱成像,可直观地看出不同种类大米的水分分布情况。
图8 大米水分含量可视化结果示例
综上所述,所提的基于图谱特征和多元分析方法的食品鉴别和检测方法,通过融合大米光谱特征和形态与纹理图像特征,并利用PCANet模型进行分类预测,实现了对不同种类大米的鉴别,且具有较高的正确分类率,在训练集和测试集上的正确分类率分别达到98.88%和98.69%;通过利用PLSR模型对大米高光谱成像进行水分含量检测,可较为准确地测定大米中的水分,校正集和预测集上的决定系数分别为0.75和0.74,均方根误差分别为0.54和0.60,可用于其他食品的鉴别与检测。但由于条件限制,本研究仍存在一些不足有待改进。在大米水分含量检测中,由于实验选用的是市场上购买的大米,可能存在放置时间长,导致水分含量低的问题,可能影响水分含量的测定。因此,为避免该因素对结果的影响,后续研究将通过人为方式设置不同水分含量样本。