闫文豪,杨晓莹,耿 鑫,王乐山,吕 亮,田 野*,李 颖,林 洪
1.中国海洋大学信息科学与工程学部物理与光电工程学院,山东 青岛 266100 2.中国海洋大学食品科学与工程学院,山东 青岛 266003
中国是水产品的生产和消费大国,水产品生产总量约占全球的33%,自2002年到2017年,中国水产品出口年均增长率更是达到了11.08%[1]。由于不同鱼类产品的品质和价格差距悬殊,近缘鱼类外观质地相似等特点,市场上鱼产品以假乱真、以次充好的现象层出不穷,损害了消费者的消费和健康权益。因此实现鱼产品品种品质的快速检测具有重要的现实意义[2]。目前,肉类鉴别检测方法主要包括感官分析、色谱技术、酶联免疫吸附(ELISA)技术以及DNA技术等[3]。感官分析的可靠性、可比性较差。色谱技术需要对样品进行复杂的预处理、分析成本高。ELISA技术受抗原抗体特异性反应的影响应用范围受到限制。DNA技术时间成本高,且操作繁琐。因此迫切需求一种能够进行现场快速检测且环境友好的新型肉品检测技术[4]。
激光诱导击穿光谱(laser induced breakdown spectroscopy,LIBS)技术具有样品预处理简单、多元素同时检测,分析速度快的优势,在食品成分检测分析领域应用潜力很大[5], 已被用于面粉[6]、红酒[7]、茶叶[8]等不同种类的食品检测。在肉品检测方面也有不少相关研究,包括定量检测牛肉和鸡肉中的Ca、Mg、K、Na等元素含量[9]、猪肉中重金属元素Cr的定量检测[10]、以及不同肉类品种的分类鉴别[11]。本课题组前期也进行了LIBS技术用于鳕鱼中P、Fe、Al、Mn、K、Mg、Ca、Na八种元素的定量检测[12],以及鳕鱼、扇贝、青虾三种水产品中P元素的定量检测[13]。以上研究采用的均是实验室台式LIBS分析设备,难以满足现场便携式的快速检测需要。近年来,随着激光器、光谱仪、探测器等关键部件的小型化和低功耗,手持式LIBS分析设备获得了快速发展,主要用于合金和地质样品的成分检测[14],而在食品分析尤其是肉品快速检测中则未见报道。
旨在评估手持式LIBS结合机器学习用于不同种类鱼产品快速鉴别分析的可行性,利用手持式LIBS设备采集6种鱼肉压片样本的光谱数据,采用随机森林(random forest,RF)算法建立分类模型,并通过模型参数寻优、变量重要性提取等提高模型分类效果。结果表明采用RF模型结合变量重要性提取可以很好的将特征光谱中变量重要性高、对分类判别贡献大的弱信号提取出来,分类效果更加优秀,且缩短了模型分析时间,更加符合现场快速检测的实际需求。
选购了三种海水鱼:鲅鱼、黄花鱼、牙鲆,和三种淡水鱼:草鱼、鲤鱼、鲫鱼,共六种鱼肉样品。将新鲜鱼肉样品用肉糜搅拌机打碎成匀浆烘干,并进行压片处理,以提高LIBS信号强度。取鱼肉粉末与微晶纤维素[(C6H10O5)n]粘合剂按质量比3∶2混合均匀,准确称量0.35 g混合粉末,转移至粉末压片机中,在15 MPa的压力下保持3 min,得到片状样品。每种鱼肉样品制备3个平行压片样品。用SciAps公司生产的Z-200C+型手持式LIBS分析仪采集LIBS光谱,激光波长为1 064 nm,单脉冲能量为5 mJ,重复频率为50 Hz,聚焦光斑直径为50 μm,内置光谱仪的波长范围为190~950 nm。手持式LIBS分析仪进行鱼肉压片样品检测的实物照片如图1所示。每个压片样品在不同位置采集20条光谱,每条光谱为5次连续测量的平均。
图1 本实验所用的手持式LIBS分析仪实物图
手持式LIBS分析仪采集到的典型鱼肉压片样品的光谱如图2所示。与常规的LIBS台式装置相比,由于手持式LIBS分析仪采用的激光能量较小,导致谱线背景噪声较大,但仍然可以探测到清晰的C、Mg、CN、Ca、Na、H、K、O等元素组分的特征谱线,为后续基于多变量分析的分类研究提供了可能。另外,由于实验过程中可能存在击穿颗粒飞溅影响激光聚焦效果的问题,以及脉冲激光能量本身的抖动,导致手持式LIBS采集到的光谱信号存在较为明显的波动性。因此在分类前对采集到的原始光谱数据进行全谱面积归一化预处理,以提高光谱数据的稳定性和分类效果。
图2 手持式LIBS分析仪采集的典型鱼肉光谱图
主成分分析(principal component analysis,PCA)是一种非监督的聚类分析方法。在Matlab R2019软件下,将鱼肉光谱数据转换到前k个特征向量构造的新空间中降维。图3给出了PCA对鱼肉LIBS光谱数据的聚类分析结果,当k=3时,累积贡献率达到85.9%。从图中可以看出,经过PCA降维后,海水鱼和淡水鱼的样品可以较为明显的聚类(因为海水鱼中的Na元素含量显著高于淡水鱼),但不同海水鱼之间和不同淡水鱼之间则边界模糊,难以有效区分。因此PCA对鱼肉LIBS光谱数据的总体分类能力不强,需采用其他算法进行分类。
图3 PCA对鱼肉LIBS光谱数据的聚类分析结果
随机森林(random forest,RF)是一种非线性的并行机器学习算法。由于数据集和决策树节点分裂特征的随机性,使随机森林模型在保证识别精度的同时提高抗干扰能力。此外,随机森林可以检测到变量之间的互相影响,进而得到变量重要性这一指标,有利于模型输入变量的特征提取和优化[15]。对全部鱼肉LIBS光谱数据采用Bootstrap重采样方法进行随机采样,选取75%的光谱数据作为训练集,剩余25%作为检验集。所涉及的光谱数据包含23 431个特征变量。将训练集光谱数据输入Python软件自带的sklearn库的RandomForestClassifier模块中,生成多颗决策树构成RF模型。将检验集输入所构建的RF模型,生成的每颗决策树都会输出一个识别结果,模型最终结果由众多决策树识别结果的众数决定。
RF模型参数优化的关键包括决策树的个数与决策深度。当决策树个数过少时,模型易发生欠拟合现象,而决策树个数过多时,又容易发生过拟合现象。当限制了合适的决策深度后,决策树在分裂时不会超过最大深度,可以在保持准确度的情况下减少模型计算时间。采用网格寻优的方法,计算模型袋外数据(OOB)误差,确定最佳决策树个数与决策深度。如图4所示,当决策树数量一定时,随着决策深度的增加,OOB误差从0.49迅速减小到0.15左右。当决策深度为5,决策树数量为350时,模型的OOB误差最小为0.144,表明模型的拟合效果最好,即采用该参数完成RF模型的训练。将检验集光谱数据代入RF模型,表1给出了采用全部特征变量时六种鱼肉样品的识别正确率。结果显示,通过优化随机森林参数,模型的整体识别正确率可以达到90%。三种海水鱼的识别精度较高,而三种淡水鱼同属鲤科鱼类,物种间差异较小,识别正确率明显低于海水鱼。
图4 随机森林模型OOB误差与决策数深度和决策树个数的关系图
由于LIBS光谱波长范围广,整个光谱波长范围内有23 431个特征变量,数据量大,且手持式LIBS分析仪采用的激光能量较小,光谱受背景噪声干扰严重。因此期望通过随机森林计算各个特征变量的重要性,提取变量重要性较大的波长进行光谱特征筛选,剔除谱线噪声、背景等不相关变量的干扰,提高模型识别精度并减少模型运算时间。通过RF模型输出光谱数据中每个波长变量对应的变量重要性,由大到小对其进行排序,依次增加提取的变量个数,得到模型识别正确率随变量重要性个数之间的变化关系曲线,如图5所示。可以看出,随着提取变量个数的增加,模型的识别正确率先迅速升高,之后保持在一个较为稳定的区间范围内,当变量个数为597个时,识别正确率最高,达到94.44%。
图5 RF模型识别正确率随重要变量个数的变化
表1给出了RF模型经过变量重要性提取前后,六种鱼肉识别正确率的对比。可以看出,特征提取后的RF模型对六种鱼肉的整体识别正确率提高到94.44%。与采用全部变量的RF模型相比,三种淡水鱼样品经过特征提取后,模型分类效果得到明显改善,草鱼、鲫鱼、鲤鱼的识别正确率分别由82.35%,81.25%和90%提高到94.11%,87.5%和95%。且经过特征提取后,RF模型的输入变量由23 431个减少到597个,模型运算时间由1 h降低到15 min以内。因此通过RF模型输出变量重要性进行特征提取,模型识别精度和运算效率均得到了明显提升。
表1 RF模型进行变量重要性提取前后的识别正确率
为了评估鱼肉中的不同元素对模型判别分类的贡献,对RF输出的变量重要性由大到小排序,得到变量重要性在前8位的元素分别是Na、K、Mg、Ca、P、Rb、H、C,如图6所示。C、H、O、N作为鱼肉中的有机基体元素,尽管其含量最高,但对模型分类的贡献远低于Na、K、Mg、Ca、P、Rb等常量和微量元素。这也证明了利用RF变量重要性进行特征提取,能够很好地将对模型分类贡献大的特征变量筛选出来。进一步地,图7给出了C Ⅰ 193.1 nm和P Ⅰ 213.6 nm两条特征谱线及其所对应的变量重要性,可以看出,尽管P元素的谱线强度明显低于C元素,但其变量重要性却明显高于C元素。这体现了RF模型结合变量重要性提取对弱信号的鉴别能力,将其作为特征变量进行模型的训练和预测,能够有效避免模型出现过拟合的情况,提高模型的识别精度。
图6 按照RF变量重要性大小排序的前8种元素组分
将LIBS技术结合随机森林算法用于不同鱼肉种类的快速鉴别分析。首先采用手持式LIBS分析仪采集6种鱼肉压片样品的光谱数据,通过PCA聚类分析发现不同海水鱼之间和不同淡水鱼之间的样品难以有效区分。之后采用随机森林算法建立分类模型,通过优化决策树个数和决策深度,实现RF模型对训练集数据的最佳拟合,检验集的整体识别正确率为90%。为进一步提高模型识别精度和分析效率,采用RF模型输出的变量重要性进行光谱特征提取。结果表明,经过特征提取后,整体识别正确率提高到94.44%,且模型输入变量由23 431个减少到597个,模型运算时间显著降低。通过对比RF输出的变量重要性与LIBS特征谱线,发现Na、K、Mg、Ca、P、Rb等常量和微量元素所对应的特征波长具有较高的变量重要性,表明RF模型结合变量重要性提取可以很好地将LIBS光谱中变量重要性高的弱信号提取出来,有效剔除了谱线噪声、背景、以及其他不相关变量的干扰,提高模型的识别精度和分析效率。该工作验证了手持式LIBS设备结合机器学习方法用于市场鱼产品快速鉴别分析的可行性。
图7 C Ⅰ 193.1 nm和P Ⅰ 213.6 nm谱线及其RF变量重要性