倪晓锋 张寅升 周亚 赵亚菊 郭芳婕 王姗姗 王海燕
摘要:市场上销售的食用盐品种繁多,主要以海盐、井盐、岩盐和湖盐为原料来源,而不同来源食用盐的品质和价格相差甚远。该研究使用配备532 nm激光器的拉曼光谱仪,采集得到4种食用盐样品共80个原始拉曼光谱,采用主成分分析(PCA)和偏最小二乘(PLS)进行数据降维,Kennard-Stone(KS)算法将样本按3∶1划分为训练集与测试集后,结合K近邻(KNN)、支持向量机(SVM)和BP神经网络(BPNN)3种分类器,对4种不同食用盐的品种来源进行鉴别分析。结果表明,相较于原始光谱的分类模型对测试集的预测准确度在30%~50%和PCA的30%~40%之间,PLS-KNN、PLS-SVM和PLS-BPNN模型的预测准确度分别为90%、100%和100%。PLS降维后只需6个维度的信息即可保留原始变量信息解释性98%以上,并且PLS-SVM在建模速度快的同时保留了较高的分类精度和稳定性,为提高食用盐产品品质、改善评价标准和完善管理体系提供了技术支持。
关键词:拉曼光谱;主成分分析;偏最小二乘;K近邻;支持向量机;BP神经网络
中图分类号:TS264.2 文献标志码:A 文章编号:1000-9973(2023)05-0183-06
Abstract: There are many kinds of edible salt sold on the market, mainly from sea salt, well salt, rock salt and lake salt, but the quality and price of edible salt from different sources vary greatly. In this study, Raman spectrometer equipped with a 532 nm laser is used to collect a total of 80 original Raman spectra from four edible salt samples. Principal component analysis (PCA) and partial least squares (PLS) are used to reduce the dimension of data. After the samples are divided into training set and testing set by 3∶1 using Kennard-Stone (KS) algorithm, combined with three classifiers, K-nearest neighbor (KNN), support vector machine (SVM) and BP neural network (BPNN), the sources of four different edible salt varieties are identified and analyzed. The results show that the prediction accuracy for the testing set of PLS-KNN, PLS-SVM and PLS-BPNN models is 90%, 100% and 100% respectively, compared with the prediction accuracy of original spectral classification model of 30%~50% and PCA of 30%~40%. After PLS dimension reduction, only six dimensions of information can retain more than 98% of the original variable information interpretability, and PLS-SVM maintains high classification accuracy and stability while maintaining high modeling speed, which has provided technical support for improving the quality of edible salt products, improving evaluation standards and perfecting the management system.
Key words: Raman spectroscopy; PCA; partial least squares; K-nearest neighbor; support vector machine; BP neural network
收稿日期:2022-12-28
基金項目:国家自然科学基金资助项目(91746202,61806177);浙江省自然科学基金资助项目(LQ20C200004)
作者简介:倪晓锋(1987—),男,讲师,博士,研究方向:快速检测与模式识别。
*通信作者:王海燕(1968—),女,教授,博士,研究方向:质量可靠性与质量控制。
食用盐在我国有着悠久的发展历史,是仅次于粮食的生活必需品,在经济体制改革的大背景下,食用盐市场活力得到进一步激发,品牌间的竞争日益激烈。品种盐不断增加,细分市场开始出现,海盐、岩盐、湖盐、井盐等不同来源的盐逐渐占据市场,低钠盐、营养强化盐、海藻盐等健康盐丰富了食用盐市场,满足了消费者的需求。然而,随着品类的不断细分,盐的价格也参差不齐,有的甚至相差几十倍,在利益的驱使下,产品质量难免出现差异,掺假问题逐渐显现。因此,加强食用盐的质量监管显得尤为重要。
由于拉曼光谱技术无需样品制备,样品可直接通过光纤探头或通过玻璃、石英和光纤测量,能提供快速、简单、可重复且无损伤的定性定量分析,所以其在快速检测领域得到了大量的实践应用[1-3]。拉曼光谱是一种能够反映化合物化学键构成的分析手段,但是分子振动相对复杂,并不能非常准确地将所有的谱峰进行归类,仅靠拉曼光谱的谱图信息并不能非常准确地判断化合物的结构组成。模式识别是一种利用计算机技术,根据各样品间的距离或距离函数对样品进行聚类、分类和判别的多变量数值分析方法[4-6]。将拉曼光谱与模式识别相结合是一种行之有效的提高分析鉴别能力的分析手段。
本研究利用拉曼光谱分析技术对不同品种来源的食用盐进行检测,将海盐、井盐、岩盐和湖盐样本作为实验对象,采集原始光谱数据,采用PCA和PLS进行数据降维,最后以原始全波段光谱变量、PCA变量和PLS变量作为KNN、SVM和BPNN建模输入进行食用盐品种来源的鉴别。
1 实验部分
1.1 样品
实验共收集不同品种来源的食用盐共40个样品,选自市售的海盐、井盐、岩盐和湖盐各5个样品,2个批次,每批次采集2个点的数据,共采集80个拉曼光谱数据。样品经粉碎机粉碎后装入塑封袋中保存,进行图谱采集前取适量样品置于洁净透明的载玻片上,将样品压平待检。
1.2 仪器设备与方法
DXR 2xi显微拉曼成像光谱仪(美国Thermo Fisher Scientific公司),配备有532 nm激光器。仪器参数设置:激光功率为10 mW,曝光时间内1 s,扫描次数为500,共采集80组拉曼光谱数据,每组数据拉曼位移范围在100~3 000 cm-1。
1.3 数据降维
PCA是一种经典的数据降维方法,它可以将多指标数据降低到较低维度,同时能够最大程度地反映原始数据的相关信息[7-8]。相比于PCA的无监督降维,PLS作为一种有监督学习方法,在主成分分析的基础上与多元线性分析相结合,PLS降维在提取主成分的同时不仅要最大程度地概括输入变量的相关信息,还要使这些信息与输出变量的相关系数达到最大[9]。本研究获得的食用盐拉曼光谱中变量数为1 505个,维度较高,因此通过PCA和PLS降维,使降维后的变量保留原始变量99%以上的贡献率,便于构建分类模型,降低模型的复杂度。
1.4 样本划分
在进行训练集与测试集样本划分时,划分的数据需要有一定的代表性,从而使样本数据得到合理的分配,形成的模型具有较好的稳定性。KS算法是基于样品间的欧氏距离,将距离最远的两个样本作为初始训练集,然后计算剩余样品与已选樣品之间的距离,将最远以及最近两个样本选入训练集,重复上述步骤直到样本数量达到要求,该方法所选的训练集样本分布均匀[10]。本研究共4类食用盐样本,每个类别包含20个拉曼光谱数据,利用KS算法将每个类别中75%的光谱数据共计60个用于训练集构建分类模型,剩余的20个光谱数据用于测试集检验模型分类的准确度。
1.5 建模方法
本研究使用Matlab R2021b进行拉曼光谱数据分析和建模,拉曼谱图为100~3 000 cm-1范围段的数据,将全谱数据、PCA降维数据和PLS降维数据作为输入,结合KNN、SVM和BPNN 3种分类器建立相应的分类模型,采用预测集分类准确率来评价模型效果。
2 结果与分析
2.1 拉曼光谱分析
不同品种来源食用盐的拉曼光谱见图1。
由图1中a可知,海盐相比井盐、岩盐和湖盐并没有明显的特征峰。由图1中b可知,井盐拉曼谱图中,1 008 cm-1出现特征峰,由硫酸钙中的S-O对称伸缩振动引起,可能与井盐卤水中存在的硫酸钙有关[11]。赵忠光[12]报道硫酸盐溶液的拉曼光谱有4个位置的特征峰,分别是450,610 cm-1附近的O-S-O键弯曲振动,980 cm-1附近的S-O对称伸缩振动和1 100 cm-1附近的S-O反对称伸缩振动,其中980 cm-1处的振动最明显。由图1中c可知,岩盐的拉曼光谱在990 cm-1附近出现的特征峰与盐中的一些硫酸盐矿物相关,1 018 cm-1特征峰与Si-O的反对称伸缩振动有关,可能存在一定的硅酸盐矿物[13]。由图1中d可知,湖盐的拉曼光谱在1 008,1 048 cm-1附近分别出现了硫酸钙S-O对称伸缩振动和硝酸钠N-O对称伸缩振动的特征峰[14]。
由于一些矿物元素在样品中的分布并不均匀,因此在实际的检测中发现不同品种来源的食用盐的特征峰信息有时候并不是非常明显,而要想达到快速检测的目的,需要对拉曼光谱的全谱数据进行建模。
2.2 数据降维
原始拉曼光谱数据维度较高,其中存在很多的冗余特征,这些冗余特征不仅对分类的准确率产生影响,而且会增加分类模型的计算资源消耗,降低分类的效率,因此需要对原始拉曼光谱数据进行降维。PCA和PLS是基于数学变换的降维方法,可以将高维空间的特征映射到低维空间,用映射后的变量特征表示原有的总体特征。本文利用PCA和PLS对4种食用盐的拉曼光谱进行降维,提取前3个主成分进行可视化,见图2和图3。
由图2中a可知,4种食用盐在进行PCA降维后,在前3个主成分构成的三维空间中不能形成很好的同源聚类效果,图2中b为主成分对光谱变量的累计贡献率,前3个主成分的贡献率为22%,并不能较好地解析原始光谱的主要信息,当累计贡献率超过99%时,所需的主成分数为75个。与PCA相比,PLS降维的三维空间中4种食用盐各自聚焦,并且在分离性上可以进行较好的划分(见图3中a),降维后的前3个主成分累计贡献率超过91%,前6个主成分超过99%(见图3中b),在大大降低数据维度的同时很好地保留了原始光谱的有用变量信息。
2.3 分类模型建立
分别利用降维后的数据构建KNN、多分类SVM和BPNN模型,其中PCA选取前75个主成分,PLS选取前6个主成分,将划分的训练集用于构建对应的模型,为了对比研究,同时建立了基于原始光谱1 505维数据的分类模型。
KNN即每个样本与它距离最近的K个样本,一般通过计算其与所有已知样本的欧氏距离来确定,是数据分类技术中较简单的方法,在小样本、多分类问题上有着较好的分类效率和泛化能力。KNN算法的过程是在一些已经样本标签的空间中,当未知样本出现时,找到与之欧氏距离最近的K个邻近样本,这K个样本多数所属的那一类别即为该未知样本属于的类别,因此K值的选择对于KNN算法的分类准确率有着重要的影响[15-16]。K值选择与预测准确率的变化情况见图4,分别确定全光谱、PCA和PLS的K值为8,6和6。
由表1和图5可知,基于全光谱和PCA建立的KNN分类模型中测试集的准确率分别为50%和35%,分别出现了10,13个误分类,说明模型的预测能力和稳定性较差,而基于PLS降维建立的KNN模型,测试集的准确率为90%,误分类2个,相较前两个分类模型有明显的提高,表明PLS降维可以很好地降低原始光谱数据的维度,减小模型的复杂性,提高测试的准确率。
SVM是一类对数据进行二分类的线性分类器,其决策边界是构造线性最优边距超平面,使两类样本之间间隔最大而实现数据分类,SVM虽然是一种线性分类器,但其可以通过不同的核方法(RBF、Sigmoid等)进行非线性分类[17-18]。传统的SVM分类器只能解决二分类问题,而当多标签多类别出现时,可以通过一对一法,即在任意两类样本之间构建一个二分类SVM,这样在K个类别中,共计构造k×(k-1)/2个SVM。当对未知样本进行分类时,通过累计投票数,投票数最多的即为该未知样本所属类别。本研究采用径向基函数(RBF)建立多分类SVM模型,同时利用grid search对惩罚系数c和核函数参数g进行了优化,SVM分类结果见表2和图6。
由表2和图6可知,基于全光谱和PCA构建的SVM模型分类准确率为35%和40%,与KNN模型相近,分别有13,2个误分类,表明建立的模型对食用盐品种来源的鉴别效果较差,而基于PLS降维的SVM模型对测试集的判别准确率提高到了100%。
BPNN是一种误差逆向传播的多层前馈网络。其核心思路是梯度下降法,通过数据集对BPNN进行不断的训练,优化网络模型中的权值和阈值,使实际输出值与期望输出值之间的误差均方差最小。BPNN包括正向传播和反向传播两个过程,正向传播时,输入层数据经隐含层向输出层逐层传递,通过非线性变换产生输出结果,如输出结果不如期望,则自动进入反向传播过程,此时的输出误差将通过原路進行反传,将误差信号分摊到各层神经元,通过调整各神经元的权值和阈值,经过反复的网络训练,使得最终误差信号最小,因此高维度的数据集也会增加收敛的耗费时长[19-20]。本文利用训练集数据建立的BPNN,其中包含60个样本的输入层、4个神经元的隐藏层、4个食用盐种类的输出层。各层传递使用S型函数,误差的期望值设为1e-3,学习率0.01,迭代次数1 000次,BPNN对测试集进行预测的结果见表3。
由表3和图7可知,食用盐种类预测样本的准确率最高的是PLS-BPNN模型的100%,表明该模型能够满足食用盐品种来源的准确分类鉴别要求,相比而言,全光谱和PCA构建的BPNN模型的预测准确度仅为30%,整体的识别精度不高。
模型的运行时间也是衡量分类模型的一个重要指标,基于PLS降维结合KNN、SVM和BPNN构建的分类模型的预测准确率都较高,所构建模型的运行时间分析见表4。相同的数据集下,KNN模型的运行时间最短,BPNN模型的运行时间最长。基于PLS-SVM的分类模型,不仅在预测精度上有较好的保证,且在运行时间上更快,对于食用盐品种来源的快速鉴别是一个切实可靠的分类模型。
3 结论
利用拉曼光谱对海盐、井盐、岩盐的和湖盐4种不同品种来源食用盐进行光谱数据采集,通过PCA和PLS降维处理,结合KNN、多分类SVM和BPNN分类模型对品种来源进行快速分类识别。PCA和PLS能够在不同程度上对原始光谱数据进行降维和信息解释,基于PCA降维的PCA-KNN、PCA-SVM和PCA-BPNN模型对测试集的预测准确率分别为35%、40%和30%,相比于原始光谱的分类模型在分类精度上并没有得到提高,原因可能是PCA依据协方差对原始光谱数据进行降维,在这个过程中引入了干扰信息,因此分类的准确率受到了影响。基于PLS降维的PLS-KNN、PLS-SVM、PLS-BPNN模型对测试集预测准确度分别为90%、100%和100%,说明PLS对于不同品种来源的食用盐在数据降维、消除冗余、保留原始变量信息解释性上比PCA更有优势,并且PLS-SVM模型运行的时间更短,具有较好的稳定性和预测能力,对于食用盐的品质控制与利益掺假是一种较好的快速定性分析手段。
参考文献:
[1]PEGAH S V, JORG H, BERND H. Establishing a novel procedure to detect deviations from standard milk processing by using online Raman spectroscopy[J].Food Control,2022,131:108442.
[2]JAKUB D, FATIH C A, ALEKSANDRA W, et al. Trends in biomedical analysis of red blood cells-Raman spectroscop against other spectroscopic, microscopic and classical techniques[J].TrAC Trends in Analytical Chemistry,2022,146:116481.
[3]DU Y W, HAN D P, LIU S, et al. Raman spectroscopy-based adversarial network combined with SVM for detection of foodborne pathogenic bacteria[J].Talanta,2022,237:122901.
[4]JOZEF R, VIT S, VERONIKA H Z, et al. Pattern recognition as a new strategy in high-resolution spectroscopy:application to methanol OH-stretch overtones[J].Physical Chemistry Chemical Physics: PCCP,2021,23(69):20193-20200.
[5]MA D D, WANG L J, JIN Y B, et al. Application of UHPLC fingerprints combined with chemical pattern recognition analysis in the differentiation of six Rhodiola species[J].Molecules,2021,26(22):6855.
[6]TIZIANO Z, MARK G K, FLORENCIO C B, et al. Instrumental odour monitoring system classification performance optimization by analysis of different pattern-recognition and feature extraction techniques[J].Sensors,2021,21(1):114.
[7]CASTURA J C, RUTLEDGE D N, ROSS C F, et al.Discriminability and uncertainty in principal component analysis (PCA) of temporal check-all-that-apply (TCATA) data[J].Food Quality & Preference,2022,96:104370.
[8]ALI A, MARGETTS B M, ZAINUDDIN A A. Exploration of the principal component analysis (PCA) approach in synthesizing the diet quality of the Malaysian population[J].Nutrients,2021,13(1):70.
[9]LIU Y S, RAYENS W. PLS and dimension reduction for classification[J].Computational Statistics,2007,22(2):189-208.
[10]LI T Y, WU Y Y, WU F, et al. Sleep pattern inference using IoT sonar monitoring and machine learning with Kennard-stone balance algorithm[J].Computers & Electrical Engineering,2021,93:107181.
[11]PARK D J, SUPEKAR O D, GREENBERG A R, et al. Real-time monitoring of calcium sulfate scale removal from RO desalination membranes using Raman spectroscopy[J].Desalination,2021,497:114736.
[12]趙忠光.基于拉曼光谱的硫酸盐定量方法研究[D].北京:华北电力大学,2020.
[13]GARDNER D W, LI J Q, MORSHEDIFARD A, et al. Silicate bond characteristics in calcium-silicate-hydrates determined by high pressure Raman spectroscopy[J].Journal of Physical Chemistry C,2020,124(33):18335-18345.
[14]FARSANI M H, DARBANI S M R, MOBASHERY A. Application of deep Raman spectroscopy to detect ammonium nitrate concealed in color fabrics[J].Vibrational Spectroscopy,2022,121:103405.
[15]ZHU X Y, YING C Z, WANG J Y, et al. Ensemble of ML-KNN for classification algorithm recommendation[J].Knowledge-Based Systems,2021,221:106933.
[16]SINLAE A A J, ALAMSYAH D, SUHERY L, et al. Classification of broadleaf weeds using a combination of K-nearest neighbor (KNN) and principal component analysis (PCA)[J].Sinkron,2022,7(1):93-100.
[17]HE Y, ZHANG W, MA Y C, et al. The classification of rice blast resistant seed based on Raman spectroscopy and SVM[J].Molecules,2022,27:4091.
[18]DING Y H, YAN Y L, LI J, et al. Classification of tea quality levels using near-infrared spectroscopy based on CLPSO-SVM[J].Foods,2022,11:1658.
[19]ZHANG D H, LOU S. The application research of neural network and BP algorithm in stock price pattern classification and prediction[J].Future Generation Computer Systems,2021,115:872-879.
[20]赵志磊,王雪妹,刘冬冬.基于BP-ANN和PLS的近红外光谱无损检测李果实品质的研究[J].光谱学与光谱分析,2022,42(9):2836-2842.