黄嘉荣,伍博迪,詹求强
(华南师范大学,华南先进光电子研究院光及电磁波研究中心,广东 广州510006)
随着经济生活水平的提高,人们对膳食结构的认识更加重视,大米作为粮食主食越来越受到关注,市场上大米的种类繁多,质量良莠不齐,所以快速识别大米具有现实的意义。传统的大米主要成分分析方法有近红外光谱[1]、高效液相色谱[2],气相色谱串联质谱[3],对大米所含离子用离子色谱分析,对大米中微量元素用电感耦合等离子体质谱分析[2]。但是这些检验条件都需要大型的实验设备,便携式拉曼光谱仪器作为一种新兴的检测手段,能达到高效、快速的检目的,拉曼谱峰能反映出特定的官能团,先前已有 实 验 对 植 物 油[4]、马 铃 薯[5]、黄 芪[6]、橄 榄油[7]、三七[8]等样品进行过分析,本实验采用拉曼光谱作为数据判别的依据,实现对大米的分类。
大米的主要成分是碳水化合物70%-80%,蛋白质7%-8%,脂质1%-2%,水11%-12%[9],其中直链淀粉和支链淀粉成分相似。测试所得到的拉曼光谱通常都有较强的荧光背景峰,常见降低荧光背景噪声的方法有纯化样品、长时间照射,改变激发波长,增加扫描次数等等,除了改变这些硬件方法之外,还可以通过算法有效去除背景噪声,提取真实有效的拉曼信号。主成分分析的目的是将数据降维,求出特征值和特征向量,最后算出主成分得分,利用少量的主成分代表原来大部分的信息,线性判别分析则是利用样本点之间的距离进行判断分组,从而能识别和归类。
东北大米、清远大米、糯米。
QE6500海洋光学光谱仪,RIP-RPB-785便携式拉曼光纤探头(激发波长785 nm,焦距7.5 mm),785 nm半导体激光器。光谱扫描功率200 mW,积分时间5 s,扫描范围是550 cm-1到1 650 cm-1。
在室温条件下,将样品放在石英片上测试,三种大米随机各取16个样品,每个样品测试3次,取平均值。
背景去除的算法用Matlab软件实现,具体方法为先用最小二乘法对离散拉曼光谱进行多项式拟合,在每个波数下,取拉曼光谱和其拟合函数中较小的值重构成新的输入函数,作为下一次迭代的输入函数再次拟合,如此反复,最后一次迭代的拟合多项式将作为荧光背景的函数[10]。在此基础上Jianhua ZHAO等[11]提出了改进的方法,优点有三个:(1)考虑到噪声的影响,在多项式拟合函数上加上近似噪声电平标准偏差(Standard deviation,DEV),再与每次迭代的输入函数进行比较。而用原先方法时,特别在高噪声即低信噪比的拉曼光谱中,噪声会被当作拉曼峰而没有进入迭代拟合的过程;(2)考虑到大型拉曼峰的影响,在第一次迭代过程中加入大型拉曼峰的去除。而用原先方法时,大型拉曼峰对多项式拟合有很大的影响,这会影响到荧光背景的拟合效果;(3)迭代次数少,大大减少运算的时间。由于只有第一次迭代的过程中去除拉曼峰,所以荧光背景还是很高,导致过度去除荧光背景,所以我们采用前几次迭代拟合都加入大型拉曼峰去除的方法,保留数据的维数在原来的50%以下,减少过度去除荧光背景。图1是优化算法流程图,去除荧光背景前后的图如图2所示。
其中
ν1,ν2…νn为拉曼位移(单位cm-1);
迭代收敛条件为|(DEVi-DEVi-1)/DEVi|<5%。
大米的拉曼谱线如图3所示,由于大米的主要成分是淀粉,图中所示三种样品的平均拉曼谱图峰型相似,只有小部分不同,难以用肉眼进行分辨。各个拉曼峰的归属如表1所示[12]。
图1 优化算法的流程图Fig.1 Flow chart of optimized algorithm
表1 拉曼峰的位置和归属Tab.1 Raman wavenumbers and their respective assignments
s strong,m medium,w weak
由于大米的拉曼波形重复性高,所以对大米全波数范围进行PCA分析提取关键差异信息,分别取前三个主成分为坐标轴,建立可视化模型,前三个主成分的方差贡献率分别为86.63%,7.78%,3.73%,累计方差贡献率达到98.14%,说明选取前三个主成分具有较强的代表性。由3D图可以看出三类大米有良好的空间分类分布,具体的分类由线性判别分析进行进一步讨论。
图2 去除荧光背景前后的拉曼峰Fig.2 Raman spectrum before and after fluorescence background remove
图3 三个样品的拉曼谱图Fig.3 Raman spectra of three samples
为了在二维坐标轴上清楚地显示判别信息,我们选用PC1和PC2建立坐标轴。区别东北和清远样品的费希尔判别直线方程是:0.002PC1-0.009PC2+2.521=0;区别东北和糯米样品的直线方程是:0.012PC2+2.572=0。分类结果显示,东北大米有3个样品分类错误,正确分类率为81.3%,清远大米为100%,糯米为100%,综合起来正确分类率为93.8%。对于PC1、PC2、PC3建立的三维坐标轴,东北大米有1个样品分类错误,正确分类率为93.8%,清远大米为100%,糯米为100%,综合正确分类率为97.9%。由此可见,前三个主成分能代表大部分大米的信息。
图4 主成分分析3D图Fig.4 3D plot of PCA
图5 主成分分析2D图和线性判别分析Fig.5 2D plot of PCA and LDA
该实验通过Matlab软件优化去除荧光背景、降低噪声的方法,在前几次迭代过程中去除大型拉曼峰,提取了更精确的拉曼信号,建立分析模型。运用主成分分析法(PCA)和线性判别方法(LDA)对不同种类的大米进行归类,结果表明,使用前三个主成分能达到97.9%的分类准确率,使用前两个主成分能达到93.8%的分类准确率,由此可见,本实验建立的优化模型对大米的分类具有很高的实用价值。
[1] 夏立娅,申世刚,刘峥颢,等.基于近红外光谱和模式识别技术鉴别大米产地的研究[J].光谱学与光谱分析,2013,33(1):102-105.XIA Liya,SHEN Shigang,LIU Zhenghao,et al.Idenrtification of geographical origins of rice with pattern recognition technique by near infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2013,33(1):102-105.
[2] 夏立娅.大米产地特征因子及溯源方法研究[D].石家庄:河北大学,2013.XIA Liya.Study on characteristic factor and assignment methods of rice geographical origin[D].Shijiazhuang:Hebei University,2013.
[3] 田福林,李红,刘成雁,等.GC-MS法对不同产地大米的快速鉴定[J].分析测试学报,2011,30(09):1059-1062.TIAN Fulin,LIHong,LIU Chengyan,et al.Study on a quick identification of different rice species by GC-MS[J].Journal of Instrumental Analysis,2011,30(09):1059-1062.
[4] 吴静珠,石瑞杰,陈岩,等.基于PLS_LDA和拉曼光谱快速定性识别食用植物油[J].食品工业科技,2014,35(6):55-58.WU Jingzhu,SHI Ruijie,CHEN Yan,et al.Rapid qualitative identification method of edible vegetable oil based on PLS-LDA and Raman[J].Science and Technology of Food Industry,2014,35(6):55-58.
[5] 代芬,BERGHOLT M S,BENJAMIN A J V,等.近红外激发荧光光谱与拉曼光谱快速鉴别马铃薯品种[J].光谱学与光谱分析,2014,34(3):677-680.DAI Fen,BERGHOLT M S,BENJAMIN A J V,et al.Rapid identificaiton of potato cultivars using NIR-excited fluorescence and Raman spectroscopy[J].Spectroscopy and Spectral Analysis,2014,34(3):677-680.
[6] 黄浩,李洁,陈荣,等.拉曼光谱结合统计分析对不同产地黄芪饮片的鉴别分类研究[J].福州大学学报(自然科学版),2014,42(4):646-652.HUANG Hao,LI Jie,CHEN Rong,et al.Discrimination of Huangqi(Radix Astragali seu Hedysari)from different producing areas using Raman spectroscopy and statistical analysis[J].Journal of Fuzhou University(Natual Science Edition),2014,42(4):646-652.
[7] 周秀军,戴连奎.基于最小二乘支持向量机的橄榄油掺杂拉曼快速鉴别方法[J].光散射学报,2013,25(2):176-182.ZHOU Xiujun,DAI Liankui.Fast discrimination of olive oil adulteration based on Raman spectra using least squares support vector machine[J].The Journal of Light Sattering,2013,25(2):176-182.
[8] 董晶晶,陈娟,戈延茹,等.激光拉曼光谱法无损鉴别三七及其伪品[J].激光与光电子学进展,2014,51(5):204-208.DONG Jingjing,CHEN Juan,GE Yanru,et al.Nondestructive identification of Panax notoginseng and its analogues via laser Raman spectroscopy[J].Laser&Optoelectronics Progress,2014,51(5):204-208.
[9] HWANG J,KANG S,LEE K,et al.Enhanced Raman spectroscopic discrimination of the geographical origins of rice samples via transmission spectral collection through packed grains[J].Talanta,2012,101:488-494.
[10] LIEBER C A,MAHADEVAN-JANSEN A.Automated method for subtraction of fluorescence from biological Raman spectra[J].Applied Spectroscopy,2003,57(11):1363-1367.
[11] ZHAO J,LIU H,MCLEAN D I,et al.Automated autofluorescence background subtraction algorithm for biomedical Raman spectroscopy[J].Applied Spectroscopy,2007,61(11):1225-1232.
[12] ALMEIDA M R,ALVESR S,NASCIMBEM L B,et al.Determination of amylose content in starch using Raman spectroscopy and multivariate calibration analysis[J].Analytical Bioanalytical Chemistry,2010,397(7):2693-2701.