李水芳, 付红军, 马 强, 单 杨
(1.中南林业科技大学 理学院,湖南 长沙 410004; 2.中南林业科技大学 食品科学与工程学院湖南 长沙 410004; 3.湖南省食品测试分析中心 湖南 长沙 410025)
构建三种木本油料植物种子含油率NIR通用模型的可行性研究
LI Shuifang
李水芳1, 付红军2, 马 强1, 单 杨3
(1.中南林业科技大学 理学院,湖南 长沙 410004; 2.中南林业科技大学 食品科学与工程学院湖南 长沙 410004; 3.湖南省食品测试分析中心 湖南 长沙 410025)
为了构建湖南常见3种木本油料植物种子含油率近红外光谱通用模型,收集了98个油桐、96个油茶和96个核桃样本,采集了粉碎后种仁的近红外光谱(NIR),测定了样本含油率,分别采用偏最小二乘法(PLS)及径向基神经网络法(RBFNN)建立油桐+油茶+核桃、油桐+油茶、油桐+核桃和油茶+核桃4个混合样本集含油率的NIR通用模型。对PLS模型, 4个样本集(验证集)的相关系数(Rp)分别为0.963、 0.881、 0.965和0.967,预测均方根误差(RMSEP)分别为2.78、 3.31、 2.47和2.70,相对标准偏差(RSD)分别为4.87%、 6.51%、 4.03%和4.55%;RBFNN模型的Rp分别为0.958、 0.877、 0.959和0.966,RMSEP分别为3.34、 2.55、 2.85和2.54,RSD分别为5.85%、 5.02%、 4.66%和4.28%。结果表明:构建油桐、油茶和核桃3种木本油料植物种子含油率近红外光谱通用性检测模型具有可行性。
油桐;油茶;核桃;近红外光谱;含油率
1.1 实验样本
98个油桐(Verniciafordii)样本于2015年11月采集于国家油桐种质资源保存库——湖南省永顺县中南林业科技大学油桐试验基地,包括不同家系的光桐以及邹桐;96个油茶(Camelliaoleifera)样本分别于2015和2016年10月收集于湖南宁乡,包括野生和人工栽培的不同种;96个核桃(Juglansregia)样本于2015和2016年购于市场。所有样本取种仁,70 ℃烘干,锤碎至粒径≤0.850 mm后置于干燥器内备用。
1.2 光谱采集
用Antaris Ⅱ型傅里叶变换近红外光谱仪(美国Thermo公司)及仪器配备的样品杯,采用积分球漫反射方式和仪器自带的RESULT-Operation软件采集和保存光谱。采集光谱前,仪器开机预热30 min。为了减小装样紧密度对光谱的影响,每次装样量都控制在1.5 g。光谱采集条件:波数范围10000~4000 cm-1,扫描次数64次,分辨率8cm-1,4倍增益,数据采集格式为lg(1/R),以内置背景为参考,每次扫描前采集一次背景光谱。每个样本平行3次扫描,取平均光谱,以消除样本不均匀带来的干扰。
1.3 含油率测定
采集完光谱的样本在3天内完成含油率的测定。称取约10 g样本(精确到0.01 g,记为m0),放入烘过后的滤纸筒中,用脱脂棉线捆扎好,称取其质量(精确到0.01 g,记为m1),然后放于装有石油醚(30~60 ℃)的索氏抽提装置中浸泡过夜,第二天抽提10 h左右,直到将2滴抽提液滴到玻璃片上,待溶剂挥发完后,玻璃片上无油脂残留为止,随后,将抽提完油脂的滤纸包取出,放到70 ℃烘箱中烘干,称质量(精确到0.01 g,记为m2)。样本含油率(ω)按式(1)算:
(1)
每个样本平行测定两次(相对误差不大于3.0%),取平均值。样本含油率的统计结果见表1。
表1 样本含油率的统计结果
1.4 建立模型
1.4.1 样本集的划分 采用基于马氏距离的Kennard-Stone(KS)法划分校正集和验证集。先将98个油桐、96个油茶及96个核桃样本各自单独划分成校正集(3/4)和验证集(1/4),再组合成4个混合样本的校正集和验证集。4个混合样本集及它们的校正集和验证集的组成情况见表2。
表2 4个混合样本集及其校正集和验证集的组成情况
1.4.2 光谱预处理方法 光谱中常存在基线漂移、随机噪声,此外,测定环境、光程变化、样本粒径大小不均匀以及光散射等因素也都会影响模型的准确性和稳定性。因此,需对原始光谱进行适当的预处理,以减少或消除这些因素的影响。本实验分别采用了均值中心化(MC)、一阶导数(1D)、二阶导数(2D)、Savitzky-Golay(S-G)卷积平滑及它们的相互组合9种方法对原始光谱进行预处理。
1.4.3 建模方法 分别采用偏最小二乘法(PLS)和径向基函数神经网络法(RBFNN)建立含油率通用检测模型。
PLS同时对光谱矩阵和数值矩阵进行分解,克服了多元线性回归不满秩求逆和光谱信息不能充分利用的弱点,也与主成分分析(PCA)法只对光谱矩阵进行分解不同,它同时还考虑了数值矩阵对光谱矩阵的影响,消除了变量之间线性相关的问题。PLS法对光谱数据可随意选取,既可是全谱,也可是部分谱段或部分变量,适合于复杂体系的分析。
RBFNN的基本思想是用径向基函数作为隐单元的“基”构成隐含层空间,从而将输入矢量直接映射到隐空间,当径向基函数的中心点确定后,这种映射关系就确定了;而隐层空间到输出空间的映射是线性的,即网络的输出是隐单元的线性加权和。RBFNN具有训练速率快,不存在局部最小化,迭代训练易达到收敛的优点。
1.4.4 模型的评价参数 以校正集内部留一交叉验证相关系数(Rcv)和交叉验证均方根误差(RMSECV)以及验证集的预测相关系数(Rp)、预测均方根误差(RMSEP)和相对标准偏差(RSD)为指标评价模型。RSD按式(2)计算。
RSD=PMSEP/yp×100%
(2)
式中:yp——验证集真实值的平均值。
Rp越接近1,RMSEP和RSD越小,则模型精度越好,而小的均方根误差比大的相关系数更重要。所有计算都在Matlab7.0中进行。
2.1 样本的近红外光谱
图1为油桐、油茶和核桃样本的原始近红外光谱。从图1可以看出:3者的近红外光谱非常相似;8269、6900、5810、5677、4334、4266 cm-1波数附近都有明显的吸收峰或吸收带;8580、7185 cm-1波数附近都有较弱吸收峰;5000~4400 cm-1波数范围内,油桐和核桃存在3个明显的吸收峰,油茶有2个明显的吸收峰。
2.2 光谱预处理方法的优化
不同预处理下PLS模型留一交互检验的结果见表3。由表3可知:样本集1用1D+MC预处理最优,Rcv为0.961,RMSECV为3.22;样本集2用S-G+1D+MC预处理最优,Rcv为0.900,RMSECV为3.96;样本集3用S-G+1D+MC预处理最优,Rcv为0.969,RMSECV为2.82;样本集4用S-G+1D+MC预处理最优,Rcv为0.965,RMSECV为3.17。
图1 油桐(a)、油茶(b)和核桃(c)的原始近红外光谱
光谱预处理1)pretreatment样本集1set1RcvRMSECV样本集2set2RcvRMSECV样本集3set3RcvRMSECV样本集4set4RcvRMSECVMC09583520888415096229809583481D09593410884416095931809623212D0944382088242009623120948378S⁃G+1D0951353089140209583190962322S⁃G+2D09403970870441096330909583491D+MC09613220881421096528809643202D+MC0945385088342509613070951375S⁃G+1D+MC0959323090039609692820965317S⁃G+2D+MC09433960869 44109623100957350
1) MC:均值中心化mean neutralization;1D:一阶导数first derivative;2D:二阶导数second derivative;S-D: Savitzky-Gday卷积平滑Savitzky-Gday smooth
2.3 含油率通用模型的建立与预测
分别采用PLS和RBFNN两种方法建模。用校正集分别建立各自的含油率通用PLS模型和RBFNN模型,再对相应的验证集进行预测。用PLS建模时,原始光谱用2.2节中确定的最优光谱预处理方法进行预处理,然后建模并预测,结果见表4。
PLS是一种线性的建模方法,其前提是所研究的光谱体系具有线性加和性。考虑到光谱变量与含油率之间可能具有非线性关系,因此,还应结合非线性的建模方法。而RBFNN因具有很好的逼近性能和全局最优特性,且结构简单,训练速度快,因此,选择RBFNN作为本研究的非线性建模方法(RBFNN建模时的spread=2),并与线性的PLS建模方法对比。用RBFNN建模时,同样考察了2.2节的9种光谱预处理下的RBFNN模型的预测结果,最终确定的光谱预处理方法分别如下:样本集1为1D+MC;样本集2为2D;样本集3为S-G+1D;样本集4为2D+MC。
表4也列出了RBFNN模型的预测结果。从表4可知:对PLS模型,各验证集的Rp,除样本集2外,其余都在0.963以上、且RSD都小于5%,而对RBFNN模型,除样本集2外,其余都在0.958以上,但样本集1的RSD值大于5%,因此,当用PLS法建模时,除样本集2的含油率通用模型的预测能力较差外, PLS通用模型对其它3个混合样本集的含油率都实现了较好预测;用RBFNN建模时,样本集3和4的通用模型能实现较好预测,而样本集1和2的通用模型的预测能力略差。从表4还可看出,两种建模方法:对样本集2和4,RBFNN模型的预测结果略优于PLS模型,而对样本集1和3,PLS模型的预测结果略优于RBFNN模型;无论是RBFNN模型还是PLS模型,对样本集3和4,它们的Rp都在0.959以上,RSD都小于5.0%,两种建模方法都实现了较好预测,对样本集1,以PLS方法建模更好,对样本集2,则以RBFNN建模更好。
4个样本集,分别采用其较优的建模方法建模,所建模型对验证集进行预测,验证集含油率真实值与模型预测值的相关关系图见图2。
图2 样品含油率真实值与预测值的相关关系图
3.1 分别采用偏最小二乘法(PLS)及径向基神经网络法(RBFNN)建立了油桐+油茶+核桃、油桐+油茶、油桐+核桃和油茶+核桃4个混合样本集含油率的NIR通用性模型。对PLS模型,4个样本集的验证集的相关系数(Rp)分别为0.963、0.881、0.965和0.967,均方根误差(RMSEP)分别为2.78、3.31、2.47和2.70,相对标准偏差(RSD)分别为4.87%、6.51%、4.03%和4.55%;对RBFNN模型,它们的Rp分别为0.958、0.877、0.959和0.966,RMSEP分别为3.34、2.55、2.85和2.54,RSD分别为5.85%、5.02%、4.66%和4.28%。结果表明:用PLS法建模时,对油桐+油茶混合样本集(样本集2)的含油率通用模型的预测能力较差,而对油桐+油茶+核桃(样本集1)、油桐+核桃(样本集3)以及油茶+核桃(样本集4)3个混合样本集的含油率通用模型都具有较好的预测能力,可实现对未知样本的较准确预测;用RBFNN建模时,样本集3和4的通用模型都能实现较好预测,而样本集1和2的通用模型的预测能力略差。
3.2 本研究构建油桐、油茶和核桃3种木本油料植物种子含油率近红外光谱通用模型具有可行性,从而为更高效快速地检测不同木本油料植物种子含油率提供了新方法。
[1]刘利,刘子豪,王艳,等. GB/T 14488.1—2008 植物油料含油量测定:湖北国家粮食质量检测中心[S]. 北京:中国标准出版社,2008. LIU L,LIU Z H,WANG Y, et al. GB/T 14488.1—2008 Vegetable oilseed determination of oil content[S]. Beijing: China Standard Press,2008.
[2]何学友,蔡守平,谢一青,等.不同叶面积损失对油茶产量及品质的影响[J].林业科学,2013,49(5):85-91. HE X Y,CAI S P,XIE Y Q, et al. Effects of partial leaf area reduction on yield and quality ofCamelliaoleifera[J].Scientia Silvae Sinicae,2013,49(5):85-91.
[3]诸小立. 化学计量学方法与分子光谱分析技术[M]. 北京:化学工业出版社,2011:259,262-263. ZHU X L. Molecular Spectroscopy Nalytical Technology Combined with Chemometrics and Its Application[M]. Beijing: Chemical Industry Press,2011:259,26-263.
[4]张辉,吴迪,李想,等.近红外光谱快速检测食用油必需脂肪酸[J].农业工程学报,2012,28(7):266-270. ZHANG H, WU D, LI X,et al. Rapid determination of essential fatty acids in edible oils based one near infrared spectroscopy[J]. Transaction of the CSAE,2012, 28(7): 266-270.
[5]李娟,范璐,邓德文,等.近红外光谱法主成分分析6种植物油脂的研究[J].河南工业大学学报:自然科学版,2008,29(5):18-21. LI J,FAN L,DENG D W, et al. Principal component analysis of 6 kinds of vegetable oils and fats by near infrared spectroscopy[J]. Journal of Henan University of Technology: Natural Science Edition,2008,29(5):18-21.
[6]QUAMPAH A, HUANG Z R, WU J G, et al. Estimation of oil content and fatty acid compositionin cottonseed kernel powder using near infrared reflectance spectroscopy[J]. Journal of the American Oil Chemists’ Society (JAOCS),2012,89(4):567-575.
[7]胡昌勤.近红外光谱法快速分析药品[M].北京:化学工业出版社,2010. HU C Q. Rapid Analysis of Pharmaceuticals by Using Near Infrared Spectroscopy[M]. Beijing: Chemical Industry Press,2010.
[8]HOURANT P,BAETEN V,MORALES M T,et al. Oil and fat classication by selected bands of near-infrared spectroscopy[J]. Applied Spectroscopy,2000,54(8):1168-1174.
[9]WESTAD F,SCHMIDT A,KERMIT M. Incorporating chemical band-assignment in near infrared spectroscopy regression models[J]. Journal Near Infrared Spectroscopy,2008,16(3):265-273.
[10]陆婉珍.现代近红外光谱分析技术[M].2版.北京:中国石化出版社,2007:30. LU W Z. Modern Near Infrared Spectroscopy Analytical Technology[M].2nd ed. Beijing: China Petrochemical Press,2007:30.
本刊信息
欢迎订阅2018年《林产化学与工业》
《林产化学与工业》(双月刊,1981年创刊),由中国林业科学研究院林产化学工业研究所、中国林学会林产化学化工分会共同主办,为全国林产化工行业的学术类期刊。报道范围是可再生的木质和非木质生物质资源的化学加工与利用,研究领域为生物质能源、生物质化学品、生物质新材料、生物质天然活性成分和制浆造纸等,主要包括松脂化学、生物质能源化学、生物质炭材料、生物基功能高分子材料、胶黏剂化学、森林植物资源提取物化学利用、环境保护工程、木材制浆造纸为主的林纸一体化和林产化学工程设备研究设计等方面的最新研究成果。
本刊现被美国《化学文摘》(CA核心)、荷兰《文摘与引文数据库》(Scopus)、美国“乌利希国际期刊指南”、英国《英联邦农业和生物科学文摘》(CAB Abstracts)、英国《全球健康》、英国《皇家化学学会系列文摘》(RSC)、俄罗斯《文摘杂志》(PЖ)等国外数据库收录;被“中国科学引文数据库(CSCD)”核心库、“中文核心期刊”、“中国科技核心期刊”、“RCCSE中国核心学术期刊(A)”、“中国农业核心期刊”、“中国期刊全文数据库”、“中国学术期刊综合评价数据库”、“万方数据——数字化期刊群”、“中文科技期刊数据库”、“中国核心期刊(遴选)数据库”、《中国学术期刊文摘》等国内10多种大型刊库收录。
本刊为双月刊,刊号:ISSN 0253-2417,CN 32-1149/S,逢双月月末出版,大16开,定价:国内¥15.00元/期,全年90.00元;国外$15.00美元/期,全年$90.00美元。国内外公开发行,国内邮发代号:28-59;国外发行代号:Q5941。地址:210042 江苏省南京市锁金五村16号 林化所内;电话:(025)85482493;传真:(025)85482493; E-mail: cifp@vip.163.com; 网址:http://www.cifp.ac.cn。
Universal Models for Determining Oil Contents in Three Woody Oil PlantSeeds by Using Near Infrared Spectroscopy: A Feasibility Study
LI Shuifang1, FU Hongjun2, MA Qiang1, SHAN Yang3
(1.College of Science, Central South University of Forestry & Technology, Changsha 410004, China; 2.College of FoodScience and Engineering, Central South University of Forestry & Technology, Changsha 410004, China;3.Hunan Center for Food Detection and Analysis, Changsha 410025, China)
In order to build a universal model of near infrared spectroscopy for determining oil content in three woody oil plant seeds in Hunan, 98Verniciafordiiseed samples, 96Camelliaoleiferaseed samples and 96Juglansregiaseed samples were collected. Near infrared spectra (NIR) of their crushed seed kernel were recorded. Oil content was determined. Partials quare least (PLS) and radical basis function neural networks (RBFNN) were used to develop the universal NIR models for determining oil content for each of 4 sample sets (i.e.V.fordii+C.oleifera+J.regia,V.fordii+C.oleifera,V.fordii+J.regia, andC.oleifera+J.regia), respectively. For PLS models, the correlation coefficient (Rp) were 0.972, 0.910, 0.980 and 0.981, root mean square error (RMSEP) were 2.44, 3.28, 2.04 and 2.49 and relative standard deviation (RSD) were 4.27%, 6.45%, 3.33% and 4.20% for validation sets of the 4 sample sets, respectively. For RBFNN models,Rpwere 0.965, 0.894, 0.973 and 0.979, RMSEP were 3.04, 2.44, 2.32 and 2.27, RSD were 5.33%, 4.80%, 3.79% and 3.83% for them, respectively. The results showed that the universal models for determining oil content in three woody oil plant seeds could be built by using NIR technology.
Verniciafordiier;Camelliaoleifera;Juglansregia; near infrared spectroscopy; oil content
2016- 11- 02
湖南省教育厅重点项目(14A155)
李水芳(1968— ),湖南宁乡人,副教授,博士,主要从事天然产物开发利用及分子光谱分析技术研究;E-mail: csfulishuifang@126.com。
10.3969/j.issn.0253-2417.2017.04.020
TQ35;O657.3
A
0253-2417(2017)04-0137-06
李水芳,付红军,马强,等.构建三种木本油料植物种子含油率NIR通用模型的可行性研究[J].林产化学与工业,2017,37(4):137-142.