姜 红,赵志行,李小定,*,江叔俭
(1.华中农业大学食品科学技术学院,湖北武汉430070;2.环境食品学教育部重点实验室,湖北武汉430070;3.武汉度微生物科技有限公司,湖北武汉430070)
基于近红外光谱技术的米糠粕主要成分分析
姜红1,2,赵志行1,李小定1,2,*,江叔俭3
(1.华中农业大学食品科学技术学院,湖北武汉430070;2.环境食品学教育部重点实验室,湖北武汉430070;3.武汉度微生物科技有限公司,湖北武汉430070)
为探索米糠粕营养成分的近红外快速测定方法,采集261个米糠粕样品的近红外光谱,分别经过标准正态变量变换、去趋势校正、多元散射校正等20种方法进行预处理,在1000~1799 nm波长范围内,结合化学方法测定数据采用偏最小二乘法、主成分分析结合人工神经网络法、偏最小二乘结合人工神经网络法建立米糠粕营养成分近红外定量模型。结果发现,在3种建模方法中,偏最小二乘法结合人工神经网络法建立的模型效果最好,预测精度最高,所得的水分、灰分和粗蛋白近红外定量模型的相关系数分别为0.9593、0.9168和0.9626。
米糠粕,近红外光谱技术,偏最小二乘法,主成分分析,人工神经网络
稻米是我国的主要粮食之一,世界上33%的稻米均产于我国,作为稻米加工过程的主要副产物,米糠资源丰富,年产1000万吨以上,世界年产量可达7600万吨[1-2]。米糠含有脂肪、蛋白质、纤维等营养成分,广泛应用于饲料行业,具有极高的营养价值和经济效益,但是米糠含有大量的不饱和脂肪酸,易氧化酸败,通过浸提油脂得到的米糠粕可以在保留原有营养的基础上延长其贮藏期[3-4]。米糠粕成分的传统检测方法存在步骤繁琐、耗时、效率低等缺点,无法实现米糠粕实际生产过程中的在线快速检测,因此米糠粕成分快速无损检测可推动米糠粕产业的发展,对饲料企业的原料检测具有实际应用价值。
近红外光谱技术是一种在线快速无损检测物质含量和鉴别物质的现代光谱分析技术,在藜麦、大米、玉米成分的快速检测方面已有报道[5-7],而用于米糠粕主要成分的快速分析未见报道。本实验在采集261个米糠粕样品光谱的基础上,对其进行标准正态变量变换、去趋势校正、多元散射校正等单独及结合的20种预处理,并在10个不同的光谱波段范围内,采用偏最小二乘法、主成分分析结合人工神经网络法和偏最小二乘结合人工神经网络法对米糠粕中水分、灰分和粗蛋白进行分析,以期建立米糠粕主要成分的近红外定量模型。
1.1材料与仪器
米糠粕从武汉、襄阳、荆门油脂厂收集的不同生产批次的样品,共261个;硼酸、甲基红、溴甲酚绿、硫酸铜、硫酸钾、氢氧化钠、无水碳酸钠、浓盐酸、浓硫酸均为分析纯。
Sup NIR-2720型近红外分析仪杭州聚光科技股份有限公司;高温炉温度控制器河南省鹤壁市热工仪表厂;KDN-08B半自动定氮仪上海雷索电子有限公司;KDN-08C数控消化炉上海雷索电子有限公司。
1.2实验方法
1.2.1米糠粕主要成分测定方法水分的测定参照GB/T 10358-2008;灰分的测定参照GB/T 9824-2008;粗蛋白的测定参照SN/T 0800.3-1999。
1.2.2近红外光谱采集将近红外光谱仪器预热30 min,进行性能测试和白板参比后开始测定样品。将米糠粕样品装入直径100 mm的黑色样品盘内,用尺子刮平,保持样品表面均匀,采用漫反射的方法采集样品光谱,为了避免误差,每个样品扫描3次,取平均值作为样品的光谱曲线。光谱测定条件:扫描范围为1000~1799 nm,扫描间隔1 nm,仪器带宽1 nm,仪器分辨率为10 nm,环境温度25℃。
1.2.3光谱数据处理与分析采用近红外仪器自带RIMP化学计量学软件对261个米糠粕样品数据进行Kennard-Stone分组,其中80%用于建立近红外模型,为定标集;20%用于检验所建模型的精度,为验证集。为寻找各模型的最优建模方法,选用不同的建模方法建立米糠粕主要成分定量模型,通过相关系数、标准偏差和交叉验证标准误差对模型进行内部验证,最后通过随机选取的建模之外样品对模型进行外部检验,考察模型的适应性和精度,相关系数越高,标准偏差和交叉验证标准偏差越低,则模型的预测效果越好[8]。
2.1米糠粕原始光谱图与化学值表
261个米糠粕样品的原始光谱图见图1,米糠粕在光谱波段范围1000~1799 nm内存在多个吸收峰,其变化趋势一致但是不重合。
采用化学方法测定261个米糠粕样品营养成分值见表1。由表1可知,261个米糠粕样品的水分含量为9.620%~13.48%,平均值为11.54%±0.7444%;灰分含量为7.480%~11.58%,平均值为9.621%±0.8752%;粗蛋白含量是13.31%~18.28%,平均值为15.53%± 1.033%,各营养成分含量范围较宽,适合建立近红外分析模型。
图1 261个米糠粕样品近红外光谱图Fig.1 Near infared reflectance spectra of 261 rice bran meal samples
表1 所有米糠粕样品化学成分Table 1 Chemical composition in all rice bran meal samples
2.2米糠粕营养成分模型的建立
2.2.1偏最小二乘法回归模型偏最小二乘法(partial least squares,PLS)是一种基于因子分析的多变量校正方法,将光谱矩阵和浓度矩阵同时进行分解,并将浓度信息引入到光谱数据分析过程中,使光谱主成分直接与被测组分含量相关联[9],可以滤除原始光谱矩阵和浓度矩阵中的无用信息。此外,偏最小二乘法用于多变量模型的建立可有效滤除噪音、提高模型的稳健性和预测精度[10]。全波长范围内10种较优的光谱预处理和最佳预处理条件下10个不同光谱波段范围内偏最小二乘法建立的粗蛋白模型统计参数结果见表2。
由表2可知,粗蛋白模型最佳预处理方法是多元散射校正和标准化,其验证集相关系数最高,为0.9142,且验证集标准偏差最低,为0.4774;在此预处理条件下,光谱波段范围1000~1350、1450~1799 nm内,粗蛋白模型具有最高的相关系数、最低的标准偏差和交叉验证标准偏差,所以偏最小二乘法建立的粗蛋白模型最佳光谱波段范围为1000~1350、1450~1799 nm。
为了使所建模型的精度进一步提高,在确定最佳预处理方法和光谱波段范围后,采用预测残差平方和(Prediction Residual Errorsum of square,PRESS)来确定模型的最佳主因子数[11]。主因子数过少,则出现不充分拟合的现象;主因子数过多,可能会出现过度拟合状况,从而使所建立的模型预测能力下降,因此,最佳主因子数的选择对所建立模型的结果影响很大。粗蛋白模型在最佳预处理方法和光谱波段范围内PRESS值随主因子变化见图2。
表2 10种较优光谱预处理和不同光谱波段条件下偏最小二乘法建立的粗蛋白模型统计参数Table 2 Statistical parameters of crude protein model under 10 optimized spectral pretreatments and 10 different spectral bands by PLS
图2 粗蛋白模型PRESS随主成分因子变化图Fig.2 The PRESS of crude protein model with fator numbers
由图2可知,建模软件推荐最佳主因子数为14,而主因子数为15时,PRESS值最小。在主因子数为15的条件下,建模定标集和验证集相关系数均高于主因子数为14条件下建立模型,分别为0.9384和0.9221;定标集标准偏差、验证集标准偏差和交叉验证标准误差均低于主因子数为14条件下建立的模型,分别为0.3382、0.4509和0.4258,所以偏最小二乘法建立的粗蛋白模型的最佳主因子数应选择15。
2.2.2主成分分析结合人工神经网络模型主成分分析(principal component analysis,PCA)是一种最古老的多元统计分析技术,主要通过降维技术将多变量转换成几个主成分的技术,这些主成分不仅要包含原始变量的大部分信息,而且不相关[12]。人工神经网络(artificial neural network,ANN)是一种复杂的非线性并行运算系统,能够实现输入层和输出层的高度非线性转换,满足在线模拟、在线优化和自适应控制的需要[13]。
人工神经网络的参数设置为:根据预测残差平方和选择数法[14],水分、灰分、粗蛋白的默认主因子数分别设置为19、17、15,隐含层节点数均设置为10,输入层到隐含层的初始权重为-0.5~0.5的随机数,隐含层到输出层的初始权重为-0.5~0.5的随机数,隐含层和输出层的转化函数均为对数函数,初始学习速率为0.1,动量项为0.9,结果见表3。
由表3可知,粗蛋白模型的最佳预处理方法是Savitzky-Golay平滑、差分求导、多元散射校正和均值中心化,其定标集和验证集相关系数均最高,为0.9175和0.9129,且定标集和验证集标准偏差均最低,分别为0.4396和0.5374;在此预处理条件下,光谱波段范围1000~1799 nm内,定标集和验证集相关系数均最高,为0.9175和0.9129,且标准偏差均最低,为0.4396和0.5374,所以粗蛋白模型的最佳光谱波段范围是1000~1799 nm。
2.2.3偏最小二乘结合人工神经网络模型采用偏最小二乘结合人工神经网络法建立米糠粕粗蛋白模型,比较10种光谱预处理和不同光谱波段范围的建模效果,从中选取最佳的预处理方法和光谱波段范围,结果见表4。其中人工神经网络参数同2.2.2。
由表4可知,粗蛋白模型的最佳预处理方法是Savitzky-Golay平滑、Savitzky-Golay导数、去趋势校正、均值中心化,其定标集和验证集相关系数均最高,为0.9626和0.9292,且标准偏差均最小,为0.2655和0.4349;在此预处理条件下,光谱波段范围1000~1799 nm内,定标集和验证集相关系数均最高,为0.9626和0.9292,且标准偏差均最小,为0.2655和0.4349,所以粗蛋白模型的最佳光谱波段范围是1000~1799 nm。
表3 10种较优光谱预处理和不同光谱波段下主成分分析结合人工神经网络法建立的粗蛋白模型统计参数Table 3 Statistical parameters of crude protein model under 10 optimized spectral pretreatments and 10 different spectral bands by PCA-ANN
表4 10种较优光谱预处理和不同光谱波段条件下偏最小二乘结合人工神经网络建立的粗蛋白模型统计参数Table 4 Statistical parameters of crude protein model under 10 optimized spectral pretreatments and 10 different spectral bands by PLS-ANN
2.2.4米糠粕营养成分最佳模型的确定米糠粕中水分和灰分采用与粗蛋白相同的预处理方法、光谱波段范围和建模方法得到的模型统计参数见表5。由表5可知,偏最小二乘结合人工神经网络法建立的米糠粕主要成分模型效果最好,水分、灰分和粗蛋白模型的定标集和验证集相关系数分别为0.9593和 0.8961、0.9168和0.9006、0.9626和0.9292,说明偏最小二乘结合人工神经网络法建立的米糠粕主要成分模型对未知样品的预测能力较好。拟合出的米糠粕水分、灰分和粗蛋白模型见图3。其中,水分模型预测值和实测值的线性方程为Y=0.84775X+1.7563(R2= 0.9203),灰分模型预测值和实测值的线性方程为Y= 0.851137X+1.43445(R2=0.8406),粗蛋白模型预测值和实测值的线性方程为Y=0.9163X+1.28276(R2= 0.9265)。
2.3米糠粕营养成分模型外部检验
随机选取模型之外的样品,对偏最小二乘结合人工神经网络法建立的米糠粕主要成分模型进行外部检验,采集验证集中的光谱数据对水分、灰分和粗蛋白进行计算得到预测值,部分结果见表6,并对其进行t检验(p≤0.05),各模型的预测值与真实值之间均不存在显著性差异。由此可知,偏最小二乘结合人工神经网络法快速分析米糠粕中水分、灰分和粗蛋白含量是可行的。
图3 基于近红外光谱参数的米糠粕营养成分预测模型Fig.3 Nutrient prediction models of rice bran meal based on the near infrared spectral parameters
表5 米糠粕常规营养成分3种建模结果Table 5 Result of rice bran meal conventional nutritional content model under three methods
采集了261个米糠粕样品的近红外漫反射光谱,分别采用多元散射校正、净分析信号、正交信号校正和基线校正等单独及结合的20种方法对米糠粕原始数据进行处理,采用偏最小二乘法、主成分分析结合人工神经网络法和偏最小二乘结合人工神经网络法3种统计学方法进行建模。选取最佳的光谱预处理方法和波段范围,以相关系数和标准偏差对三种方法建模效果进行评价,发现偏最小二乘结合人工神经网络法建立的模型预测能力较好。其中水分模型最佳预处理方法为多元散射校正和净分析信号,最佳光谱波段范围是1000~1760 nm;灰分模型的最佳预处理方法是多元散射校正和基线校正,最佳光谱范围是1000~1799 nm;粗蛋白模型的最佳预处理方法是Savitzky-Golay平滑、Savitzky-Golay导数、去趋势校正、均值中心化,最佳光谱波段范围是1000~1799 nm。在最佳建模条件下,水分、灰分和粗蛋白模型的定标集和验证集相关系数分别为0.9593和0.8961、0.9168和0.9006、0.9626和0.9292。对其建立的米糠粕模型进行外部检验,结果表明预测值与真值之间不存在显著性差异,模型有很好的预测能力。
Analysis on nutrients of rice bran meal based on near infrared spectroscopy
JIANG Hong1,2,ZHAO Zhi-xing1,LI Xiao-ding1,2,*,JIANG Shu-jian3
(1.College of Food Science and Technology,Huazhong Agricultural University,Wuhan 430070,China;2.Key Laboratory of Environment Correlative Dietology,Ministry of Education,Wuhan 430070,China;3.Wuhan Duwei Bio-technology Co.,Ltd.,Wuhan 430070,China)
To explore fast analysis method on nutrients of rice bran meal by near infrared spectroscopy,the near infrared spectra of 261 rice bran samples was collected.The spectra was performed with 20 different preprocessing methods,such as standard normal variate,detrend and multiplicative scatter correction.The near infared spectroscopy quantitative models of rice bran meal nutrients in 1000~1799 nm were respectively established by partial least square,principal component analysis combined with artificial neural network and partial least square combined with artificial neural network with the data measured by chemical method.The results showed that the models obtained by partial least square combined with artificial neural network were the best and its prediction accuracy was the highest.The correlation coefficients of the models were 0.9593,0.9168 and 0.9626 for moisture,ash content and crude protein,respectively.
rice bran meal;near infrared spectroscopy;partial least square;principal component analysis;artificial neural network
TS210.9
A
1002-0306(2015)16-0086-06
10.13386/j.issn1002-0306.2015.16.009
2015-01-22
姜红(1989-),女,在读硕士研究生,主要从事天然产物化学方面的研究,E-mail:jho332@126.com。
李小定(1968-),男,博士,副教授,主要从事粮食油脂与植物蛋白工程及天然产物化学方面的研究,E-mail:lixd@mail.hzau.edu.cn。
国家科技支撑计划项目(2013BAD20B06)。