仇逊超 曹军
(东北林业大学,哈尔滨,150040)
便携式近红外光谱仪检测红松籽中的水分含量1)
仇逊超 曹军
(东北林业大学,哈尔滨,150040)
为了建立红松籽水分无损、快速检测,采用便携式近红外光谱仪在波长范围900~1 700 nm对红松籽的光谱信息进行采集和分析,建立红松籽水分的近红外预测模型。利用多种预处理方法优化模型,同时采用反向间隔偏最小二乘法、无信息变量消除法实现特征波段的选取。结果表明,带壳红松籽光谱经矢量归一化预处理后构建的模型最优,松仁光谱经一阶导数预处理后构建的模型最优;波段筛选能够优化模型质量,其中反向间隔偏最小二乘法的筛选结果最优,其带壳红松籽和松仁水分模型校正集相关系数分别为0.864 1和0.907 8,验证集均方根误差分别为1.041 7和0.833 8。结果表明,经过优化后,模型的效果较好,能够实现红松籽水分无损检测,为带壳坚果的在线检测提供技术参考。
便携式光谱仪;红松籽;水分;预处理方法;波段筛选
Journal of Northeast Forestry University,2016,44(12):15-20,30.
For building a nondestructive and fast method to test the moisture in Korean pine seeds, we used a portable near infrared (NIR) spectrometer for the acquisition and analysis of the spectral information of the moisture in red pine nuts under the range of 900-1 700 nm, and established the NIR evaluation model of the moisture in Korean pine seeds. We used backward interval partial least squares (BiPLS) and elimination of uninformative variables (UVE) to select characteristic bands. For the Korean pine seeds with peel, the model established after vector normalization preprocessing was the optimal performance, and for the peeled pine nuts, the model established after first derivative preprocessing was the optimal performance. The models could be optimized by the bands selection and BiPLS was the best optimization. The correlation coefficient of calibration (RC) subset of the moisture models of peeled Korean pine seeds and with peel were 0.864 1 and 0.907 8, respectively. The root-mean-square error of validation (RMSEP) subset were 1.041 7 and 0.833 8, respectively. Therefore, the effect of the model was good and the nondestructive test of the moisture in Korean pine seeds could be realized for online test of the nuts with peel.
红松籽含有100多种对人体有益的成分,是黑龙江省的特色产物,目前已销往多个国家,是农民增收的特色经济作物之一。红松籽的含水率直接影响其经济价值,含水量低,松仁不够饱满,质量较轻,影响其口感的同时,还导致红松籽价格的下降;含水量高,在贮藏过程中有利于致病菌微生物的活动,使其发生腐烂,导致红松籽品质下降[1]。因此含水率是评定红松籽品质的重要参数之一。由于采摘后的红松籽随贮藏时间和贮藏温度、潮湿度的变化而表现出不同程度的水分散失,因此无法根据固定值来确定红松籽的含水率;传统的红松籽水分检测主要采用烘干减质量法,该方法所需测试时间长,需要大量的挥发性溶剂,在测试后红松籽无法继续使用,并只能抽样检测,无法满足大规模生产对在线检测的需求。因此建立一种快速、准确、非破坏性的红松籽水分检测方法,是十分必要的,在提高红松籽产品质量、经济效益,优化选择贮藏条件及加工方式的同时,也为其它带壳干果的水分无损检测提供了参考价值。
近红外光谱技术因其操作简便、成本低、不损害检测样品、快速的特点,而被广泛应用到农副产品品质检测分析中[2-4]。杨建松等人在波长范围950~1 650 nm应用近红外反射光谱技术构建了牛肉水分的预测模型,其校正相关系数为0.947 2[5]。朱逢乐等人在900~1 700 nm范围间,利用Hyperspe近红外高光谱成像仪实现了三文鱼水分的快速无损检测[6]。在坚果品质的检测方面,近红外光谱分析技术也得到了应用。郝中诚等人利用便携式光栅扫描光谱仪sup-NIR1520,在1 000~1 800 nm波长范围间构建了南疆温185核桃水分近红外漫反射模型,模型预测的平均偏差为0.35%[7]。刘洁等人应用近红外漫反射光谱法对带壳板栗和栗仁蛋白质和水分进行了检测,其中带壳板栗、栗仁的水分模型验证集相关系数分别为0.809 2和0.847 3,蛋白质模型验证集相关系数分别为0.732 4和0.765 5[8]。展慧等人利用近红外光谱技术对合格、虫眼、霉变板栗进行了识别,其识别率分别为86.25%、83.75%和90.00%[9]。
本研究以带壳红松籽和去壳红松仁为研究对象,拟采用便携式光谱仪在900~1 700 nm波长范围下检测红松籽的水分。分别比较不同预处理方法对带壳红松籽和去壳红松仁光谱分析的结果,以期找到最佳预处理方法;利用多种波段优选方法,探讨光谱波段筛选方法对红松籽水分建模精度的影响,以确定最优波段选取方法,从而实现提高模型精确性、预测能力,降低其复杂程度和运算时间的目的。
1.1 材料
生的红松籽样品由黑龙江省伊春市凉水国家级自然保护区提供,试验前按照相关贮藏标准,将全部红松籽样品保存于相对湿度50%~60%、温度-1~2 ℃的条件下。为满足光谱数据的采集要求,扫描红松籽样品前将其放置于实验室24 h,使其湿度与温度和实验室保持一致。选取红松籽样品134个进行编号,其中校正集样品104个,用于模型的建立;验证集样品30个,用于对模型的可靠性验证。
1.2 设备
光谱仪器为德国INSION公司NIR-NT-spectrometer-OEM-system(图1),适用光谱波长范围为900~1 700 nm,探测器阵列为InGaAs阵列,光谱分辨率<16 nm,入口光纤芯径为300 μm,体积为67 mm×36 mm×22 mm。该光谱仪器无可移动器件,便携,价格低廉,具有优秀的机械、光学及热稳定性,适合红松籽样品的在线检测。光源为卤素光源,其工作电压为6 V。卤素灯光源与松子样品间采用Y型光纤连接,光纤的另一端与光谱仪连接,通过USB线实现光谱仪与PC机的连接。
图1 NIR-NT光谱仪
1.3 方法
1.3.1 红松籽光谱图像的采集
获取红松籽样品光谱数据的过程中,保持实验室环境温度在26 ℃左右,采集红松籽光谱数据前,先将近红外光谱仪器、卤素光源打开预热15 min,使其稳定。对标准镀金漫反射背景体进行扫描,用于后续试验的背景参比;采用漫反射方式扫描64次,设定光谱仪积分时间30 ms,平均次数3次。在采集光谱数据的过程中,将红松籽最大横径的中心位置置于探头上,保证光源对红松籽样品的垂直照射,并被红松籽完全遮挡住,以减少光谱的差异;光谱采集完成一次后,旋转红松籽样品90°,共旋转3次,以实现红松籽样品的共12次扫描,红松籽样品的测量示意图如图2所示。试验过程中,红松籽样品与光源的距离在3 mm左右。首先分别对带壳红松籽样品进行扫描,然后将红松籽进行手工去壳,分别对松仁样品进行扫描。
图2 红松籽光谱测量示意图
1.3.2 理化分析
采用中国上海博讯公司的101系列的GZX-9140MBE电热鼓风干燥箱(温度控制范围5~250 ℃,工作电压220 V)对红松籽样品进行干燥处理,对干燥前后的去壳红松仁利用中国苏州昆山巨天仪器设备有限公司的电子秤CP114(量程110 g,可读性0.000 1 g)进行秤量。根据干燥前后的称量数值,计算出红松籽样品的水分。水分的计算公式如下:
(1)
式中:X为样品的含水率(%);m1为样品干燥前的质量(g);m2为样品干燥后的质量(g)。
1.3.3 数据处理方法
本研究利用偏最小二乘法(PLS)构建带壳红松籽和去壳红松仁的水分近红外模型,采用基于样品欧式距离的K-S[10]方法实现红松籽校正集和验证集的划分,在全波长范围内,选取矢量归一化、一阶导数(1-Der)、二阶导数(2-Der)、多元散射校正(MSC)、变量标准化校正(SNV)方法对原始带壳红松籽及去壳红松仁光谱进行预处理,采用反向间隔偏最小二乘法(BiPLS)[11]和无信息变量消除法(UVE)[12]进行带壳红松籽和去壳红松仁光谱波段的选取,试验过程全部在Matlab 7.10.0软件平台上完成。
2.1 校正集与验证集的划分
采用K-S方法实现校正集与验证集的划分,划分的红松籽样品水分分布结果如表1所示,其中校正集红松籽样品的水分分布在3.16%~6.53%,其覆盖范围大于验证集红松籽水分变化范围(带壳红松籽4.17%~6.23%、去壳红松仁4.17%~5.45%),表明了红松籽样品校正集所构建的水分模型能较好地适用于验证集样品。带壳红松籽和去壳红松仁选定的校正集样本不同的原因是,虽然两者水分相同,但光谱特性存在差异,因而致使光谱—理化值共生距离存在差别,使得校正集样本的选定不同。
表1 红松籽样品水分分布
2.2 光谱数据分析
采用漫反射方法采集红松籽样品的原始反射光谱数据,图3所示为随机选取的1个红松籽样品原始平均光谱数据,其中蓝色虚曲线为去壳红松仁光谱,红色实曲线为带壳红松籽光谱,光谱波长范围为906.9~1 699.18 nm,采样间隔为6.83 nm。可知,由>于红松籽壳的存在,阻碍了红松籽光谱信息的获取,使得去壳红松仁样品的吸收光度明显高于带壳红松籽样品的吸收光度,但带壳红松籽与去壳红松仁表现的走势基本相同。水是由氢、氧两种元素组成的无机物。图3中960 nm附近的微弱波峰为水分子中O—H键的二级倍频吸收,1 400 nm附近的波峰为O—H键的一级倍频吸收[6]。根据文献[13]报道,O—H键合频较弱吸收带在1 220 nm附近。本研究选取的波长范围包含了水分的特征吸收区域,表明了带壳红松籽和去壳红松仁样品的光谱数据能够反映红松籽水分的相关信息。
图3 随机选取的红松籽样本反射光谱
2.3 光谱预处理
通过对光谱数据的导数预处理,可以消除基线和背景干扰,但不同窗口宽度,产生预处理效果不同,因此,需要选出模型评价的最佳导数窗口宽度。最佳导数窗口宽度以模型的交叉验证均方根误差来进行评价,该值越小则模型质量越好,结果如图4所示。可知,带壳红松籽和去壳红松仁在1-Der预处理情况下,最佳窗口宽度分别为5、10;带壳红松籽和去壳红松仁在2-Der预处理情况下,最佳窗口宽度分别为5、25。
图4 不同窗口宽度求导模型结果
在全光谱范围内,对带壳红松籽和去壳红松仁光谱进行多种不同预处理,构建多个红松籽样品水分PLS模型,根据计算得到的各个模型的校正集相关系数、校正集均方根误差、验证集相关系数、验证集均方根误差评价参数的最优值,进而选取出光谱预处理的最佳方法。最优值的评价标准是:相关系数越大越好,均方根误差越小越好,对比结果如表2所示。可知,由于红松籽壳对获取光谱信息的干扰,使得带壳红松籽和去壳红松仁的水分PLS模型存在差异,但通过分析带壳红松籽的光谱数据可以获得松仁内部水分信息。通过对带壳红松籽原始光谱数据进行预处理,消除了附加散射变动、光程变化、噪声信息等对其光谱数据的干扰,模型质量得到了提升,说明合理地运用预处理方法能够提高模型的预测精确性及稳健性,且经过归一化预处理后,得到的带壳红松籽模型最佳,其校正集相关系数为0.837 8,校正集均方根误差和验证集均方根误差分别为1.009 5、1.085 4。去壳红松仁光谱经过SNV、MSC预处理后,模型的质量与原始光谱模型的质量类似且有所下降,说明带壳红松籽样品表面非特异性散射的影响所导致的光谱差异不显著,并且在预处理的过程中可能减少了少量有效信息;经过求导处理后去壳红松仁模型的质量提高了,说明经过求导预处理后特征信息被有效地提取了。但经2-Der预处理后构建的模型质量最差,说明在2-Der预处理的过程中虽然消除了基线和背景的干扰,但也在一定程度上放大了噪声,经过1-Der预处理后得到的去壳红松仁模型最佳,其校正集相关系数为0.872 1,校正集均方根误差和验证集均方根误差分别为0.854 1、0.889 0。
表2 不同预处理方法建立红松籽水分PLS模型
2.4 光谱波段选取
全波段光谱数据信息量大,含有冗余信息多,对模型建立产生影响和干扰,且处理时间长,建模计算工作量大,不利于产品的快速在线检测[14]。带壳红松籽和去壳红松仁的光谱波段优化在其相应预处理结果基础上进一步展开研究。
2.4.1 反向间隔偏最小二乘法
BiPLS波段选取的模型效果受到分割数大小的影响,分割数较小时,会使得信息量较好的区间被剔除;较大时,计算量大,建模复杂,变量数目不能有效地减少。表3所示为不同分割数对带壳红松籽和去壳红松仁建模结果的影响。可知,BiLPS分割数分别取15和10时,经过优选波段后,得到的带壳红松籽和去壳红松仁的模型质量最优。
表3 不同分割数模型评价结果
BiPLS红松籽光谱波段筛选结果如图5所示,带有黑色背景部分的光谱为筛选保留下的波段。图5a为带壳红松籽经过归一化预处理后,在分割数为15的情况下优选波段结果,对应的波段组合区域为1、4、6,相应的波长范围为906.9~1 002.52、1 214.25~1 309.87、1 419.15~1 514.77 nm;图5b为去壳红松仁经过1-Der预处理后,在分割数为10的情况下优选波段结果,对应的波段组合区域为1、5、8,相应的波长范围为906.9~968.37、1 180.1~1 241.57、1 385~1 446.47 nm。
2.4.2 无信息变量消除法
UVE是基于分析PLS回归系数稳定性的变量筛选方法,其变量稳定性分析结果如图6所示,虚曲线为波长变量稳定性分布曲线,实曲线为引入的噪声变量稳定性分布曲线,实直线为阈值上下限,2条虚直线外的波长变量部分被认为是有效信息,即在2条虚线外的波长变量被保留。对应得到的筛选波段结果如图7所示。图7a为带壳红松籽经过归一化预处理后的UVE优选波段结果,优选波长范围为906.9~1 309.87、1 344.02~1 542.09、15 617.22~1 699.18 nm;图7b为去壳红松仁经过1-Der预处理后的优选波段结果,优选波长范围为906.9~1 111.8、1 125.46~1 173.27、1 186.93~1 371.34、1 446.47~1 480.62、1 514.77~1 630.88、1 651.37~1 699.18 nm。
a.带壳红松籽 b.去壳红松仁
图5 BiPLS波段筛选结果
a.带壳红松籽 b.去壳红松仁
图6 UVE变量稳定性分析结果
a.带壳红松籽 b.去壳红松仁
图7 UVE波段筛选结果
2.5 全波段、特征波段的模型建立与评价
分别在全波段、上述各方法筛选的特征波段区域范围内构建带壳红松籽和去壳红松仁的水分全光谱-PLS、BiPLS-PLS、UVE-PLS定量分析模型,通过相关系数和均方根误差的对比结果,确定最优特征波段的选取方法。模型评价结果如表4所示。可知,通过优选波段模型各项指标得到了改善,变量数量有所减少,相关系数有所提升,而均方根误差则有所下降,说明波段筛选对模型的质量提升有所帮助。BiPLS-PLS构建的模型质量最优,这主要是因为,经BiPLS筛选所得的特征波段分别对应了水分O—H键的基频、倍频和合频,保留了水分属性中最重要的吸收谱带,多数冗余信息变量被消除了;UVE筛选方法保留的变量较多,存在冗余信息,使得模型的预测精确度较差。在BiPLS选取的波段范围下,构建的带壳红松籽水分PLS模型校正集相关系数可达0.864 1,验证集均方根误差为1.041 7,去壳红松仁水分PLS模型校正集相关系数可达0.907 8,验证集均方根误差为0.833 8。因此,在对红松籽样品进行水分PLS建模分析的过程中,采用BiPLS法是更为适合的,能够筛选出数量更少、更合理的波长变量。
表4 全波段和特征波段下模型评价结果
2.6 模型验证
分别将30个验证集带壳红松籽、去壳红松仁的样品光谱带入经相应预处理方法后,BiPLS优选的特征波段下的优化模型中,计算得到的最终预测结果如图8所示。
a.带壳红松籽模型预测结果 b.去壳红松仁模型预测结果
图8 红松籽水分模型预测结果
本试验利用便携式近红外光谱仪在900~1 700 nm范围内对红松籽水分进行了无损定量分析,结合直接干燥法测定的水分,利用偏最小二乘法进行建模分析。通过比较校正集相关系数、校正集均方根误差、验证集相关系数、验证集均方根误差确定最佳预处理方法和最优波段的选取方法;发现只有选取合适的预处理方法,才能在保留有效光谱信息的同时,消除噪声及干扰因素,构建最佳近红外模型;通过筛选光谱的特征波段,提升了模型的预测性能和各项指标参数,印证了波段优化在建模分析过程中的重要地位。
试验结果表明:针对带壳红松籽和去壳红松仁选取合适的预处理方法,能够提升模型的质量。其中,经过矢量归一化预处理后的带壳红松籽水分PLS模型最佳,经过1-Der预处理后的去壳红松仁水分PLS模型最优。BiPLS、UVE波段筛选方法均能使建模变量数量在不同程度上有所减少,有助于减少运算时间,优化模型质量,且经BiPLS筛选波段后构建的模型最为理想,消除了大量冗余信息的同时,保留了水分成分中O—H功能基团的基频、倍频、合频吸收的特征波段,实现了筛选波长的目的。其构建的带壳红松籽水分PLS模型校正集相关系数可达0.864 1,验证集均方根误差为1.041 7,去壳红松仁水分PLS模型校正集相关系数可达0.907 8,验证集均方根误差为0.833 8。由于受到红松籽壳的干扰,带壳红松籽水分模型检测精度略低于去壳红松仁水分模型,但预测结果仍是可靠的。近红外光谱分析技术为红松籽水分的实时、无损在线监控提供了一个新的技术方法,也为评价红松籽质量提供了一个新的技术支持。
[1] 肖丽,应铁进,蔡路昀,等.巴西松子中蛋白酶的分离纯化及酶学性质[J].食品科学,2013,34(1):239-243.
[2] CAMPS C, CHRISTEN D. Non-destructive assessment of apricot fruit quality by portable visible-near infrared spectroscopy[J]. LWT-food Science and Technology,2009,42(6):1125-1131.
[3] LIU Muhua, YAO Linxing, WANG Tong, et al. Rapid determination of egg yolk contamination in egg white by VIS spectroscopy[J]. Journal of Food Engineering,2014,124(3):117-121.
[4] COZZOLINO D, CYNKAR W, SHAH N, et al. Quantitative analysis of minerals and electric conductivity of red grape homogenates by near infrared reflectance spectroscopy[J].Computers and Electronics in Agriculture,2011,77(1):81-85.
[5] 杨建松,孟庆翔,任丽萍,等.近红外光谱快速评定牛肉品质[J].光谱学与光谱分析,2010,30(3):685-687.
[6] 朱逢乐,何勇,邵咏妮.应用近红外高光谱成像预测三文鱼肉的水分含量[J].光谱学与光谱分析,2015,35(1):113-117.
[7] 郝中诚,彭云发,张宏,等.基于近红外光谱的南疆温185核桃水分无损检测的研究[J].安徽农业科学,2014,42(21):7191-7193,7233.
[8] 刘洁,李小昱,李培武,等.基于近红外光谱的板栗水分检测方法[J].农业工程学报,2010,26(2):338-341.
[9] 展慧,李小昱,周竹.基于近红外光谱和机器视觉融合技术的板栗缺陷检测[J].农业工程学报,2011,27(2):345-349.
[10] MACHO S, IUSA R, CALLAO M P, et al. Monitoring ethylene content in heterophasic co-polymers by near-infrared spectroscopy standardization of the calibration model[J]. Analytica Chimica Acta,2001,445(2):213-220.
[11] PARK B, ABBOTT J A, LEE K J, et al. Near-infrared diffuse reflectance for quantitative and qualitative measurement of soluble solids and firmness of delicious and Gala apples[J]. Transactions of the ASAE,2003,46(6):1721-1731.
[12] HE Kaixun, CHENG Hui, DU Wenli, et al. Online updating of NIR model and its industrial application via adaptive wavelength selection and local regression strategy[J]. Chemometrics and Intelligent Laboratory Systems,2014,134(8):79-88.
[13] 王小燕,顾赛麒,刘源,等.近红外光谱法快速检测带鱼肉中的水分和蛋白质含量[J].食品工业科技,2012,33(5):317-319.
[14] 张初,刘飞,孔汶汶,等.利用近红外高光谱图像技术快速鉴别西瓜种子品种[J].农业工程学报,2013,29(20):270-276.
Moisture of Korean Pine Seeds by Portable Near Infrared Spectrometer
Qiu Xunchao, Cao Jun
(Northeast Forestry University, Harbin 150040, P. R. China)
Portable near infrared spectrometer; Korean pine seeds; Moisture; Pretreatment method; Band selection
仇逊超,女,1986年6月生,东北林业大学机电工程学院,博士研究生。E-mail:ldqiuxunchao@126.com。
曹军,东北林业大学机电工程学院,教授。E-mail:zdhcj@126.com。
2016年7月1日。
S664.9
1)中央高校创新团队与重大项目培育资金项目(E2572016EBC3)。
责任编辑:戴芳天。