张丽娟, 夏其乐, 陈剑兵, 曹 艳, 关荣发*, 黄海智
1. 中国计量大学生命科学学院, 浙江 杭州 310018 2. 浙江省农业科学院食品科学研究所, 农业部果品产后处理重点实验室, 浙江省果蔬保鲜与加工技术研究重点实验室, 浙江 杭州 310021
蓝莓, 一种蓝色小浆果, 富含黄酮醇、 花青素和原花色素, 其花青素含量在水果中是最高的, 被誉为“浆果之王”[1]。 但蓝莓鲜果保质期较短, 常常在采摘和存储过程中, 因机械损伤、 微生物腐烂、 水分流失等不可抗因素而变质[2]。 2016年, 蓝莓全球年产量高达655 kt, 其中鲜果产量为425.5 kt, 加工产量为229.5 kt。 在蓝莓的加工生产中, 不可避免地会产生大量蓝莓果渣, 而蓝莓果渣中花色苷含量可达到6.39 mg·g-1 [1]。 蓝莓果渣用途广泛, 可用于生产果酱、 含片等, 提高产品的花色苷含量和膳食纤维量, 可满足大健康背景下, 消费者对营养健康产品的需求。 目前测定蓝莓果渣花色苷含量主要有pH示差法[3]、 色谱法。 这两种方法均无法对蓝莓果渣实现快速、 大样本量的测定。
近红外光谱技术具备分析速度快、 样品无需预处理、 多组分同时测定、 无污染低成本等优点。 目前国内外已经实现了浆果的硬度[4]、 酸度、 pH值、 可溶性固形物(SSC)[5]、 花青素[4,6]、 花色苷[7]等内部指标的近红外光谱无损检测。 蓝莓的光谱研究, 主要涉及蓝莓内部淤伤[8]、 硬度(FI)、 可溶性固形物(SSC)[9]、 总酚、 总黄酮、 花青素[10], 而蓝莓果渣花色苷的近红外模型建立、 预处理方法、 波长筛选的研究较少。 利用近红外光谱实现对不同品种蓝莓果渣中花色苷的快速测定, 将会为大样本量蓝莓果渣的分级、 分类以及快速检测奠定基础。
选择了半高丛系列“北陆”、 南高丛系列“蓝美1号”、 兔眼系列“灿烂”三种蓝莓样品为试验材料, 均于2018年7月购买于浙江蓝美科技股份有限公司。 将每个品种的蓝莓利用SKG A8大口径原汁机进行榨汁, 获得蓝莓果渣, 再将每个品种的蓝莓果渣分别随机划分为9组、 10组、 10组, 每组30 g。 将每组蓝莓果渣均匀平铺至样品杯中, 使用多功能近红外分析仪DA7200(瑞典波通公司)采集光谱, 采用近红外漫反射以样品杯旋转的方式进行光谱采样。 仪器参数设置如下: 波长变量从950 nm分布至1 650 nm, 分辨率为5 nm, 环境温度23 ℃, 每个样品重复测量3次。 三种蓝莓果渣每组进行30次测量, 每次测量取平均值, 北陆、 蓝美1号、 灿烂果渣分别获得270, 300和300个样本。
蓝莓果渣花色苷提取方法参考雷良波的方法[3], 并调整为三次提取, 利用紫外可见分光光度计UV-1800, 测定蓝莓果渣花色苷含量。 三种蓝莓果渣的花色苷含量分布, 经软件Matlab 2016b检验, 均服从正态分布, 可为建立蓝莓果渣花色苷的PLS模型提供可靠的数据基础。
应用主成分马氏距离(principal component analysis-Mahalanobis distance, PCA-MD), 来剔除蓝莓果渣近红外光谱中异常样本, 可以提高近红外光谱技术对蓝莓果渣花色苷定量分析的精确性和可靠性。
运用Kennard-Stone(K-S)法, 对剔除异常后的蓝莓果渣光谱数据进行4∶1的校正集、 验证集的划分。 该样本集划分方法是基于光谱变量的选择方法, 是目前最常用的方法, 既确保了校正集样本包括测量样本的完整背景信息, 同时又能保证验证集的样本信息包含在校正集的样本信息中, 利于模型有效性的检验。
分别对北陆、 蓝美1号、 灿烂果渣的光谱数据, 进行光程校正类预处理方法归一化、 变量标准化(standard normal variate, SNV)、 多元散射校正(multiplicative scatter correction, MSC)的比较; 同时对蓝莓果渣进行Norris一阶导数(Norris first derivative, NFD)、 Norris二阶导数(Norris second derivative, NSD)、 SG卷积一阶导数(Savitzky-Golay convolution first derivative, SGCFD)、 SG卷积二阶导数(Savitzky-Golay convolution second derivative, SGCSD)导数类的光谱预处理方法比较; 再进行SG(Savitzky-Golay)卷积平滑、 正交信号校正去噪的预处理, 比较上述9种预处理方法, 选择其中表现更好的预处理方法, 分析对比其组合顺序对蓝莓果渣花色苷定量分析的影响, 确定其中最优的预处理方法。
连续投影算法(successive projections algorithm, SPA)利用向量的投影分析, 实现降低被选波长变量之间的共线性[11]。 竞争适应再加权抽样(competitive adaptive reweighted sampling, CARS)算法通过高效地竞争方式, 从全谱波长变量中选出具有强竞争力、 与化学性质相关性强的波长变量。 SPA与CARS算法都是用于光谱分析的典型变量选择技术, 比较分析两种波长筛选方法的异同点, 得到更适合蓝莓果渣花色苷近红外光谱PLS模型的波长变量筛选方法。
将已预处理过的蓝莓果渣光谱数据作为样本集, 应用偏最小二乘方法(partial least square, PLS), 建立不同品种蓝莓果渣花色苷的回归预测数学模型。 蓝莓果渣PLS模型中定量分析花色苷含量的评价指标对应的评价标准如表1所示[12]。
表1 PLS模型的评价标准
(1)
运用K-S法按照4∶1的比例, 对867个已剔除异常的蓝莓果渣样本分类, 得到分别由三种不同品种中686个、 171个蓝莓果渣花色苷样本组成的校正集、 验证集。
图1 三种蓝莓果渣的结果
对蓝莓果渣光谱数据分别进行MSC、 SG卷积平滑、 SGCSD、 正交信号校正的双因素、 三因素、 四因素的组合方式(考虑组合顺序)进行光谱预处理, 在此基础上分别建立其全谱PLS模型, 表3为有效改善蓝莓果渣花色苷回归模型指标的预处理方法组合。
表2 预处理方法的单因素比较
由表3结果分析可知, 正交+SGCSD+SG与正交+SG+SGCSD模型指标一样, 且模型指标最优。 虽然SG卷积平滑是目前为止近红外光谱分析最为广泛的光谱平滑去噪方法, 但在三种不同品种蓝莓果渣花色苷近红外光谱的研究中, 正交信号校正去除了光谱数据中所包含的各种干扰噪声信号, 去噪效果更为突出全面, 从而导致正交信号处理后, SGCSD和SG卷积平滑的先后顺序对模型影响较小。 SGCSD具有提高光谱分辨率和灵敏度、 分辨重叠峰较好的优点, 并结合正交信号校正的强大去噪效果, 就可以避免导数处理引发的噪声放大以及信噪比降低。 在有效提高蓝莓果渣花色苷回归模型的预处理组合方法中, MSC占据75%的比例, 说明MSC可以有效消除三种蓝莓果渣中由于蓝莓籽的存在而导致果渣颗粒大小不一、 分布不均匀而产生的散射影响[11]。
为了建立预测能力高、 稳健性好的蓝莓果渣PLS回归模型, 与全谱(未筛选波长)PLS模型对比, 比较分析了SPA和CARS算法对三种蓝莓果渣波长变量筛选的简化模型效果。 分别对北陆、 蓝美1号、 灿烂三种蓝莓果渣经SG卷积平滑、 MSC、 SGCSD、 正交信号校正预处理后的光谱数据进行SPA和CARS算法波长变量的筛选, 分别建立其PLS回归模型, 各模型指标结果如表4所示, 表中NW(number of wavelengths)为筛选出的波长变量个数。
表3 预处理方法组合的模型指标结果
表4 单因素+SPA/CARS的模型指标结果
分析表4可知, SPA-PLS和CARS-PLS的NW均减小且RPD均大于2.5, 即SPA与CARS算法均可实现波长筛选简化模型与实现模型预测。 为了比较SPA与CARS算法对蓝莓果渣花色苷近红外光谱预处理组合方法的优异性, 对双因素、 三因素、 四因素的组合预处理后的光谱数据, 依次进行未筛选波长变量、 SPA筛选波长变量、 CARS算法筛选波长变量三种方法的比较。
图2 预处理方法+波长筛选的比较
表5为SPA和CARS算法结合预处理方法的单因素与多因素组合中, 可以有效提高蓝莓果渣花色苷含量PLS模型指标的方法组合, 虽然正交信号校正会导致模型过拟合的趋势, 但在蓝莓果渣花色苷PLS模型中, 正交信号校正仍然可以有效地改善模型[14]。
表5 预处理方法+波长筛选算法汇总
通过近红外光谱漫反射技术, 采集北陆、 蓝美1号、 灿烂三种的蓝莓果渣光谱, 应用偏最小二乘法, 建立蓝莓果渣花色苷的回归模型, 比较9种预处理方法, 选择其中4种预处理方法, 进行组合比较, 比较全谱、 SPA、 CARS算法筛选波长变量对PLS回归模型的影响, 得到以下主要结论:
(2)SPA与CARS算法均可实现对三种不同品种的蓝莓果渣花色苷波长变量筛选, 但SPA对所有预处理方法的波长变量筛选后, 无法全部建立PLS模型, 而CARS算法对全部预处理方法筛选波长变量后, 均可建立相应的PLS模型。
(4)在蓝莓果渣花色苷回归模型中, 正交信号校正表现出强大的去噪效果, 相比于全光谱以及SPA, CARS算法的适用性更强、 波长变量筛选个数更少、 模型精度更高。 应用近红外光谱反射可以较好地实现对北陆、 蓝美1号、 灿烂三种蓝莓果渣花色苷含量的定量分析, 可为蓝莓果渣品质分级, 提供一种零污染、 快速、 低成本的检测方法。