付丹丹 王巧华 高升 马美湖
摘 要 利用可见/近红外光纤光谱采集罗曼粉壳和海蓝褐壳两个品种的鸡蛋在349-1000 nm的透射光谱, 对270枚鸡蛋的天然卵白蛋白的S-型空间构象异构体(S-卵白蛋白, S-ovalbumin, S-ova)含量进行了定量分析, 实现了不同品种鸡蛋中S-卵白蛋白含量的快速无损检测。通过比较贮期不同品种鸡蛋的平均光谱发现, 两个品种鸡蛋的光谱吸收峰位置相同, 仅可见光范围内的光谱吸收能量值有所不同。通过标准正态变量校正(SNV)对原始光谱进行预处理, 并利用无信息变量消除算法(UVE)从500~950 nm的全光谱中提取了67个特征波长, 建立的偏最小二乘(PLS)回归模型可以很好地预测不同品种的S-卵白蛋白含量。为了更进一步消除特征波长之间的多重共线性, 利用逐步回归(Stepwise regression)算法对特征波长进行二次筛选, 最终筛选出了16个特征波长, 建立多元回归模型, 其校正集的决定系数(R2)为0.9511, 均方根误差(RMSE)为0.0478, 预测集的R2为0.8380, RMSE为0.1116, 预测集相对分析误差(RPD)为2.2620。 此模型对预测集中50个罗曼粉壳鸡蛋和40个海蓝褐壳鸡蛋样本的R2分别为0.8119和0.9116, RMSE分别为0.1298和0.0834, 模型适用性更佳。本研究结果表明, 可见/近红外光谱能够对不同品种的S-卵白蛋白含量进行无损检测, 建立的通用预测模型为开发便携式蛋白含量无损检测装置奠定了基础。
关键词 可见/近红外光谱; 鸡蛋; S-卵白蛋白; 相关性; 通用模型
1 引 言
鸡蛋作为人们日常生活中重要食物之一, 其品质的评价和预测一直是食品加工等领域的研究热点。卵白蛋白(Ovalbumin, Ova)是蛋清蛋白的主要成分, 占蛋清总蛋白的54%~63%, 卵白蛋白在贮存期间不可逆地转化为一种热稳定形式S-型空间构象异构体S-卵白蛋白(S-ovalbumin, S-ova), 贮存期间蛋清中S-卵白蛋白相对全部卵白蛋白的质量分数由新产蛋的5%上升至冷藏6个月后的81%[1], 且其形成不依赖于鸡龄、营养状况和蛋重等因素, 显示出高的重复性与低的自然变异性, 转化速率也仅受pH值和温度的影响[2]。研究发现, S-卵白蛋白与贮存时间及鸡蛋鲜度评价常用指标之间具有高度相关性[3]。因此与鸡蛋品质密切相关的S-卵白蛋白被考虑作为评价商业鸡蛋鲜度的参考指标。
目前, 检测鸡蛋S-卵白蛋白含量主要有3种方法。一是将蛋清稀释后水浴加热, 测定吸光度计算其含量[2]; 二是采用电化学传感器, 如分子印迹技术对蛋清中S-卵白蛋白进行特定的分子识别, 继而测定其含量[4]。这两种方法均需把蛋打破, 经检测才能准确判断, 因此检测周期长, 程序复杂, 且是破坏性检测, 不能满足快速检测的要求。第三种方法利用光谱无损检测技术, 如本研究组前期利采用高光谱成像技术, 利用已建立的模型对S-卵白蛋白含量进行检测[5], 但该研究只对海蓝褐壳鸡蛋进行了研究, 且预测模型的适用性还有待进一步的考察。
可见/近红外光谱技术是一种成本低、速度快的无损检测技术[6~8], 已广泛应用于鸡蛋内部品质的在线检测[9]和静态检测中。段宇飞等[10]建立了可见/近红外光谱数据与鸡蛋新鲜度之间的非线性回归模型; Dong等[11]利用可见/近红外光谱在鸡蛋新鲜度预测的过程中比较了蛋白和整蛋的酸碱度; Syduzzaman等[12]使用600~900 nm波长范围的光谱建立了蛋黄含量预测模型; Dong等[13]指出, 可见/近红外透射光谱是检测非受精蛋的有效手段。目前对鸡蛋蛋白含量的无损检测主要是通过氮元素的含量来测定整个蛋清中蛋白质的含量, 吴建虎等[14]基于可见/近红外反射光谱技术, 利用多元散射校正预处理方法和多元回归模型对新鲜蛋中的蛋白质含量进行了较好的预测。李海峰等[15]指出, 基于400~1000 nm波长范围的光谱能够对新鲜鸡蛋的蛋白质含量进行较好的预测。但是目前还没有利用可见/近红外光谱对贮期的蛋白含量, 特别是对某一种特定的主要蛋白含量进行无损检测的报道。 此外, 对蛋白含量的无损检测都只是针对某一个品种, 其建立的模型适用性有限。
本研究采用可见/近红外光谱分析技术, 应用无信息变量消除算法(Uninformative variables elimination, UVE)及逐步回归(Stepwise regression)算法筛选出了S-卵白蛋白含量的特征波长, 并应用偏最小二乘回归分析(Partial least squares, PLS)和多元线性回归分析方法, 构建同时适用于两个品种鸡蛋S-卵白蛋白含量的无损预测模型。
2 实验与方法
2.1 仪器与设备
USB2000+可见/近红外光纤光谱仪(美国Ocean Optics公司); 电子天平、JA2002数显游标卡尺(上海浦春计量仪器有限公司); DU700紫外/可见光分光光度计(美国贝克曼库尔特有限公司)。图1为测定鸡蛋的可见/近红外光谱检测系统示意图。
2.2 实验样本和实验方法
实验样品为某养鸡场的当日产的两个品种新鲜鸡蛋, 共270枚, 所有鸡蛋均无裂纹且干净。其中海蓝褐壳鸡蛋和罗曼粉鸡蛋各135枚, 均贮藏在恒温恒湿培养箱中, 贮藏条件为22℃, 相对湿度为65%。每隔5天随机取样, 即贮藏第1、6、11、16、21、26、31、36和41天时, 随机挑选出30枚鸡蛋, 其中海蓝褐壳鸡蛋和罗曼粉壳鸡蛋各15枚, 依次编号。
2.2.1 可见/近红外光谱的采集 实验采集每一枚鸡蛋的可见/近红外光谱。采集参数的设定分别为:为了避免采集到的光谱数据不失真, 积分时间设置为60 ms; 为了在保证在尽量短的时间内获得更可靠的光譜数据, 平均扫描次数为3; 为了在避免较大的光谱噪音的同时不丢失光谱数据的细节特征, 平滑宽度设置为5; 光谱波段范围为原始范围, 即349~1000 nm, 光谱间隔为1 nm。每次实验时, 将随机挑选出来的鸡蛋逐个放置, 以鸡蛋的长轴与地面平行的方式每次放置一枚, 以保证在采集透射光谱的时候无漏光。
2.2.2 鸡蛋新鲜度指标的测定 采集完光谱数据后, 用电子天平对每个鸡蛋称重后, 将鸡蛋打破, 放置在玻璃平板上, 然后用游标卡尺测量3个不同位置的浓蛋白(新鲜鸡蛋打破以后, 将其平摊放置, 有明显的厚度那部分蛋清)高度、蛋黄直径和蛋黄高度, 分别取其平均值作为最终每枚鸡蛋浓蛋白高度值、蛋黄直径值和蛋黄高度值。哈夫值(Haugh unit, HU)[16]是美国农业部蛋品标准规定的检验和表示鸡蛋新鲜度的指标, 利用公式(1)求出。 蛋黄指数(Yolk index, YI)是蛋黄高度与蛋黄直径的比值, 也可用于表示鸡蛋的新鲜度, 可利用公式(2)求出。
HU=100lg(h+7.57-1.7m0.37)(1)
其中, m为蛋重(g), h为浓蛋白高度(mm)。
YI=H/D(2)
其中,H为蛋黄高度(mm); D为蛋黄直径(mm)。
2.2.3 S-卵白蛋白含量的测定 将采集完光谱数据的鸡蛋打破, 参照文献[2]中的方法, 分别测定两个品种鸡蛋的S-卵白蛋白的含量。 首先分离蛋清的蛋黄, 每枚鸡蛋分别取(5 ± 0.05)g蛋清液, 各加入25 mL磷酸盐缓冲液(6.85 g NaH2PO4·2H2O与21.55 g Na2HPO4溶解于去离子水中, 定容至500 mL。每次实验时稀释20倍, 调至pH 7.5); 经磁力搅拌后, 每个样本各取两份5 mL混合液, 其中一份于75℃水浴加热30 min后冷却, 另一份未加热的样本作为对照。分别向未加热及加热的两份混合溶液中加入沉淀剂并离心, 上清液加入双缩脲溶液混合液, 静置。测定每个样品在540 nm处的吸光度(OD), 以2 mL去离子水与4 mL双缩脲溶液混合液做对照。按照式(3)计算S-卵白蛋白含量(S-OC)[2]:
S-OC(%)=ODTOD0×100% (3)
其中, OD0为未加热时样品的吸光度, ODT为加热后样品的吸光度。
2.3 样本划分与光谱预处理
两个品种鸡蛋样本均为135个, 将其合并后进行建模分析, 共270个样本, 按照2∶1的原则利用基于联合X-Y距离的样本集划分(Sample set partitioning based on joint X-Y distance, SPXY)方法将所有的样本划分为校正集和预测集。最终校正集样本有180个, 其中,罗曼粉壳鸡蛋85个, 海兰褐壳鸡蛋95个; 预测集样本有90个, 其中, 罗曼粉壳鸡蛋50个, 海兰褐壳鸡蛋40个。各样本集的S-卵白蛋白含量描述性统计分析如表1所示。
由于光谱数据会受到仪器噪声及随机误差等的影响, 进而影响建模的准确性和精度, 因此需要采取合适的光谱预处理方法提高预测模型的预测能力和稳健性。
2.4 特征波长的筛选
UVE是基于PLS回归系数B的算法, 用于消除不提供信息的变量[17,18]。依据PLS的原理, 在利用光谱矩阵X和S-卵白蛋白含量矩阵进行建模时, 两者之间存在关系Y=XB+e, 其中B是系数向量, e是误差向量, UVE是把相同与自变量数的随机变量矩阵加入到光谱矩阵中, 继而通过交叉验证建立PLS模型, 得到相应的系数矩阵、分析系数向量b的平均值和标准偏差的商t的可靠性。
t(i) =mean(bi)/sd(bi)(4)
式中, mean(b)是系数向量b的平均值, sd(b)是系数向量b的标准偏差, i是光谱矩阵中的第i列向量。依据t的绝对值大小确定是否把第i列变量用到随后的PLS模型中。
逐步回归法筛选特征波长是根据对回归贡献最大的解释变量相应的回归方程逐步地引入其它的解释变量[19], 经过逐步回归筛选出来的特征波长重要且没有严重的多重共线性。
2.5 模型的建立与评价
PLS在普通的多元回归模型基础上进行了优化[20], PLS在建模时, 先分解自变量和因变量, 同时从两类变量中提取成分, 然后按照相关性大小将提取的成分排列, 最后选择能够更好解释整个系统的新主成分参与模型的建立[21]。由于在利用全波段建模时, 自变量数过多, 故选择建立PLS模型, 比较原始光谱和各种光谱预处理方法的建模效果。
对于建立的模型, 通过比较决定系数(Coefficient of determination, R2)及均方根误差(Root mean square error, RMSE)评价模型的预测性能, 其中, Rc2为校正集决定系数(Coefficient of determination of calibration set, Rc2), RMSEC为校正集均方根误差(Root mean square error of calibraiton set, RMSEC), Rp2为预测集决定系数(Coefficient of determination of prediction set, Rp2), RMSEP为校正集均方根误差(Root mean square error of prediction set, RMSEP), 同时,使用相对分析误差(Residual predictive deviation, RPD)表征模型的预测能力[22]。各评价指标的相关计算公式如下:
R2=ni=1(yi-)2/ni=1(yi-)2(5)
RMSEC(RMSEP)=1nni=1(yi-)2(6)
RPD=SDRMSEP(7)
其中, yi和i分別为校正集或预测集中的第i个样本的S-卵白蛋白含量实测值或预测值, 为对应校正集或预测集中总样本的S-卵白蛋白含量平均值, SD为预测集样本的S-卵白蛋白含量的标准差, n为校正集或预测集样本总数。
相關系数越大, 均方根误差越小, 模型的稳定性越高, 拟合程度越高, 模型预测性能越好。当RPD<1.5时, 模型无法对样本进行预测, 1.5
3 结果与讨论
3.1 不同品种鸡蛋典型可见/近红外光谱比较分析
分别对海蓝褐壳鸡蛋和罗曼粉壳鸡蛋的典型可见/近红外光谱进行对比分析, 对各品种的135个光谱数据取平均值, 将此平均光谱作为该品种鸡蛋的典型光谱。如图2所示, 通过对比可知, 两种鸡蛋在近红外区域(780~950 nm)的光谱图差异不明显, 这可能是因为近红外区域的光谱主要反映鸡蛋内部化学结构信息,
研究表明, 蛋壳颜色及厚度对光谱吸收峰的能量值大小有影响[23], 蛋壳越厚, 强度越大, 其整体结构致密, 乳突间隙小; 蛋壳颜色越深, 光吸收能力越强。粉壳鸡蛋的壳较薄, 且壳色较浅, 因此相对褐壳鸡蛋更易透光, 故粉壳鸡蛋在可见光区域的典型光谱透射率明显高于褐壳鸡蛋。
因此, 尽管两个品种的鸡蛋的典型光谱存在差异性, 但是整体差异性较小, 且不同品种的S-卵白蛋白含量值显著强相关, 因此可以直接将两个品种合并, 建立通用的S-卵白蛋白含量无损检测模型。
3.2 光谱预处理
分别利用Savitzky-Golay平滑(Savitzky-Golay smoothing, SG, 平滑窗口宽度为5)、一阶微分(First ferivative, FD)、多元散射校正(Multivariate scattering correction, MSC)、标准正态变量校正(Standard normal variate, SNV)对原始光谱进行处理, 并分别建立PLS预测模型。由表3可知, 经过SNV预处理建立的PLS模型预测效果更好, 校正集和预测集的R2最高, 校正集RMSEP最低, 且RPD为1.9336。因此, 后续的数据处理均是基于经SNV预处理后的全光谱进行的。
3.3 特征波段筛选
将经过SNV处理过的全光谱作为PLS模型的输入, 利用UVE算法进行波段筛选, 当PLS模型中包含的主成分变量设置为30时, 如图3所示, 作为451个变量的稳定性t_value的分布图, 右侧为UVE随机产生的451个变量的稳定性t_value的分布图, 其中两条水平的虚线是变量筛选的阈值上下限, 虚线以外的变量保留, 虚线以内的变量则全部消除。经过UVE变量筛选后得到67个波长, 这67个波长在光谱中的分布如图4所示。
3.4 模型的建立与分析
基于UVE筛选出的67个波段建立PLS模型, 如表4所示, 校正集和预测集的R2分别为0.9591、0.8124, 预测集RPD为2.0911, 表明此模型能够对S-卵白蛋白含量进行很好的预测。但是, 在建立PLS模型时, 根据PLS算法的原理, 最终只选取了15个主成分进行回归计算。
如图5所示, 不论是否经过交叉验证, 根据RMSE的变化趋势, 都可以看出经UVE筛选出来的67个波段依然存在多重共线性的问题。这主要是由于在利用UVE筛选波段时, 有用波段信息和无用波段信息的判断标准是基于PLS的回归系数矩阵B设置的, 而回归系数矩阵B直接受到PLS回归中的主成分数影响。
根据UVE的算法原理, PLS回归中的主成分个数是随机设定的, 本研究筛选出的67个波段是在PLS回归中主成分数为30的前提下, 当RMSECV最小且趋于稳定的情况下得出的, 因此无法完全保证筛选出的波段之间不存在共线性的关系。
3.5 二次波段筛选与建模
有研究表明, 二次波段筛选能够进一步的简化模型结构, 提高模型的预测性能[24]。为了进一步消除波段间的多重共线性, 使用逐步回归对UVE筛选出的特征波段进行二次筛选。将经过UVE筛选出的67个波段作为多元回归模型的输入, 逐个引入到模型中。由图6可见, 当引入16个变量到模型中后, RMSE达到最小并趋于稳定, 因此利用逐步回归方法最终筛选出来的与S-卵白蛋白含量紧密相关的特征波长为16个。
筛选出的16个波长如表5所示。由表5可知, 有近一半的特征波段在可见光范围内, 由于S-卵白蛋白含量与哈夫值高度相关, 而哈夫值在可见光范围内的特征波长主要集中在640~730 nm范围内[24], 且两个品种的主要光谱差异表现在可见光区域, 因此, 可见光范围内的波段可能与鸡蛋的新鲜程度信息及壳色和壳厚有关。另一半的特征波段在近红外范围内, 分布较为分散, 可能主要与蛋白质的化学结构, 如CH键、OH键等化学键信息相关。
利用二次筛选出的16个特征波段建立多元回归模型(公式(6)), 模型的预测性能如表4所示, 校正集Rc2为0.9511, RMSEC为0.0478, Rp2为0.8380, RMSEP为0.1116。与UVE筛选出的波段建立的偏最小二乘回归模型相比, 此模型的Rc2相近, Rp2有所增加, 且RPD的值增加到了2.2620, 大于2.0, 说明此模型可以对S-卵白蛋白含量进行极好的预测。故基于二次筛选的特征波段建立的回归模型, 预测性能更好, 模型结构更简单, 建模变量更少, 更适合S-卵白蛋白含量便携式无损快速检测软件的开发于应用。
Y=0.3597band501-0.3942band517-0.8850band667+0.5121band669+1.2364band700-
1.7793band723+1.5312band763-0.7272band782-0.9101band795+1.2249band812-
李海峰, 房萌萌. 食品工業科技,2017, 38(20): 286-289, 293
16 Suktanarak S, Teerachaichayut S. J. Food Engineer., 2017, 215: 97-103.
17 WANG Zhuan-Wei, CHI Xi, GUO Wen-Chuan, ZHAO Chun-Jiang. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(05): 355-361
王转卫, 迟 茜, 郭文川, 赵春江. 农业机械学报, 2018, 49(05): 355-361
18 LI Qian-Qian, TIAN Kuang-Da, LI Zu-Hong. Chinese J. Anal. Chem., 2013, 41(6): 917-921
李倩倩, 田旷达, 李祖红. 分析化学, 2013, 41(6): 917-921
19 TU Yu-Long, ZOU Bin, JIANG Xiao-Lu, TAO Chao, TANG Yu-Qi, FENG Wei-Wei. Spectroscopy and Spectral Analysis, 2018, 38(2): 575-581
涂宇龙, 邹 滨, 姜晓璐, 陶 超, 汤玉奇, 冯徽徽. 光谱学与光谱分析, 2018, 38(2): 575-581
20 Feng C H, Makino Y, Yoshimura M, Francisco J. Rodríguez P. Food Chem., 2018, 264: 419-426
21 XIE Yue, ZHOU Cheng, TU Cong, ZHANG Zu-Liang, WANG Jian-Fei. Chinese J. Anal. Chem., 2017, 45(3): 363-368
谢 越, 周 成, 涂 从, 张祖亮, 汪建飞. 分析化学, 2017, 45(3): 363-368
22 Qi H J, Tarin P K, Arnon K, Jin X, Li S W. Soil Tillage Res., 2018, 175: 267-275
23 XIONG Huan, XU Hui-Rong, ZHOU Wan-Huai. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(Supp.1): 264-269
熊 欢, 徐惠荣, 周万怀. 农业工程学报, 2013, 29(Supp.1): 264-269
24 FU Dan-Dan, WANG Qiao-Hua. Food Science, 2016, 37(22): 173-179
付丹丹, 王巧华. 食品科学, 2016,37(22): 173-179
Analysis of S-Ovalbumin Content of Different Varieties
of Eggs during Storage and Its Nondestructive
Testing Model by Visible-Near Infrared Spectroscopy
FU Dan-Dan1, WANG Qiao-Hua*1,2,3, GAO Sheng1, MA Mei-Hu2,4
1(College of Engineering, Huazhong Agricultural University, Wuhan 430070, China)
2(National Research and Development Center for Egg Processing, Huazhong Agricultural University, Wuhan 430070, China)
3(Ministry of Agriculture Key Laboratory of Agricultural Equipment in the Middle and
Lower Reaches of the Yangtze River, Wuhan 430070, China)
4(College of Food Science and Technology, Huazhong Agricultural University, Wuhan 430070, China)
Abstract The visible-near-infrared (Vis-NIR) transmission spectroscopy technique was used to analyze the content of S-ovalbumin (S-ova), which had high correlation with egg freshness, and to establish a nondestructive prediction model. The visible/near-infrared fiber spectroscopy were used to collect the transmission spectrum of two varieties of eggs at 349-1000 nm, and the S-ovalbumin content of 270 eggs was measured by wet chemistry method. By comparing the average spectra of eggs of different varieties during storage, it was found that the spectral absorption peaks of different varieties of eggs had the same position, and only the spectral energy values in the visible range differed. The original spectrum was preprocessed by standard normal variate (SNV), and 67 characteristic wavelengths were extracted from the full spectrum of 500-950 nm using uninformative variables elimination (UVE). It was concluded that partial least squares (PLS) regression model based on 67 characteristic wavelengths could predict the S-ovalbumin content. To further eliminate the multi-collinearity between the characteristic wavelengths, the stepwise regression algorithm was used to perform secondary screening on the characteristic wavelengths, and finally 16 characteristic wavelengths were selected. By using the 16 characteristic wavelengths to establish a multivariate regression model, the coefficient of determination (R2) of the training set was 0.9511, the root mean square error (RMSE) was 0.0478, and the R2 of the prediction set was 0.8380. Besides, the RMSE was 0.1116, and the residual predictive deviation (RPD) was 2.2620. The general predictive model was used to predict the S-ovalbumin content of 50 eggs with Roman pink shell and 40 eggs with sea blue brown shell in the prediction set. The R2 of the predicted and measured values were 0.8119 and 0.9116, respectively, and the RMSEs were 0.1298 and 0.0834, respectively. Therefore, the general model could perform nondestructive testing on the S-ovalbumin content of these two different varieties of eggs better, and the model was more applicable. The results showed that the visible/near-infrared spectroscopy could accurately detect the S-ovalbumin content of eggs in different varieties, and the established general prediction model laid a foundation for the development of portable non-destructive testing device for protein content.
Keywords Visible-near infrared spectroscopy; Egg; S-Ovalbumin; Correlation; General model
(Received 11 June 2019; accepted 5 December 2019)
This work was supported by the National Natural Science Foundation of China (No.31871863), the National Science and Technology Major Project of the Ministry of Science and Technology of China during the 12th Five-year Plan Period (No.2015BAD19B05) and the Special Scientific Research Fund of Agricultural Public Welfare Profession Project of China (No.201303084).