杨 硕, 黄义文, 周大云, 黄龙雨, 吴玉珍,付守阳, 徐 青, 彭 军,3, 匡 猛,3
(中国农业科学院棉花研究所;棉花生物育种与综合利用全国重点实验室1,安阳 455000)
(郑州大学农学院2,郑州 450000)
(三亚中国农业科学院国家南繁研究院3,三亚 572024)
我国是世界第一产棉大国,长期以来棉花的利用价值主要集中于棉纤维,而棉纤维外的其他部分则利用尚不充分。棉籽是棉花生产过程中重要的副产物,主产品棉纤维分离后,每年能得到约750万t的棉籽[1]。棉籽处理后蛋白质质量分数30%~70%,且氨基酸组成良好,营养价值丰富,还具有防胀气、抗氧化和提高免疫力等功能[2]。可以作为极佳的饲用蛋白或食用蛋白资源,是潜在的植物蛋白来源[5]。目前我国蛋白质资源十分短缺,豆粕作为主要的饲料蛋白源,长期依赖国外进口,严重影响我国的粮食安全。棉籽中含有丰富的棉籽蛋白,是重要的非粮蛋白来源,提高非粮蛋白的利用率是保障我国粮食安全的重要途经[9]。因此开发利用好棉籽蛋白资源,可以有效缓解我国蛋白源短缺问题,保障国家粮食安全。
棉籽蛋白质的含量是评价棉籽营养品质的重要指标,明确不同材料间蛋白质含量对棉花的综合利用以及高蛋白品种选育具有重要意义,快速无损棉籽蛋白质含量检测方法在其中发挥到重要作用。目前棉籽蛋白质含量测定主要依赖于各种化学方法,例如凯氏定氮法[10]、双缩脲法[11]、Folin-酚试剂法[12]、紫外吸收法等[13],虽然化学方法具有检测灵敏度高等优点,但是依然存在着如检测时操作步骤复杂,效率低下;需依赖各种精密仪器,使用大量化学试剂,造成环境污染;检测时不可逆,破坏种子状态等缺点[14],已无法满足现代棉花综合利用产业及棉籽优质蛋白育种中快速无损检测的需求。
近红外光谱(NIRS)检测技术是一种集现代电子技术、光谱分析技术、计算机技术及化学计量技术于一体的现代光谱分析检测技术[15]。根据有机化合物中的含氢基团(C-H、N-H、O-H、S-H和P-H等)在近红外光区域内的振动吸收特性,可定性或定量地测定样品的化学成分,具有无损、快速、环保和低成本等特点[17,18]。近红外光谱检测技术在花生[19]、玉米[20]、大豆[21]、油菜[22]等经济作物蛋白质含量检测中已得到广泛应用。使用传统化学法对棉籽营养品质进行检测成本高、效率低且具有破坏性,用于检测的种子不能再用于繁殖,不利于育种研究需求。所以建立一种快速、精准且无损的棉籽蛋白质含量检测方法是开展棉籽营养品质改良及棉籽综合利用的关键。
虽然目前关于棉籽蛋白质含量的近红外检测技术已有报道[23,24],但是这些研究对象主要集中在光籽或种仁上,难以对毛籽样品进行快速检测,随着棉花综合利用产业的发展以及对棉籽优质营养品质育种的重视,亟需一种快速无损棉籽蛋白质含量检测的方法。研究利用凯氏定氮法对187份棉籽样品的蛋白质含量进行检测,分别采集了供试样品的毛籽、光籽和种仁3种不同棉籽形态的近红外光谱信息,结合改进的偏最小二乘法 (MPLS),通过不同散射处理和数学算法组合对光谱信息及化学值进行拟合,从而建立一种适应不同棉籽形态的快速、无损、高效的棉籽蛋白质检测技术,为棉籽综合利用以及高品质育种提供技术支撑。
研究所用材料为187份棉花品种,由来自黄河流域棉区、长江流域棉区、西北内陆棉区的棉种及国外品种构成,于2020年棉花生长季种植在中国农业科学院棉花研究所东场实验站(36°10′N, 114°38′E)。每个材料5 m行长种植,行距0.8 m,所有田间管理按当地大田生产管理进行。其中158份样品作为定标集用于近红外模型建立,29份样品作为验证集用于定标模型的外部验证。
待测棉籽样品在成熟后收取20铃发育正常棉铃。晾晒轧花后获得带有短毛绒的毛籽样品,毛籽样品经浓硫酸脱绒处理得到棉花光籽样品,对光籽样品进行手工剥壳后获得棉仁样品,样品使用前皆放置在45 ℃烘箱中烘干至恒重待用。
剥壳粉碎后得到的棉仁粉采用凯氏定氮法测定棉籽仁蛋白质含量,方法参照国家标准[25]。每个样品采取3次重复,相对误差控制在2%以内,采用平均值作为此样品蛋白质含量的化学测定值。凯氏定氮使用仪器为8400KjeltecTM凯氏定氮仪。
采用XDS型近红外快速成分分析仪采集样品的光谱信息。所有样品扫描前均放置于温度为25 ℃、相对湿度为60%的环境中进行水分平衡处理。扫描前将近红外扫描仪开机预热30 min,并需通过仪器自检,消除外部噪声干扰,减少实验误差。分别扫描毛籽、光籽和棉仁3种不同棉籽形态样品,每份样品重复扫描3次,扫描采用直径为35 mm,高10 mm的圆形样品杯。将棉籽样品装于圆形样品杯中,用力压实至于样品杯高度齐平。光谱扫描波长范围为400~2 500 nm,扫描频率32 scan/s,每2 nm数据点间隔采集样品的反射强度(R),取平均值并转化为log(1/R),得到原始光谱数据储存于计算机中。
利用WinISIⅢ软件对采集的光谱数据进行分析,对原始样品集合进行聚类分析计算,统计出与其他样品的扫描光谱在光谱数据上有着显著差别的样品,剔除掉异常数据样品。根据马氏距离以任意一个样品为中心,半径为0.8以内的样品定义为相似样品进行剔除,一定范围只保留一个样品,挑选得出的这些样品能够代表一定范围光谱之间的差异,保证样品的代表性。最终获得一组既具有相似性,又能够代表光谱间最大差异的定标样品集进行建模,以158份不同棉花品种作为建立模型的定标样品。采用无散射处理 (NONE)、标准正常化处理 (SNV)、去散射处理 (DET)、标准化联合去散射处理(SNV+DET)、标准化多元散射校正 (SMSC)、加权多元离散校正(WMSC)、反向多元离散校正(IMSC)7种光谱散射处理方法及16种数学处理方法对定标集样品进行数据处理。光谱数据经过不同处理后得到定标模型,通过WinISIⅢ软件给出的定标相关系数(RSQ)、交叉验证相关系数 (1-VR)、标准误差 (SEC) 及交叉检验标准误差(SECV) 来判别定标模型对其他未知样品的预测能力。定标模型建立后,用验证样品集的相关系数(R2)和预测标准误差(SEP)对定标模型的预测性能进行评价。
利用Microsoft Excel 2021数据分析工具对3种NIRS模型所用的定标集和验证集的棉籽蛋白质含量进行数据分析,SPSS16.0软件对验证集的化学真值和预测值进行统计分析。
所有供试材料利用凯氏定氮法测定棉籽蛋白质含量,其中定标集158份样品的棉籽蛋白质质量分数变异范围为35.54%~53.34%,平均值为43.65%,标准差为4.59%。验证集29份样品的棉籽蛋白质质量分数变异范围为34.55%~48.25%,平均值为41.97%,标准差为3.79%。建立模型的关键因素是建模所用的定标集化学值是否覆盖广泛,一个覆盖范围广的定标集能够提高检测模型的精度和稳定性[26]。本研究中定标集样品的棉籽蛋白质质量分数范围为35.54%~53.34%,覆盖广泛,能够较好满足模型构建的需求,基于此建立的近红外光谱模型更具有普适性。此外,本研究筛选到了9份棉籽蛋白质质量分数高于50%的材料(表1),可为棉花高蛋白品质育种和相关基因发掘提供种质资源。本实验的棉籽材料包含黄河流域、长江流域、西北内陆等三大棉区的品种资源,品种来源较为丰富,但棉籽蛋白质含量在平均值附近的材料较少,后续可以继续补充模型样品,提高适用性及稳定性。
表1 供试样品中棉籽蛋白质质量分数超过50%的样品信息
利用XDS Rapid ContentTM分析仪采集毛籽、光籽和棉仁的近红外光谱信息,获得了3种不同棉籽形态的原始光谱 (图1)。3种不同棉籽形态的原始光谱在不同波长下变化趋势一致,同一棉籽形态不同样品的光谱信息变化趋势也是一致的,且不完全重合,表明近红外光谱仪设备工作状态良好,扫描的光谱信息质量较高。进一步对3种棉籽模型的原始光谱进行一阶导数处理来消除外部影响,处理后光谱 (图2)减弱了基线偏移等影响,有效提高了光谱的精细度,更加明显地展现了样品所反映的光谱特征。
图1 3种棉籽形态的原始光谱图
图2 3种棉籽形态预处理后的光谱图
对光谱数据进行一些合适的处理可以消除外界因素的干扰,提高校正模型的预测性及稳定性,常用求导数学处理消除基线漂移、降低颗粒度变化的影响及提高光谱的分辨率[27]。在全光谱范围内,对原始光谱进行标准化联合去散射处理(SNV+DET),并获得不同数学处理下的定标模型(表2)。未进行导数处理(0,0,1,1)时,毛籽、光籽和棉仁定标模型的定标相关系数RSQ及交叉验证相关系数1-VR较小,且SEC和SECV误差值均较大。对3种近红外模型进一步利用16种数学处理,其中毛籽模型以(4,4,4,1)数学处理效果最好,最佳数学处理后的RSQ为0.955、SEC为0.957、SECV为1.388、1-VR为0.907;光籽模型以(4,6,6,1)数学处理模型效果最好,数学处理后RSQ为0.970、SEC为0.785、SECV为0.952、1-VR为0.957;棉仁模型以(1,4,4,1)数学处理模型效果最好,RSQ为0.989、SEC为0.475、SECV为0.589、1-VR为0.984。
表2 不同数学处理对3种棉籽形态校正模型的影响
对近红外光谱信息进行散射校正可以纠正化学值与近红外吸光度之间的非线性扭曲,消除光谱中的样品误差,提高模型质量[28]。在确定3种近红外模型最佳数学处理的基础上,对样品光谱进行7种散射处理(表3)。毛籽模型中,进行IMSC处理时定标模型效果较好,RSQ为0.957、SEC为0.946、SECV为1.370、1-VR为0.909;光籽模型中,进行WMSC处理时定标模型效果较好,RSQ为0.971、SEC为0.777、SECV为0.940、1-VR为0.958;棉仁模型中,进行SNV+DET处理时定标模型效果较好,RSQ为0.989、SEC为0.475、SECV为0.589、1-VR为0.984。
表3 不同散射处理对3种棉籽形态校正模型的影响
选取了建模样品集以外的29个样品对定标的蛋白质含量近红外检测模型进一步验证。外部验证结果如表4所示,毛籽、光籽及棉仁模型的外部验证相关系数R2分别为0.947、0.962和0.980,SEP分别为0.885、0.787和0.530,3种模型的定标相关系数均大于0.90,相关性较高,说明预测模型质量较好。3种不同棉籽形态的近红外检测模型均可以快速准确地测定棉籽中的蛋白质含量,其中棉仁模型预测相对更精准。
表4 3种棉籽形态下蛋白质含量测定模型的性能指标
将验证集样品通过凯氏定氮法测得的化学值与构建的近红外光谱模型所得的预测值进行比较,如图3所示。化学值与预测值的差值范围较小,各模型的预测效果较好。化 学值及预测值差异显著性t检验结果显示差异不显著,棉籽蛋白质含量测定的毛籽、光籽及棉仁3种近红外光谱模型验证集的化学值及预测值间均没有显著性差异,模型预测的准确度较高。
图3 验证集棉籽蛋白质含量的化学值及预测值
本研究通过对3种不同形态的棉籽进行近红外光谱的采集及数据处理,建立了毛籽、光籽及棉仁3种近红外棉籽蛋白质含量测定的定标模型,毛籽、光籽和棉仁蛋白质含量检测模型的定标决定系数分别为0.957、0.971和0.989,说明建立的棉籽蛋白质含量检测模型准确度高、实用性强,预测结果的准确性及可靠性与化学法相似,可以代替化学方法对棉籽中的蛋白质含量进行测定。近红外分析模型的结果准确性与样品、仪器及数据处理建模过程密切相关,样品状态对于模型的影响主要体现在样品的粒度、颜色、光滑度和所含杂质等,样品粒度的差异影响样品对近红外光的吸收和散射,进而导致光谱的变异[29]。样品粒度大时,光学表面粗糙,对反射光谱及传感系统造成影响,进而影响感受系统对样品的反应,使得灵敏度及准确度出现变化[30]。在本研究中构建的3种棉籽蛋白质含量近红外检测模型中,毛籽、光籽和棉仁定标模型的相关系数RSQ依次递增,由此可以表明蛋白质大部分在集中在棉仁中,棉籽所带的棉短绒及棉籽壳影响了样品对近红外光的散射和吸收。
在目前我国蛋白质资源短缺的情况下,棉籽蛋白质作为非粮蛋白的重要来源,具有广阔的市场前景和利用价值,快速无损环保的棉籽蛋白质含量检测方法在棉花综合利用产业和棉籽营养品质改良过程中将发挥重要作用。本研究通过采集毛籽、光籽和种仁3种不同棉籽形态的近红外光谱信息和测定样品中蛋白质含量的化学值,通过不同数学处理、散射处理以及改良的偏最小二乘法构建模型,并进行外部样品验证,3种模型的定标相关系数均大于0.90,表明本研究建立的棉籽蛋白质含量检测模型能够对未知样品进行精准预测。