谢欢 陈争光
摘 要 利用近红外光谱分析方法预测了玉米秸秆纤维素的含量。针对近红外光谱的高维高相关性的特点,探讨在对玉米秸秆纤维素建立偏最小二乘(PLS)预测模型时的特征波长筛选问题。首先探讨了联合区间偏最小二乘法(SIPLS)和后向区间偏最小二乘法(BIPLS)的区间划分数对算法效果的影响。在SIPLS和BIPLS的基础上,利用遗传模拟退火算法(GSAA)进行二次特征波长筛选,进一步提高模型的预测精度和建模效率。结果表明:相对于PLS方法,3种算法单独使用均能够提高所建模型的预测精度,但是SIPLS、BIPLS两种算法的效果在很大程度上受区间划分数的影响。BIPLS模型的预测集均方根误差(RMSEP)虽然最小,但选择的变量数多达485个,影响模型的建模效率。在SIPLS和BIPLS的基础上,利用GSAA进行二次特征波长筛选,相较于BIPLS,BIPLS-GSAA模型的RMSEP虽略增大,但其输入变量减小到134个,而建模的主成分数也由11降为10个。相较于SIPLS,SIPLS-GSAA模型的输入变量仅为34个,预测精度得到了提升,实验结果表明,SIPLS-GSAA模型的预测效果最好。基于SIPLS和BIPLS上的GSAA对光谱数据进行二次筛选不仅能简化模型的输入,而且能有效提升模型的预测能力。
关键词 近红外光谱; 玉米秸秆; 纤维素; 联合区间偏最小二乘法; 遗传模拟退火算法
1 引 言
玉米作為我国粮食生产的主要农作物之一,其种植面积和产量均已位列我国第一。玉米高产的同时,也产生了巨大的玉米秸秆资源,合理利用玉米秸秆资源对我国农业可持续发展具有十分重要的意义。目前,秸秆的综合利用主要分为肥料化、饲料化、基料化、燃料化和原料化五大类[1],玉米秸秆的木质纤维素在饲料行业、造纸工业以及生物质能源开发利用等方面具有十分重要的意义。纤维素是玉米秸秆的主要成分,因此对玉米秸秆纤维素含量的准确预测对玉米秸秆的综合利用至关重要。目前,纤维素测量的主流方法依然是化学方法,主要包括范式(Van Soest)法[2]、王玉万法[3]和高效液相色谱法[4],这些传统的化学方法测量过程复杂繁琐,测量周期长且人力成本较高。因此,为了提高玉米秸秆的综合利用效率,需寻找一种操作简单、高效无损且能准确预测玉米秸秆纤维素的方法。
近红外光谱分析方法简单、快速且准确度较高[5],已广泛应用在石油[6]、医疗[7]、食品[8]和木材[9]等各个方面。纤维素是一种由葡萄糖构成的大分子多糖,具有大量的C-H、O-H等含氢化学键,根据近红外光谱分析技术的原理,可利用近红外光谱分析技术对农作物秸秆纤维素进行预测。上世纪八十年代,研究者开始将近红外光谱分析技术应用于作物秸秆主要成分的研究,其重点在于秸秆饲料化的研究,主要对蛋白质和干物质等研究[10~12],随着对农作物秸秆成分研究的深入,许多研究者开始将研究方向转向工业化、能源化等方面,主要对秸秆中的葡聚糖、木聚糖和木质素等进行研究[13~15]。目前的研究对象包括桉树等[16,17],已经建立了线性偏最小二乘回归法(Partial least square regression,PLSR)、非线性的支持向量机和人工神经网络模型; 波数选择方法多采用人工选择方法[17,18],也有采用特征波长选择算法(连续投影算法和回归系数法等[19,20])的文献报道。人工选择方法要求对化学键和近红外光谱吸收区的关系足够了解,而专门针对玉米秸秆纤维素含量检测方面主要是对全谱预处理后直接建立模型[14]。目前,利用近红外光谱分析技术对玉米秸秆的研究主要集中在农业方面,建立的玉米秸秆纤维素模型是预处理后直接建模[21~23]。农作物秸秆的能源化研究已经成为当前世界的发展热点,农作物秸秆中的纤维素不仅是生物质能源生产的关键原料,也是许多工业生产不可或缺的原料,实现纤维素含量快速检测对工业生产和生物质能源开发均具有重要意义。因此,建立预测效果优良、检测速度快的玉米秸秆纤维素预测模型十分必要。
本研究以玉米秸秆为研究对象,利用近红外光谱分析技术和PLSR建立玉米秸秆的纤维素含量预测模型,为了提高模型精度和效率,结合联合区间偏最小二乘(Synergy interval partial least square,SIPLS)、反向区间偏最小二乘(Backward interval partial least square,BIPLS)和遗传模拟退火算法(Genetic simulated annealing algorithm,GSAA)3种波长选择算法的优势挑选特征信息,降低数据维度,最终建立简单优化、预测性能良好的玉米秸秆纤维素模型。
2 实验部分
2.1 仪器设备
使用TANGO近红外光谱仪(德国Bruker公司)进行红外光谱数据获取,仪器分辨率为8 cm1,波数范围11542~3940 cm1,仪器测样台配备内径4.5 cm、高5 cm的样品杯。数据分析采用CAMO公司的Unscrambler X10.3和MathWorks公司的Matlab2016a。
2.2 样品来源及光谱获取
实验所需的玉米秸秆样本来自2017年东北农业大学试验基地,干燥后,取玉米秸秆不同部位粉碎,得到189个玉米秸秆样本。每个样本分为两部分,一部分利用范式法[24]测量玉米秸秆样本纤维素的化学值; 另一部分用于光谱数据采集。将每个样本装至仪器测样台上的样品杯中,保证样本杯中的样本厚度约1.5 cm,将样品杯放置于仪器的测样台上采集近红外光谱,采集3次,最终光谱取3次采集的平均光谱。
2.3 异常样本的剔除与样本集划分
利用蒙特卡洛法[25](MCCV)从获得的189个玉米秸秆的近红外光谱数据中剔除6个异常值,最终获得183个实验样本的近红外光谱,再以2∶1的比例利用SPXY算法[26]划分校正集和预测集,样本校正集和预测集的纤维素含量分布如表1所示。
2.4 SIPLS和BIPLS算法
在间隔偏最小二乘法[28](Interval partial least square,IPLS)的基础上,Norgaard等[27]在2000年和2004年分别提出SIPLS和BIPLS波长选择算法,两种算法应用广泛。IPLS首先将整个光谱等分成k个区间,然后分别对每个区间进行偏最小二乘回归,得到k个回归模型。采用交叉验证的方法分别计算k个模型的均方根误差(Root mean square error of cross validation,RMSECV),比较各个模型的RMSECV值,RMSECV最小的区间对应的回归模型为最优模型。
BIPLS和SIPLS均是在IPLS划分k个区间的基础上对子区间进行不同操作[29]。BIPLS首先剔除k个区间中相关性最差的区间,对剩下的k-1个区间建立PLS模型。然后再次剔除剩下的k-1个区间中相关性最差的区间,对剩下的k-2个区间建立PLS模型,以此类推,直到只剩下一个区间为止。以每次PLS模型的RMSECV值为评价指标,其中RMSECV最小值对应的区间组合即为最优区间。
SIPLS在划分的k个区间中,随机选择j(2≤j≤k)个区间组成联合区间建立PLS模型,共建立Cjk个PLS模型,最小RMSECV值对应的j个区间的组合即为最优区间。
2.5 遗传模拟退火算法(GSAA)
传统的遗传算法(Genetic algorithm,GA)易出现局部最优解,收敛速度慢等问题,而模拟退火算法(Simulated annealing algorithm,SAA)则具有跳出局部最优解的特性,两种算法可互相取长补短[30]。并且,GSAA应用于近红外光谱的特征波长选择较少[31],多应用于调度问题的优化等方面[32,33]。本研究将GSAA应用于近红外光谱的特征波长点的优化选择,控制参数为:种群最大规模为30,最大遗传代数设为100,选择操作的代沟设为0.9,退火初始温度系数T0设为100,降温系数为0.8。GSAA选择特征波长的过程主要分为三部分:首先初始化种群并计算初始种群目标函数值和初始温度,目标函数值为PLS回归模型的RMSECV值,初始温度为T0×(最大目标函数值-最小目标函数值); 其次对产生的种群进行选择(轮盘算法)、交叉(离散重组)、变异(离散变异)和复制(SA的Metropolis)操作; 最后算法迭代至满足终止条件(达到最大遗传代数100),选出最优的特征波长点。
SIPLS和BIPLS两种算法都是特征区间选择算法,虽然选择的特征区间建立的模型效果较好,但选择的波长点较多且都是区间内连续的波长,利用GSAA特征波长点选择算法不仅可降低选出的特征区间的维度,而且是离散波长选择,可去除连续区间内的冗余和无效波长点。因此,本研究利用GSAA对SIPLS和BIPLS选出的特征区间分别进行二次筛选,GSAA是一种随机搜索算法,因此设置GSAA循环100次,经过反复试验,挑选出重复选入次数大于54的波长点作为纤维素模型的输入。
3 结果与讨论
3.1 近红外光谱图谱分析
图1是183个玉米秸秆实验样本在11542~3940 cm1范围内的近红外光谱图。由图1可见,实验样本的吸收光谱图重叠严重,样本的近红外光谱在采集时受近红外光谱仪和其它的背景干扰,获得的光谱信息包含大量噪声[34],因此先对光谱数据进行卷积平滑处理(Savitzky-Golay,S-G)去除高频噪声。在建立近红外光谱模型时,浓度矩阵同样会影响光谱数据,因此,为了消除光谱数据与待测组分的无关信息,利用正交信号校正(Orthogonal signal correction,OSC)繼续对样本的光谱数据进行预处理。
样本的近红外光谱相似度极高,无法直接根据光谱图判定纤维素含量与个别波长点吸收度之间的关系,因此必须选择合适的区间建立数学模型以确定近红外光谱与纤维素含量间的关系。图1中11542~8000 cm1区间处于CH等键的第三倍频区,吸收弱,噪声干扰大; 8000~3940 cm1是CH等键的第二倍频到组合频区,有多个吸收峰,吸收强度大,具有明显的特征变化,能够反映出样品性质和组成间的关联。因此,在建立实际模型时,应根据不同基团在近红外光谱区的吸收特征将光谱数据分段建立校正模型,从而找到最佳的玉米秸秆纤维素建模区域。
3.2 BIPLS和SIPLS选择特征子区间
将预处理后的光谱数据划分为k个子区间(k=10、20、30、40、50、60、70)。对于每个k值,采用BIPLS选择的特征子区间如表2中序号1~7所示。由表2可知,当k=50时,对应的交互验证均方根误差RMSECV最小; k=60时,其RMSECV值比k=50时略增,因此推测在50~60之间应该有最优k值。为进一步对最优k值定位,在50~60之间进行逐次加1扩展,即k的取值范围为51~59,得到的BIPLS子区间优选结果如表2中序号8~16所示。由表2可知,最终最优k值定位为53,对应的RMSECV最小(0.8822),入选波长点为485个 。
基于SIPLS对光谱数据划分子区间,区间数k的取值分别为10、20、30、40、50、60、70,选择随机子区间组合数j(j = 3,4)[16],当k和j取不同的数值时,采用的SIPLS选择的特征子区间结果如表3所示。由表3可知,当k=50,j=4时,对应的交互验证均方根误差RMSECV最小(0.9537),入选波长点数为146个。
由表2可知,SIPLS在挑选特征波段的过程中,k值和j值的选择会在很大程度上影响SIPLS,由于Cjk个模型运算限制,j的取值不宜太多,通常不超过5,并且随着k值增加,计算的模型数大,导致SIPLS的计算量巨大。同样,BIPLS波长选择时也会受到k值的影响,有时甚至会使大量的无关信息被选入,预测模型效果不佳。因此,在使用BIPLS和SIPLS算法时,选择合适k值,对特征信息选择、建立预测性能良好的模型至关重要。
3.3 基于GSAA的二次波长选择及模型对比
由于BIPLS和SIPLS两种算法对于特征波长的选择是基于特征区间的,波段选择过程中仍然会有部分干扰信息被选入,且选择的波长点较多。其中,BIPLS选择了485个波长点,而SIPLS选择了146个波长点。因此,为了进一步去除冗余信息,降低数据维度,提高模型的预测能力,在上述两种特征波段选择算法基础上,利用GSAA对选出的数据进行二次筛选。筛选后的波长点分别降至154和34个,将选出的最终波长点对应的光谱数据作为PLS的输入变量,对玉米秸秆的纤维素含量进行PLS回归建模。表4列出了FULL-PLS、SIPLS、BIPLS、GSAA、SIPLS-GSAA和SIPLS-GSAA建立的6个模型的相关参数,5个波长选择方法对应的波长选择结果如图3所示。
由表4可知,相对于全谱模型FULL-PLS,5种特征波长选择算法都能有效地提高模型的预测能力,最终模型的评价主要从3个方面衡量:模型的性能参数、建立模型的波长点个数和建立模型的波长点分布特征。首先对两种波段选择算法SIPLS和BIPLS建立的模型进行评价: 模型的性能参数,BIPLS-PLS模型的RMSEP为0.8400,其预测性能参数好于SIPLS-PLS的模型; 建立模型的波长点个数,BIPLS-PLS模型有485个波长点,而SIPLS-PLS模型有146个波长点,显然SIPLS模型的波长点更少; 建立模型的波长点分布,由图2A和图2B可见,SIPLS选出的波长点大多数分布在谱带较强的第二倍频到组合频区域,而BIPLS的波长点分布较宽,在吸收峰较弱的第三倍频区也分布大量的波长点。将GSAA-PLS模型与SIPLS-PLS和BIPLS-PLS模型比较,GSAA-PLS虽然波长点个数只有130个,但是模型性能参数差,而且由图2C可知,波长点的分布最宽。将SIPLS-GSAA和BIPLS-GSAA比较,SIPLS-GSAA的模型性能较好,模型的波长数也较少且分布范围比较集中(图2D)。最后将SIPLS和BIPLS两种模型与SIPLS-GSAA和BIPLS-GSAA两种模型比较,模型性能参数较好的为BIPLS、BIPLS-PLS和SIPLS-PLS,这3种模型的性能参数相差不大,但是BIPLS模型的波长数最多,约为SIPLS-GSAA模型的14倍,且波长点分布也最宽。而BIPLS-GSAA虽然波长点个数降至154个,但其波长点个数约为SIPLS-GSAA的5倍,且其模型的性能参数要差于SIPLS-GSAA的模型,由图2E可知,其波长点的分布与BIPLS类似,分布较宽。综上可知,GSAA算法可有效提取特征波长,但单独使用时效果并不明显,将其用于SIPLS和BIPLS的二次波长选择时,却可有效地提升模型的性能。而BIPLS在单独使用时虽可得到较好的模型性能参数,但由于选择的区间较多导致波长点个数大幅度增加[35],影响模型的计算速度,且波长点的分布比较宽,不利于模型的实际应用。SIPLS可将选择区间定位到几个区域,大幅减少波长点个数,但由于其选择的连续区间内的冗余信息降低了模型的性能参数[36]。而GSAA在SIPLS的基础上在连续的区间内选择有效性高的离散波长点,建立的SIPLS-GSAA-PLS模型,其模型的性能参数较好,建模的数据波长点个数少,且建立模型的波长点大多集中在第二倍频到组合频内,因此,此模型不仅可降低模型的预测时间,而且也有利于后期的实际应用。
4 结 论
利用近红外光谱技术研究黑龙江地区的玉米秸秆纤维素含量,建立的玉米秸秆纤维素模型能快速高效地對黑龙江地区的玉米秸秆纤维素含量进行评价分析,有利于玉米秸秆中纤维素进一步的高效利用。将近红外光谱分析技术应用于玉米秸秆纤维素含量预测为未来提高农作物秸秆的综合利用效率提供了一种新思路。针对SIPLS和BIPLS两种方法的筛选结果受区间划分数k的影响,尚未找到一种高效率的方法能快速搜索出最优k值,并且本研究只探讨了3种特征波长筛选方法。因此,在后续的研究中,应重点研究特征波长算法对玉米秸秆纤维素模型的影响,以及SIPLS和BIPLS快速定位k值等。
References
1 WANG Jin-Wu,TANG Han,WANG Jin-Feng. Transactions of the Chinese Society for Agricultural Machinery,2017,48(5): 1-21
王金武,唐 汉,王金峰. 农业机械学报,2017,48(5): 1-21
2 Suharti P H,Rulianah S,Maryanty Y,Irawan B,Frederick C,Tsai M J. Adv. Sci. Lett.,2017,23(6): 5669-5671
3 LI Chao-Ying,ZHENG Lu,MO Shi-Yu. Journal of Zhejiang Agricultural Sciences,2019,60(03): 427-429
李朝英,郑 路,莫世宇. 浙江农业科学,2019,60(03): 427-429
4 Bauer S,Ibanez A B. Biotechnol. Bioeng.,2014,111(11): 2355-2357
5 NIE Min,LIU Meng,ZONG Shi-Chun,YANG Guang,PEI Chang-Xing. Spectrosc. Spect. Anal.,2017,37(2): 446-451
聂 敏,刘 蒙,宗时春,杨 光,裴昌幸. 光谱学与光谱分析,2017,37(2): 446-451
6 WANG Zhi-Hong,LIU Jie,WANG Jing-Ru,SUN Yu-Yang,YU Yong,LIN Jun. Journal of Jilin University(Engineering and Technology Edition),2013,43(4): 1017-1022
王智宏,劉 杰,王婧茹,孙玉洋,于 永,林 君. 吉林大学学报(工学版),2013,43(4): 1017-1022
7 Durantin G,Gagnon J F,Tremblay S,Dehais F. Behav. Brain Res.,2014,259(2): 16-23
8 Botelho B G,Reis N,Oliveira L,Sena M M. Food Chem.,2015,181: 31-37
9 Todorovic N,Popovic Z G,Milic G. Wood Sci. Technol.,2015,49(3): 527-549
10 Melchinger A E,Schmidt G A,Geiger H H. Plant Breeding,1986,97(1): 20-29
11 Dhillon B S,Gurrath P A,Paul C,Zimmer E,Gurrath P A,Klein D,Pollmer W G. Crop Sci.,1990,30(4): 931-936
12 Albanell E,Plaixats J,Ferret A. J. Sci. Food Agric.,1995,69(3): 269-273
13 Wolfrum E J,Sluiter A D. Cellulose,2009,16(4): 567-576
14 Mourtzinis S,Cantrell K B,Arriaga F J,Balkcom K S,Novak J M,Frederick J R,Karlen D L. Bioenergy Res.,2014,7(2): 551-558
15 Naidu V R,Deshpande R S,Syed M R,Deoghare P,Singh D,Wakte P S. AAPS Pharm. Sci. Tech,2017,18(6): 2045-2054
16 Downes G,Meder R,Harwood C. J. Near Infrared Spectrosc.,2010,18(6): 381-387
17 Baer I,Gurny R,Margot P. Forensic Sci. Int.,2007,167(2-3): 234-241
18 He W,Hu H. Bioresour. Technol.,2013,140: 299-305
19 Jin X,Chen X,Shi C,Li M,Guan Y,Yu C Y,Yamada T,Sacks E J,Peng J. Bioresour. Technol.,2017,241: 603-609
20 Li X,Sun C,Zhou B,He Y. Sci. Rep.,2015,5(1): 17210
21 HU Shi-Yang,XU You-Hai,NING Yan-Chun,YUE Jun,HUI Ji-Xing,WANG Ji-Yan. Science & Technology In Chemical Industry,2007,25(4): 34-39
胡世洋,徐友海,宁艳春,岳 军,惠继星,王继艳. 化工科技,2017,25(4): 34-39
22 LIU Hui-Ying,LI Guo-Li,XUE Dong-Hua,XU Hong-Zhang,YE Xiao-Jin. Chinese Agricultural Science Bulletin,2013,29(35): 182-186
刘会影,李国立,薛东桦,徐洪章,叶小金. 中国农学通报,2013,29(35): 182-186
23 WU Jun,BAI Qi-Ling,SU Sheng-Bao,CHEN Shao-Jiang,MENG Qing-Xiang,YAN Yan-Lu. Chinese J. Anal. Chem.,2005,33(10): 1421-1423
吴 军,白琪林,苏胜宝,陈绍江,孟庆翔,严衍禄. 分析化学,2005,33(10): 1421-1423
24 Van S P J,Robertsov J B,Lewisb A. J. Dairy Sci.,1991,74(10): 3583-3597
25 YIN Bao-Quan,SHI Yin-Xue,SUN Rui-Zhi. Journal of University of Science and Technology of China,2016,46(3): 208-214
尹宝全,史银雪,孙瑞志. 中国科学技术大学学报,2016,(3): 208-214
26 MAO Bo-Hui,SUN Hong,LIU Hao-Jie,ZHANG Jun-Yi,LI Ming-Zan,YANG Li-Wei. Transactions of the Chinese Society for Agricultural Machinery,2017,48(S1): 160-165
毛博慧,孫 红,刘豪杰,张俊逸,李民赞,杨立伟. 农业机械学报,2017,48(S1): 160-165
27 Leardi R,Norgaard L. J. Chemometrics,2004,18(11): 486-497
28 Norgaard L,Saudland A,Wagner J,Nielsen J P,Munck L,Engelsen S B. Appl. Spectrosc.,2000,54(3): 413-419.
29 SHI Jie-Yong,ZOU Xiao-Bo,ZHAO Jie-Wen,MAO Han-Ping. Journal of Infrared and Millimeter Waves,2011,30(5): 458-462
石吉勇,邹小波,赵杰文,毛罕平. 红外与毫米波学报,2011,30(5): 458-462
30 MENG Fan-Chao,CHU Dian-Hui,LI Ke-Qiu,ZHOU Xue-Quan. Journal of Software,2016,27(4): 916-932
孟凡超,初佃辉,李克秋,周学权. 软件学报,2016,27(4): 916-932
31 LIU Jing-Ming,CHU Xiao-Dong,WANG Zhi,XU Yong-Hua,LI Wen-Zhe,SUN Yong. Spectros. Spect. Anal.,2019,39(3): 743-750
刘金明,初晓冬,王 智,徐永花,李文哲,孙 勇. 光谱学与光谱分析,2019,39(3): 743-750
32 Yadegari E,Zandieh M. Appl. Decision Sci.,2015,48(4): 400-426
33 Jerin L I,Saravana S S,Ponnambalam S G. Int. J. Adv. Manufact. Technol.,2016,84(58): 787-799
34 XIE Yue,LI Fei-Yue,FAN Xing-Jun,HU Shui-Jin,XIAO Xin,WANG Jian-Fei. Chinese J. Anal. Chem.,2018,46(4): 609-615
谢 越,李飞跃,范行军,胡水金,肖 新,汪建飞. 分析化学,2018,46(4): 609-615
35 Chen Q,Jiang P,Zhao J. Spectrochim. Acta A,2010,76(1): 50-55
36 Shariati-Rad M,Hasani M. J. Chemometrics,2010,24: 45-56