薛同站 闫祥宇 李卫华 刘晓吉 黄显怀 杨厚云 全志道 杨欣蕾
(1.安徽建筑大学环境与能源工程学院,安徽 合肥 230601;2.环境污染控制与废弃物资源化利用安徽省重点实验室,安徽 合肥 230601;3.中节能(肥西)环保能源有限公司,安徽 合肥 230022)
餐厨垃圾是指食品加工、餐饮活动、单位供餐等活动中产生的废弃食品材料等[1],主要是由水、油、果皮、蔬菜、大米、鱼、肉、羽毛、骨头和废餐具等多种物质组成的混合体。随着餐饮业的快速发展,我国餐厨垃圾的增长率逐渐增加,已经占到了城市生活垃圾的30%~50%[2]。餐厨垃圾水和盐分含量高,富含有机物和病原微生物等,且易腐烂变质发臭,如果处理不当会导致空气、土壤及水污染等环境问题[3]。同时,餐厨垃圾因高油、高养分的特点,本身具有很强的资源化属性,若能资源化利用,对经济、环境的可持续发展具有重要意义。国内目前对餐厨垃圾资源化处理的主要技术包括好氧堆肥和厌氧消化等[4-5]。好氧堆肥技术具有基建面积小、操作简单、成本低等特点,且堆肥后的产物可作为有机肥料或土壤改良剂用于农业施肥,增强土壤肥力,达到无害化和资源循环利用的目的[6-7]。
好氧堆肥物料含水率、堆料固相C/N、pH、腐殖酸、总有机碳和总氮等理化指标常用于堆肥发酵终点的判定或腐熟度评价[8]。堆肥过程中腐殖酸的形成与堆肥的稳定性及腐熟度密切相关,是评价堆肥腐熟度的重要指标,因此其含量的实时动态分析对优化堆肥过程、缩短发酵周期和评价堆肥质量至关重要[9-10]。目前对腐殖酸的测定主要是传统的化学分析方法,该方法耗时长、检测过程繁琐、耗费试剂,不能满足快速实时检测的需要。近红外光谱分析是一种快速、无损、绿色的检测光谱分析技术,其优点在于测试快捷、无损、无污染、精度高、不消耗化学试剂就可以得到样品的分子结构和组成信息,可快速实现对样品内各成分的定量或定性检测[11-12],已广泛应用于工业[13]、农业[14]、食品[15]、医学[16]等领域。SISOUANE等[17]利用近红外光谱结合偏最小二乘法(PLS)回归预测堆肥中有机碳和全氮含量,得到了较好的定量分析模型;黄圆萍等[18]基于近红外光谱结合局部PLS对不同堆肥工艺全过程含水率、有机质和C/N等重要参数建立定量模型,结果表明,模型可用于定量预测;王晓燕等[19]基于PLS模型,通过多种近红外光谱预处理方法对鸡粪堆肥中总氮、总磷和总钾建立校正模型,实现了堆肥组分的同时测定。据此,近红外技术已广泛应用于有机废弃物堆肥过程中的化学成分检测环节。目前基于近红外光谱分析堆肥过程中腐殖酸含量的研究鲜见报道。
本研究采用不同光谱预处理方法优化分析模型,并结合3种改进的PLS——区间偏最小二乘法(iPLS)、反向区间偏最小二乘法(biPLS)和联合区间偏最小二乘法(siPLS),优选光谱特征波段,通过对比分析得到预测精度较高的近红外光谱预测模型,旨在利用改进PLS提高堆肥过程中腐殖酸定量模型的预测精度及稳定性,为快速检测和表征有机废弃物堆肥样品腐殖酸含量提供改进参考。
餐厨垃圾取自肥西县餐厨垃圾处置中心固液油三相分离预处理后的固渣,含水率为78.0%±0.5%。堆肥底物为餐厨垃圾,接种物为实验室前期堆肥产品,堆肥反应装置为YEJ-020K型生物垃圾处理器,机器内部主要由加热温控、搅拌、通风装置3部分组成。堆肥过程中,每3天从堆肥堆体的上下层各取约200 g样品。采用郭倩倩等[20]归纳的堆肥周期来确定堆肥发酵终点(堆肥腐熟稳定性的判定),24 d为1个周期,共5个周期,每周期取样8次,合计采集80个样品。取样后将样品置于0~5 ℃冷藏以备后续分析。取冷藏的样品放入FD-1A-180型真空冷冻干燥机中,于-49 ℃的条件下真空冷冻干燥24 h后碾磨成粉,过40目筛网封装在密封袋中,干燥处保存防止受湿。
堆肥过程中腐殖酸含量的测定采用Na4P2O7和NaOH混合液浸提/K2Cr2O7容量法。将冷冻干燥后的堆肥样品与0.1 mol/L的NaOH和0.1 mol/L的Na4P2O7按体积比为1∶1混合后进行浸提,取浸提液用K2Cr2O7容量法测定含碳量,即总腐殖酸含量(以含碳量计)。每个样品平行测定3次,取平均值为最终测定数据。
采用MPA型傅立叶近红外光谱仪测试粉状堆肥样品漫反射光谱,以空气为背景,在室温条件下,采集区域为4 000~12 000 cm-1,分辨率为8 cm-1,扫描次数为64次,每条光谱有1 037个变量。在近红外光谱扫描过程中,为减少外界环境和仪器波动对光谱扫描的影响,同一样品重复测定3次,结果取平均值,即为该样品原始光谱数据[21]。
本研究在80个堆肥样品中随机选取53个作为建模集,27个作为验证集进行建模。建模集用于构建多变量校正模型,验证集用于预测验证。建模前,对近红外光谱原始数据进行预处理,并结合化学计量学方法建立不同PLS分析模型对预处理后的光谱数据进行运算处理,再对模型进行检验。模型的评价参数包括建模集的校正相关系数(Rc)、交互验证均方根误差(RMSECV)及验证集的预测相关系数(Rp)、预测均方根误差(RMSEP)[22]。通常情况下,Rc和Rp越接近于1,RMSECV和RMSEP越低,且RMSECV和RMSEP之间的偏差越小,运算后的光谱信息与真实组分的相关性越好,模型稳定性越高,稳健性越好。
腐殖酸含量化学测定值的准确性决定模型的可靠性和精确性。建模集样品腐殖酸质量分数为11.76%~17.66%,平均值为14.88%;验证集样品腐殖酸质量分数为11.85%~17.04%,平均值为14.81%,验证集数据范围包含于建模集数据范围,从而避免过度预测的发生,有助于获得稳定可靠的校准结果。由图1可看出,各样品腐殖酸含量差异大、覆盖范围广,具有很好的代表性。
图1 堆肥样品腐殖酸质量分数分布Fig.1 Distribution of humic acid mass fraction in compost samples
通过分析近红外光谱范围内吸收带的强度无法直接获得样品中腐殖酸含量,但在近红外光谱范围内的吸收特征为腐殖酸含量定量分析提供了丰富的信息基础。如图2所示,在4 000~7 000 cm-1范围中有大量含氢官能团,在倍频段和合频段产生很强的吸收,餐厨垃圾堆肥样品中多为有机物质,含有大量的O—H、C—H、N—H、S—H、C—C、C—O等官能团,所以光谱图谱中出现多个吸收峰与这些官能团密切相关。80个堆肥样品的图谱出现了一些分散性,表明它们之间有一些基线偏移。各光谱图谱中还存在多个基频的合频段或倍频段的结合,其中存在大量的普峰或肩峰的重叠。从近红外光谱中得到的是微弱的光谱信息,因此需要对光谱进行预处理、波段选择,并与化学计量学方法相结合进一步建立准确稳定的腐殖酸含量定量模型。
图2 堆肥样品原始近红外光谱Fig.2 Raw near infrared spectra of compost samples
在进行堆肥样品近红外光谱采集时,存在一些与定量无关的干扰因素,如样品颗粒尺寸、散射光和杂光的干涉、光谱仪的振动噪声等,此时通过标准正态变量变换(SNV)来对光谱进行处理,可以减少这些干扰因素的影响。在近红外光谱测量过程中,会出现光谱基线偏移或漂移,导数处理可以消除光谱基线漂移和其他背景干扰的影响,还可以放大和分离重叠信息,并提供比原始光谱分辨率更高和更清晰的光谱剖面变化,常用的导数处理是一阶导数(FD)、二阶导数(SD)处理。平滑也是一种广泛使用的预处理方法,作用是有效消除随机噪声,提高信噪比,从而提高模型数据的可靠性,常见平滑方法是经典的Savitzky-Golay卷积平滑(SG)和滑动平均平滑(MA)。
本研究分别采用SG、MA、SNV、SNV+FD+MA、SNV+SD+MA、SNV+FD+SG和SNV+SD+SG这7种光谱预处理方法对原始光谱进行预处理,同时与未预处理的原始光谱建立PLS模型比较分析。不同光谱预处理结果如表1所示,在全光谱数据建模下,经评价参数RMSECV和Rc综合比较,SNV+FD+MA、SNV+FD+SG和SNV+SD+SG方法的优化效果较明显,能够充分利用信息数据并消除光谱中存在的噪声,其中SNV+FD+SG预处理效果最佳,经预处理后,模型的主成分数为10,RMSECV为0.628 2,Rc为0.928 3。经7种预处理后的PLS模型性能均明显优于原始光谱数据建立的PLS模型,这也验证了光谱预处理的优越性。
表1 堆肥样品近红外光谱预处理结果Table 1 Pretreatment results of compost samples by near infrared spectra
经SNV+FD+SG预处理后的光谱图谱如图3所示,与原始光谱图谱相比,因样品之间的散射而引起的基线偏移和平移现象得到很好的解决,减轻了仪器带来的试验影响。
图3 SNV+FD+SG预处理后的近红外光谱Fig.3 Near infrared spectra after SNV+FD+SG pretreatment
2.4.1 iPLS建模
iPLS原理是将整个光谱划分为多个宽度相等的区间,然后基于每个区间建立PLS回归模型,通过交叉验证获得Rc及每个区间的RMSECV,最后选择RMSECV最低的区间作为特征波段构建最终模型。本研究将SNV+FD+SG预处理后的全光谱分别划分成15、20、25、30、35个区间,获得最佳区间模型的主成分数、RMSECV和Rc(见表2)。当全光谱等分成20个区间时,选择第19个区间,8个主成分数,所建立的模型RMSECV最小,此时模型的RMSECV为0.501 9,Rc为0.953 7,其对应波段为4 389~4 775 cm-1。
表2 iPLS建模结果Table 2 The results of iPLS modeling
2.4.2 biPLS建模
biPLS将整个光谱分为n个等宽区间,然后分别建立具有n、n-1、...、2和1个区间组合的PLS模型,选择RMSECV最小的区间组合作为特征波段构建PLS模型[23]。本研究将SNV+FD+SG预处理后的全光谱等分为15、20、25、30、35个区间。当全光谱等分为25个区间时,选择区间组合{6,22,24,25},主成分数为9,所建立的模型RMSECV最小(0.464 7)(见表3)。此时,Rc为0.960 6,其对应波段为4 000~4 305、4 305~4 621、4 945~5 253、10 052~10 368 cm-1。
表3 biPLS建模结果Table 3 The results of biPLS modeling
2.4.3 siPLS建模
siPLS是基于iPLS开发的改进版,原理是将全光谱分成许多宽度相等的区间后,再把单独的区间组合成2、3或4个联合区间创建PLS模型,以联合区间模型的RMSECV为评价标准,确定RMSECV最小的区间组合。本研究将SNV+FD+SG预处理后的全光谱分别等分为15、20、25、30、35个区间,再分别进行2、3、4个联合区间组合运算,筛选最佳区间组合,结果见表4。当全光谱划分为20个区间时,选择区间组合{11,19},对应波段为4 389~4 775、7 583~7 976 cm-1,主成分数为10,所建立的模型RMSECV最小(0.423 1),此时Rc为0.967 8。
表4 siPLS建模结果Table 4 The results of siPLS modeling
波段选择是避免近红外光谱分析中冗余信息的关键步骤,为进一步验证波段筛选对PLS模型效果的影响,利用验证集对校正模型效果进行验证。由表5可见,经预处理后的全光谱PLS模型的预测精度低于iPLS、biPLS和siPLS模型,其中siPLS表现最佳,表明波段选择可以提高模型稳健性并生成精度更高的模型。尽管iPLS提供了相关光谱区域的选择,但仅选择1个区间来构建PLS模型,这意味着忽略了一些有用的光谱信息。虽然biPLS模型精度较高,但是具有贪婪搜索的特征,会造成选中的区间不能很好地反映待测成分的信息[24]。siPLS可以搜寻所有可能的组合区间并选择最佳组合区间建模,去除大量无用的光谱信息,尽可能保留有用信息。因此,在3种不同区间筛选模型中,siPLS建模效果最佳。姚亮等[25]采用iPLS、biPLS和siPLS建立污泥中糖原含量与光谱数据之间的近红外光谱模型时得出类似的结果,认为siPLS模型具有更好的预测能力。
表5 不同PLS模型预测腐殖酸含量的结果Table 5 Results of different PLS models for predicting humic acid content
在iPLS、biPLS和siPLS模型中,均将全光谱分别等分为15、20、25、30、35个区间,建模效果最佳的区间数分别为20、25、20。证明区间数的选择对模型的预测准确度存在一定的影响,区间数过少则波段分割过宽,会造成信息冗余;区间数过多波段分割过窄,可能会丢失建模所需必要信息。
总体而言,SNV+FD+SG光谱预处理结合siPLS模型能获得本研究的最佳预测结果。53个建模集样品的siPLS模型测定值与预测值之间的相关性见图4,27个验证集样品的siPLS模型测定值与预测值之间的相关性见图5,可见测定值与预测值之间具有良好的相关性。验证集的相对残差大部分分布于-0.05~0.05(见图6),说明siPLS模型对餐厨垃圾堆肥产物中腐殖酸含量的预测具有较好的准确性,所建的siPLS模型可以用于对餐厨垃圾堆肥产物中腐殖酸含量的预测。
图4 siPLS模型中建模集样品腐殖酸测定值与预测值的相关性Fig.4 Correlation between measured values and predicted values of humic acid in model set of siPLS model
图5 siPLS模型中验证集样品腐殖酸测定值与预测值的相关性Fig.5 Correlation between measured values and predicted values of humic acid in validation set of siPLS model
图6 siPLS模型验证集相对残差Fig.6 Relative residual of validation set of siPLS model
采用近红外光谱技术结合PLS算法,对餐厨垃圾堆肥样品腐殖酸含量快速定量进行了研究,结合多种预处理及特征波段筛选方法对模型进行了优化,讨论了影响此类模型稳健性和准确性的因素。结果表明,光谱预处理显著提高了模型性能,SNV+FD+SG是最佳的光谱预处理方法。此外,采用不同的PLS算法来选择特征变量,发现siPLS优于全光谱PLS、iPLS和biPLS。在siPLS中只有104个变量用于最终模型构建,与使用全光谱变量相比,该方法不仅优化了光谱建模区域,而且提高模型预测能力。近红外光谱结合siPLS可以作为好氧堆肥过程中腐殖酸测定的一种高效、准确、可靠的定量工具,避免了传统化学方法的缺点,为快速检测和表征有机废弃物堆肥样品腐殖酸含量提供改进参考。