冯志恒, 吕欣欣, 李赛楠, 周晓煦, 蒋开彬, 黄少伟
(华南农业大学林学与风景园林学院/广东省森林植物种质资源创新与利用重点实验室,广东 广州 510642)
火炬松(PinustaedaL.)原产于美国东南部,于20世纪30年代引入我国,并进行了广泛的引种栽培,具有速生、材脂兼用、经济效益高等优点,是我国南方地区重要的造林和工业用材树种之一[1].我国对木材资源需求大,火炬松作为我国重要的纸浆材树种之一,对其优良品种、家系进行选育具有重要意义.建立5年生火炬松木材基本密度近红外模型,有利于开展火炬松木材密度这一性状的早期选择,以达到缩短育种周期、提高选择效率的目的.
近红外光谱(near infrared spectroscopy, NIRS)技术已广泛应用于农林业[2,3]、畜牧业[4]、食品[5]、医药[6,7]等领域的成分预测[8]、等级评定[9].利用传统的测量方法测量木材基本密度往往要进行大量繁琐的工作,会对木材造成了一定的损伤[10].近红外光谱技术具有便捷、无损的优点,仅通过在近红外光谱区扫描收集木材的有机分子中含氢基团(O-H、N-H、C-H)的特征信息,并对光谱信息进行计算,最终得到木芯密度差异的化学值[11].
本研究利用近红外成分分析仪结合木材基本密度实测值,构建5年生火炬松木材基本密度的近红外预测模型;并探究最佳预处理方法,对该模型进行优化;最终建立5年生火炬松木材基本密度的近红外快速预测模型.
试验样品的采集地广东省英德市林业科学研究所,地理坐标24°15′N,113°25′E.该地属于亚热带季风气候,多年平均气温20.7 ℃,一年中1月是最冷月份(最低气温-3.6 ℃),7月是最热月份(最高气温40.1 ℃),年平均日照时数1 631.7 h,降水量充沛,年降水量达到1 918 mm.土壤为中黏红壤,呈酸性,pH值为5.2~6.7.
试验材料来自广东省英德市林业科学研究所的火炬松种子园第二代自由授粉子代林,于2012年春造林.造林采用随机完全区组设计,8次重复,5株行式小区.全林地采样,采用生长锥在每一株树的向阳面,由东向西钻取木芯,钻取高度距地面1.3 m,钻得的木芯直径12 mm.由于受到植株死亡、林地疏伐以及木芯保存率的影响,最终获取用于试验的样品共计219份.共采集试验样品219个,并将所有样品随机分为校正集和验证集,其中校正集180个,验证集39个.
参照文献[12]测定火炬松木芯的木材基本密度.将木芯做好标记浸水至饱和,利用排水法测定体积.将木芯在105 ℃的烘箱中烘至全干,测定木芯质量.最终通过计算得到木芯的基本密度.
利用瑞典Perter公司生产的DA7200多功能近红外成分分析仪,采集近红外光谱数据.扫描波长为950~1 650 nm,分辨率为5 nm,扫描方式为漫反射,光斑直径为3.5 cm.
采集光谱前先将样品在室内放置24 h以适应扫描环境,减少环境变化对试验产生的影响;开机后预热30 min,待光源稳定后,开始采集光谱数据,每个样品扫描3次,重复装样3次;导出光谱数据平均值.
近红外光谱数据预处理和建模在The Umscrambler 9.7软件上进行,将一阶导数(first-order-derivative, 1st Der)、标准正态变量转换法(standard normal variate transformation, SNV)、平滑算法(savitzky-golay smoothing, SG)、乘积分散校正法(multiple scatter correction, MSC)和归一化处理法以及几种预处理方法结合起来,进行数据预处理,根据残差图和杠杆图来剔除异常值.采用偏最小二乘法(partial least square regression, PLS)建立近红外预测模型.
利用15年生火炬松木材基本密度近红外预测模型[13]对5年生火炬松木材基本密度进行预测,木材基本密度平均值为0.552 8 g·cm-3;利用排水法对5年生火炬松木材基本密度进行测定,木材基本密度平均值为0.362 9 g·cm-3.可见通过15年生火炬松木材基本密度近红外预测模型无法准确预测5年生火炬松的基本密度.
用排水法测得的校正集火炬松木芯样品基本密度为0.297 1~0.444 0 g·cm-3,平均值为0.362 9 g·cm-3,标准差为0.025 1 g·cm-3.利用SAS 9.4软件对校正集火炬松木芯样品进行正态性检验分析[14](表1).校正集火炬松木芯样品的基本密度数据来自正态总体,具有代表性,可以作为模型的校正集.
表1 火炬松木芯基本密度校正集的正态性检验统计表 Table 1 Normality test of basic density of loblolly pine cores
通过对比各种方法(表2)的校正集相关系数(RC)、 交互验证集相关系数(RCV)、校正集均方根误差[RC(MSE)]和交互验证集均方根误差[RCV(MSE)],得到建模效果最好的预处理方法.RC和RCV的值越大,RC(MSE)和RCV(MSE)的值越小,模型越好[13].最终筛选出1st Der+MSC处理、归一化处理和1st Der+SG处理3种预处理方法(表2).
表2 采用不同光谱预处理方法得到的火炬松基本密度近红外预测模型参数的比较 Table 2 Comparison on parameters of near-infrared spectroscopy models for basic density of loblolly pine pretreated by different function processing methods
将光谱数据导入The Umscrambler 9.7软件,分别以1st Der+MSC、归一化和1st Der+SG 3种预处理方法建模.通过比较模型参数可以看出1st Der+MSC预处理方法是最好的预处理方法.但后续验证结果表明1st Der+SG预处理方法的表现更优(图1),最佳主成分为17,RC值为0.925 2,RC(MSE)值为0.005 7 g·cm-3,RCV值为0.796 2,RCV(MSE)值为0.009 5 g·cm-3.
为了进一步验证近红外预测模型的准确度,利用建立的火炬松木材基本密度近红外预测模型对39个校正集样品的木材基本密度进行预测(图2),并与实测值进行比较.验证结果表明,预测值与实测值的最大标准偏差为0.036 g·cm-3,最小标准偏差为0,模型的预测值与实测值的相关性达到0.805 7,预测均方根误差为0.013 9 g·cm-3,说明该模型有较好的预测效果.
本研究基于近红外光谱技术,运用1st Der、SNV、SG、MSC、归一化处理以及几种预处理方法相结合的方式,对5年生火炬松木芯样品校正集的近红外光谱数据进行预处理,经过比较分析得出最优的建模预处理方法,即1st Der+SG的预处理方法;并基于此构建了5年生火炬松木材基本密度近红外快速预测模型.该模型的预测值与实测值的相关性为0.805 7,均方根误差为0.013 9 g·cm-3,能预测5年生火炬松的木材基本密度.