赵茂程 杨君荣 陆丹丹 曹 瑾 陈一鸣
(1.南京林业大学机械电子工程学院, 南京 210037; 2.机电产品包装生物质材料国家地方联合工程研究中心, 南京 210037)
基于高光谱成像的青梅酸度检测方法
赵茂程1,2杨君荣1陆丹丹1曹 瑾1陈一鸣1
(1.南京林业大学机械电子工程学院, 南京 210037; 2.机电产品包装生物质材料国家地方联合工程研究中心, 南京 210037)
针对传统理化分析的青梅酸度检测方法破坏性大、耗时长、无法实现在线检测的不足,对基于高光谱成像技术的青梅酸度快速无损检测方法进行研究。采集了487个青梅样本在550~1 000 nm波段内的高光谱图像,经过光谱相对反射率校正和6种不同滤波后,分别利用连续投影算法(SPA)、遗传算法(GA)以及连续投影结合遗传算法(SPA+GA) 3种光谱降维方法,提取了反映青梅内部酸度信息的特征波长,并建立波长与青梅pH值的偏最小二乘(PLS)预测模型,研究不同滤波和不同降维方法下的预测精度。研究结果表明:同一预测模型,Savitzky-Golay(S-G)平滑滤波预测精度最高;相比SPA或GA单一算法降维,经5点S-G平滑滤波后SPA+GA 光谱降维的方法,可显著降低模型复杂度,提高模型预测精度,预测集的均方根误差为0.070 6,相关系数为0.792 5。
青梅; 酸度; 高光谱图像; 遗传算法; 连续投影法; 特征降维
青梅是营养价值较高的果实,具有独特的营养成分和生物学功能。梅果中富含以柠檬酸为主的有机酸,能促进三羧酸循环,恢复体力;梅果中的儿茶酸能促进肠道蠕动,有效预防便秘[1];有机酸可使人体肠道暂时呈酸性,抑制大肠杆菌、沙门氏菌、金色葡萄球菌等病原菌,可预防胃肠道传染病,对腹泻和便秘皆有效,是调理消化器官的功能性食品[2]。
在实际生产中,主要靠工人的经验,即利用采摘时间管理控制原料梅果的成分。一般来说,生产梅精的梅果于七成熟采摘,酿造青梅酒的梅果于八成熟采摘[3]。然而,由于受到地域、品种、光照,以及园艺管理、不同植株及不同部位果实成熟度个体差异等影响,同批采摘的梅果总酸度之间存在较大差异[4-5]。理化测定法测定青梅酸度常用电极电位法测定,但该方法具有破坏性、随机性、主观性,检测效率较低,无法满足对原料果开展按成分检测分等的需求。因此,探索基于光谱成像[6-9]的青梅内部酸度快速无损检测方法,建立基于此方法的青梅成分预测模型[10],具有实际意义。
预测青梅内部酸度的光谱成像检测技术核心在于光谱成像数据的预测建模[11]。本文利用不同光谱预处理方法对光谱数据进行不同角度的噪声滤除,提高光谱数据信噪比;针对全波段预测模型较复杂和预测精度可能不高的问题,分别利用连续投影算法[12](Successive projection algorithm,SPA)、遗传算法[13-14](Genetic algorithm,GA)和连续投影结合遗传算法(SPA+GA)对光谱数据进行降维处理,剔除共线冗余及信噪比差的波段,以实现光谱数据的压缩。
鲜青梅样本分两次购买于福建省诏安县,两批次数量均为250个,剔除其中有大面积坏斑和异常小的青梅,将其余487个作为青梅样本,在采集样本高光谱图像后,利用理化分析法检测样本的酸度。
为解决青梅生长过程中朝阳面和朝阴面成熟度不同的问题,分别拍摄青梅正反两面的高光谱图像以保证光谱中包含青梅的整体信息。利用文献[15]中的高光谱图像采集系统采集,该系统位于550~1 000 nm波段,波段间隔1 nm,使用自动曝光(保证每一个通道不过曝的情况下亮度达到最大),一个青梅拍摄451幅高光谱图像,平均需要6 s,鲜青梅水分充足,不会因水分蒸发而影响后续酸度的化学检测。将采集好的青梅样本挤压成青梅汁,利用雷磁PHS-2F型精密pH计测定青梅酸度,作为青梅建模时的化学计量值。之后由计算机(Yangtian A4600t, Lenovo, China, XP系统)进行数据处理。
1.2.1图像预处理
采用Halcon软件中的图像阈值分割技术对两幅光谱图像进行阈值分割,对分割后青梅的光谱图像内所有空间像素位置处光谱均值化,提取特征光谱,得到光谱曲线,把相应的光谱曲线转化为实验所需要的数据形式。以青梅在波长i处的原始光谱图像为例,公式为
(1)
式中μi——青梅i处光谱值Si1——青梅i处光谱图像朝阳面面积Si2——青梅i处光谱图像朝阴面面积μi1——青梅i处光谱图像朝阳面光谱均值
μi2——青梅i处光谱图像朝阴面光谱均值
1.2.2光谱预处理
本文使用Matlab2012a软件对光谱数据进行预处理,尽可能降噪而又不过度削弱数据中的信息,以提高模型的预测能力[16]。预处理包含了光谱反射率校正和光谱滤波。
对采集的样本特征光谱,采用当日系统暗噪光谱及99%的标准反射率标定板光谱进行相对反射率校正[17],相对反射率校正计算公式为
(2)
式中 R——反射率校正后的光谱 C——待校正的样本特征光谱 Rw——标准99%反射率板的光谱 Rd——盖上镜头盖采集的暗噪光谱
本文主要基于Savitzky-Golay(S-G)滤波进行局部光谱预处理,包括平滑滤波和微分滤波预处理[18-19]。光谱平滑滤波目的是抑制或消除随机噪声的同时尽可能保留数据中的有用信息。但样本的某些特征信息有时会隐藏在光谱曲线的细节中,以不明显的光谱曲线峰谷变化反映。为此,通过光谱数据微分对光谱曲线的低频部分进行有效抑制,从而得到突显微弱影响因素的微分光谱曲线,光谱数据微分从阶数上可分为一阶微分、二阶微分等。对于S-G滤波器宽度,一般认为宽度不应超过曲线峰半峰宽的1.5倍。综合考虑滤波器阶数与S-G滤波器宽度参数对光谱数据的影响,本文分别利用5点S-G平滑滤波、7点S-G平滑滤波、5点S-G一阶微分、7点S-G一阶微分、5点S-G二阶微分和7点S-G二阶微分6种滤波方法对光谱数据进行预处理。
为解决基于全波段光谱建立的预测模型相对复杂和预测精度不高的问题,需要对全波段光谱进行降维处理,剔除无信息波长及信噪比差的波长,挑选蕴含丰富信息且信噪比高的特征波长。
本文采用偏最小二乘(Partial least squares,PLS)作为建模工具,分别利用SPA、GA、SPA+GA(先通过SPA消除原始光谱共线性的影响,再利用GA进行最佳波长挑选)对原始高维光谱进行降维,选取最佳波长组建立预测模型,以提高模型预测精度和降低模型复杂度。
所有青梅样本按照酸度指标进行等概率抽样,得到训练集和预测集,训练集样本数量为392,预测集样本数量为95。青梅样本酸度(pH值)实测值的变化范围、平均值及标准偏差如表1所示。
表1 青梅酸度化学检测结果Tab.1 Chemical detection results of greengage acidity
本文主要用预测集中青梅预测值和实际值的均方根误差和相关系数来评价模型的性能,相关系数描述2个变量之间的线性相关程度。均方根误差越小,相关系数绝对值越接近1,模型预测精度越高[20-21]。
青梅样本经过反射率校正后的光谱数据,分别经5点S-G平滑滤波、7点S-G平滑滤波、5点S-G一阶微分、7点S-G一阶微分、5点S-G二阶微分和7点S-G二阶微分6种滤波预处理,从不同滤波角度提高光谱数据信噪比。效果如图1所示。
由图1a、1b可知,S-G平滑滤波抑制了原始光谱曲线的细小波动,但随着滤波器窗口长度的增加,滤波后的曲线会更加光滑,曲线峰谷的数量及波动幅度出现下降,说明噪声抑制能力的增强会伴随细节信息的丢失;由图1c、1d可知,S-G一阶微分显著放大了原始光谱曲线的细节部分,但随着滤波器窗口的增加曲线愈加平滑,且光谱的强度覆盖范围也有所下降;采用类似的方法继续计算得到S-G二阶微分的光谱数据,如图1e、1f所示。
应用相同的建模方法对同样的原始光谱进行酸度的建模,其预测精度会根据所采用的光谱预处理方法的不同而变化,因此最佳预处理方法需根据后续光谱预测建模结果综合评定。
表2为不同光谱预处理后经全波段建模和SPA、GA、SPA+GA 3种算法光谱降维、再利用偏最小二乘建模的预测结果。全波段模型基于10个主成分、特征波长基于波长数减1作为主成分数建模。对于4种建模方法,经过S-G平滑滤波后的预测精度相比于没有经过滤波的,有了一定程度的提高;经过S-G一阶微分滤波相比没有滤波的,出现了下降趋势;S-G二阶微分滤波最差。可能是一阶微分和二阶微分在放大光谱中的隐藏特征信息时,也同时放大了噪声干扰,导致信噪比下降。
图1 不同预处理下青梅光谱曲线Fig.1 Greengage spectra curves with different pretreatments
在5点平滑和7点平滑滤波方法下,特征波长建模下的青梅pH值预测误差均小于全波段建模下的预测误差。表明3种不同特征波长建模都能剔除噪声相对较大的波段,提高建模速度,使青梅内部成分预测能力和模型精度更高。
表2 4种预测模型预测集精度比较Tab.2 Prediction accuracy comparison of four models with different filters
由表2可知,基于SPA选取的特征波长预测模型相比于GA选取的特征波长预测模型,预测精度偏低,可能原因是SPA在寻找最低限度冗余信息的变量时会降低信号的信噪比,在特征较少时,由于单一特征会缺少信息的互补作用,干扰信息对建模准确度的影响较大;对于GA模型,从全波段中通过GA大量不断地循环迭代,寻找精度最高的波长组作为最佳特征波长,虽然在预测精度上有了一定的保证,却在优化最佳波长环节耗费了大量时间,耗时较长;对于SPA+GA模型,由SPA经全波段中优化出最低限度冗余信息的波段组,保证信息丰富的前提下消除了波段间的共线性影响,大大减少了GA循环迭代的时间。
现研究不同滤波预处理下建立SPA模型预测青梅pH值。SPA进行全波段降维时,选取了6~30个特征波长进行预测精度的分析,发现7点S-G平滑滤波下基于23个特征波长的模型预测精度最高,均方根误差为0.076 2,相关系数为0.747 2,图2a中红色圆点表示SPA对青梅光谱数据压缩后优化出的特征波长,这些特征波长通常分布在一阶导数谱中各个峰值和波动位置,无信息的平缓区则没有波长被选中,体现出了SPA的优点。另外SPA挑出的波长在580 nm和740 nm附近较为集中。
图2 不同模型下的特征波长优选Fig.2 Characteristic wavelength preferred in different models
一般认为特征波长个数在10以内为最佳,这样既能准确反映预测集的信息,又能避免过拟合现象,有必要对SPA挑选出来的波长做进一步筛选。利用GA再次降维后发现,预测精度并未有所提升,反而随着特征波长的减少出现了下降趋势,可能原因是特征波长减少的同时也减少了有用信息,造成预测精度的下降。经过反复试验,本文在SPA降维时选择了共线性最小的100个特征波长,再进行GA二次降维,利用不同波长的信息互补减弱特征波长减少带来的信息缺失。图2b是经过GA进一步优化出556、577、581、587、667、763、770、780、830、843 nm 10个波长作为青梅pH值预测模型的优选组合,降维耗时仅20 min左右,训练集均方根误差为0.065 3,相关系数为0.826 9,表明预测模型稳健性较好;且预测集均方根误差为0.070 6,相关系数为0.792 5,相比SPA模型预测精度有了显著提高。在580 nm和740 nm附近的波长数也得到了有效控制。
对于GA预测模型,7点S-G平滑滤波下预测效果最好,预测集均方根误差为0.069 7,相关系数为0.798 8。图2c中红色圆点表示GA对青梅光谱数据压缩后优选出的9个特征波长,与图2b中SPA+GA波长组相比较,在680、780、830 nm波长附近几乎有一半特征波长相重合,预测精度相差不大,但降维耗时2 h 10 min左右,约是SPA+GA的6倍。
图3是经SPA+GA优选出最佳波长组建立的预测模型对青梅pH值预测结果。由图可知,预测值与实测值有较好的线性关系,基于此特征波长构建一套低成本的多光谱成像系统,能够满足实际生产的需要。
(1)提出了基于SPA和GA算法相结合的青梅酸度高光谱图像预测模型。研究结果表明:利用连续投影法筛选出信息丰富且具有代表性的特征波长,结合遗传算法减去大量冗余共线性变量的干扰,可以大大缩短特征降维时间;相比于单一SPA模型,预测精度有显著提高。对于同一预测模型,光谱数据预处理方法对预测精度具有较大影响,S-G平滑滤波预测精度最高,S-G一阶微分滤波次之,S-G二阶微分效果最差。
图3 SPA+GA模型对青梅pH值预测结果Fig.3 Results of prediction set for SPA+GA model
(2)本文对光谱数据进行5点S-G平滑滤波,基于SPA+GA光谱降维,再利用偏最小二乘建立的预测模型效果最佳,其预测集均方根误差为0.070 6,相关系数为0.792 5,预测精度能够满足实际生产需要。
1 潘惠慧. 青梅有机酸组份及其抗结石功能研究[D]. 杭州:浙江大学, 2007. PAN Huihui. Studies on organic acid component in prunus mune and inhibiting effect on calcium oxalate crystallization[D]. Hangzhou:Zhejiang University,2007.(in Chinese)
2 黄伟素, 潘秋月, 高一勇. 青梅果产品的开发现状和发展趋势[J]. 食品工业科技, 2011(11):519-521. HUANG Weisu, PAN Qiuyue, GAO Yiyong. Recent development and trends of the products made from plum fruit[J]. Science and Technology of Food Industry, 2011(11):519-521.(in Chinese)
3 林钥铭, 杨颖, 杨雪, 等. 成熟度对青梅果汁营养成分及风味的影响[J]. 浙江农业学报, 2014,26(4):1049-1054. LIN Yueming, YANG Ying, YANG Xue, et al. Effects of ripe stage on nutritional composition and flavor of green mume juice[J]. Acta Agriculturae Zhejiangensis, 2014,26(4): 1049-1054.(in Chinese)
4 李艳, 萧永坚, 罗格罗. 青梅果酒酵母的筛选与发酵工艺优化[J]. 酿酒科技, 2016(2):65-68. LI Yan, XIAO Yongjian, LUO Geluo. Screening of yeast strains for plum wine and optimization of its fermentation process[J]. Liquor-Making Science & Technology, 2016(2):65-68. (in Chinese)
5 叶倩雯, 刘长海, 廖堪义. 青梅酒发酵工艺的研究[J]. 食品与发酵科技, 2014(3):60-65. YE Qianwen, LIU Changhai, LIAO Kanyi. Study on the fermentation techniques of plum fermented wine[J]. Food and Fermentation Technology, 2014(3):60-65. (in Chinese)
6 朱咏莉,李萍萍,毛罕平,等.基于特征光谱提取的有机基质含水量快速测定方法[J].江苏大学学报:自然科学版,2011,32(2):140-143. ZHU Yongli, LI Pingping, MAO Hanping, et al. Moisture content detection in organic substrates based on characteristic wavelength in near infrared spectroscopy[J]. Journal of Jiangsu University: Natural Science Edition, 2011, 32(2): 140-143. (in Chinese)
7 於海明,李石,吴威,等.稻谷千粒质量近红外光谱预测模型的波长选择方法[J/OL].农业机械学报,2015, 46(11):275-279. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx ? flag=1&file_no=20151137&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2015.11.037. YU Haiming, LI Shi, WU Wei, et al. Wavelength selecting methods of nirs predicting model of paddy grain weight[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(11): 275-279. (in Chinese)
8 黄双萍,洪添胜,岳学军,等.基于高光谱的柑橘叶片氮素含量多元回归分析[J].农业工程学报,2013,29(5):132-138. HUANG Shuangping, HONG Tiansheng, YUE Xuejun, et al. Multiple regression analysis of citrus leaf nitrogen content using hyperspectral technology[J]. Transactions of the CSAE, 2013, 29(5): 132-138. (in Chinese)
9 蔡晓炜. 智能在线PH检测记录仪的研究和设计[D].杭州:浙江工业大学, 2009. CAI Xiaowei. Research and design of smart online pH detector and recorder[D]. Hangzhou:Zhejiang University of Technology, 2009.(in Chinese)
10 QIN J, CHAO K, KIM M S, et al. Hyperspectral and multispectral imaging for evaluating food safety and quality[J]. Journal of Food Engineering, 2013, 118(2):157-171.
11 WANG X, ZHAO M, JU R, et al. Visualizing quantitatively the freshness of intact fresh pork using acousto-optical tunable filter-based visible/near-infrared spectral imagery[J]. Computers & Electronics in Agriculture, 2013, 99(7):41-53.
12 高洪智, 卢启鹏, 丁海泉,等. 基于连续投影算法的土壤总氮近红外特征波长的选取[J].光谱学与光谱分析, 2009, 29(11):2951-2954. GAO Hongzhi, LU Qipeng, DING Haiquan, et al. Choice of characteristic near-infrared wavelengths for soil total nitrogen based on successive projection algorithm[J]. Spectroscopy and Spectral Analysis, 2009,29(11):2951-2954. (in Chinese)
13 杨淑莹, 张桦. 群体智能与仿生计算:Matlab技术实现[M]. 北京:电子工业出版社, 2012.
14 李江波,赵春江,陈立平,等.基于可见/近红外光谱谱区有效波长的梨品种鉴别[J/OL].农业机械学报, 2013,44(3):153-157, 179.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx? flag=1&file_no=20130328&journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2013.03.028. LI Jiangbo,ZHAO Chunjiang,CHEN Liping,et al.Variety identification of pears based on effective wavelengths in visible/near infrared region[J/OL].Transactions of the Chinese Society for Agricultural Machinery, 2013,44(3):153-157,179.(in Chinese)
15 汪希伟. 基于光谱成像的猪肉新鲜度检测方法[D]. 南京:南京林业大学, 2014. WANG Xiwei. New approach to detect freshness of pork using spectral imaging[D]. Nanjing:Nanjing Forestry University, 2014.(in Chinese)
16 吴静珠, 李慧, 王克栋,等. 光谱预处理在农产品近红外模型优化中的应用研究[J]. 农机化研究, 2011,33(3):178-181. WU Jingzhu, LI Hui, WANG Kedong, et al. Application of spectrum preprocessing algorithms in optimizing NIR models of agricultural products[J]. Journal of Agricultural Mechanization Research, 2011, 33(3):178-181.(in Chinese)
17 赵杰文, 林颢. 食品、农产品检测中的数据处理和分析方法[M]. 北京:科学出版社, 2012.
18 SOLFRIZZI V, ARDO G A, PANZA F, et al. Detection of adulterations with different grains in wheat products based on the hyperspectral image technique: the specific cases of flour and bread[J]. Archives of Gerontology and Geriatrics, 2015(Supp.1):69-72.
19 吕程序,姜训鹏,张银桥,等.基于变量选择的小麦粗蛋白含量近红外光谱检测[J/OL].农业机械学报,2016,47(增刊):340-346.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=2016s052 & journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2016.S0.052. LÜ Chengxu, JIANG Xunpeng, ZHANG Yinqiao, et al. Variable selection based near infrared spectroscopic quantitative analysis on wheat crude protein content[J/OL]. Transactions of the Chinese Society for Agricultural Machinery,2016,47(Supp.):340-346.(in Chinese)
20 孙俊, 金夏明, 毛罕平,等. 基于高光谱图像光谱与纹理信息的生菜氮素含量检测[J].农业工程学报,2014, 30(10):167-173. SUN Jun, JIN Xiaming, MAO Hanping, et al. Detection of nitrogen content in lettuce leaves based on spectroscopy and texture using hyperspectral imaging technology[J].Transactions of the CSAE, 2014, 30(10):167-173.(in Chinese)
21 邹小波,陈正伟,石吉勇,等.基于近红外高光谱图像的黄瓜叶片色素含量快速检测[J/OL].农业机械学报,2012,43(5):152-156. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20120526 & journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2012.05.026. ZOU Xiaobo, CHEN Zhengwei, SHI Jiyong, et al. Rapid detection of cucumber leaves pigments based on near infrared hyper-spectral image technology[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2012, 43(5): 152-156. (in Chinese)
DetectionMethodsofGreengageAcidityBasedonHyperspectralImaging
ZHAO Maocheng1,2YANG Junrong1LU Dandan1CAO Jin1CHEN Yiming1
(1.CollegeofMechanicalandElectronicEngineering,NanjingForestryUniversity,Nanjing210037,China2.National-ProvincialJointEngineeringResearchCenterofElectromechanicalProductPackagingwithBiomaterials,Nanjing210037,China)
Greengage acidity detection is very important in refining and deeply processing greengage. However, traditional greengage acidity detection methods based on physicochemical analysis are destructive, time-consuming and not detective online. The fast and non-destructive method based on hyperspectral imaging system was proposed to predict greengage acidity. Hyperspectral images of 487 greengage specimens between wavelengths of 550 nm and 1 000 nm were captured. Three spectral dimensional reduction methods such as successive projection algorithm (SPA), genetic algorithm (GA) and SPA combined with GA (SPA+GA) were explored after spectrum relative reflectivity was calibrated and the images were filtered in six different ways. The featured wavelengths of the spectrum were extracted which reflected the internal acidity information of greengage. Partial least squares (PLS) prediction model was built between wavelength, and pH value and prediction precision were compared among different methods of filters and dimensionality reductions. The results showed that the model smoothly filtered by Savitzky-Golay (S-G) had the highest prediction accuracy. The model smoothly filtered by five points and then dimensionally reduced by both SPA and GA can reduce its complexity and improve its prediction accuracy compared with the ones only using SPA or GA. The root mean square error of prediction set was 0.070 6, and the correlation coefficient of prediction set was 0.792 5. This model based on the selected wavelength was practical to predict the greengage acidity, which would lay the foundation for further developing actual greengage multispectral image system.
greengage; acidity; highspectral image; genetic algorithm; successive projection algorithm; dimension reduction
TS201.2; TS207.3
A
1000-1298(2017)09-0318-06
10.6041/j.issn.1000-1298.2017.09.040
2016-12-07
2017-02-08
国家自然科学基金面上项目(31570714)、江苏省重点研发计划项目(BE2015304-3)、江苏高校优势学科建设工程项目(PAPD)、2016年度省级战略性新兴产业发展专项资金项目和南京2015年度科技发展计划项目(201505058)
赵茂程(1966—),男,教授,博士生导师,主要从事无损检测与图像处理等研究,E-mail: mczhao@njfu.edu.cn