王海燕,王 虎,王国祥,刘 军
(1.南京财经大学管理科学与工程学院,南京210046;2.江苏省质量安全工程研究院,南京210046)
基于压缩感知的白酒香型分类
王海燕1,2,王 虎1,王国祥1,刘 军1,2
(1.南京财经大学管理科学与工程学院,南京210046;2.江苏省质量安全工程研究院,南京210046)
目前多数白酒分类方法需要进行特征选取,但特征选取算法会增加计算复杂度,限制特征数量,而且选取结果的好坏直接影响识别效果。为此,提出应用压缩感知理论对白酒香型进行分类的方法。通过压缩感知对白酒飞行时间质谱进行整体分析,运用训练数据构造冗余字典作为稀疏基,选择高斯随机矩阵作为测量矩阵,通过求解最小l1范数得到反映白酒香型特征的稀疏表示,进而根据K近邻法(KNN)实现对白酒香型的分类识别。将4种不同重构算法分别结合最小冗余误差和KNN进行香型分类,实验结果表明,将压缩感知用于白酒香型分类是可行的,能避免特征选取的问题,其中采用稀疏度自适应匹配追踪算法求解l1范数,并根据KNN进行分类的稳定性较好,准确率达到91.45%。
压缩感知;飞行时间质谱;稀疏表示;白酒香型;K近邻法;最小冗余误差
白酒是一个复杂的体系,其中98%~99%的成分都是乙醇和水,它们构成了白酒的主体,而约占1%~2%的溶于其中的酸、酯、醇、醛等种类众多的微量有机化合物是决定白酒香气、口感和风格的关键[1-2]。目前对白酒的鉴别,除了理化分析外,主要是通过品酒师的感官品尝,但由于人类感觉器官的灵敏度和工作状态受环境、时间、心理活动等诸多因素的影响,其分析结果往往带有一定的主观性[3]。
近年来,模式识别技术与仪器检测手段相结合在白酒分析中的应用日益广泛。其中,常用的分析方法有主成分分析(Principal Component Analysis, PCA)[4]、线性判别分析(LinearDiscriminant Analysis,LDA)[5]、聚类分析[6]、支持向量机(Support Vector Machine,SVM)[7]等方法。此外,一些新方法和技术也被运用到白酒分析中:文献[8]通过构建反传人工神经网实现对未知白酒样品进行预报;文献[9]将可视化阵列传感器技术对代表酒样进行检测,在可视化区分基础上采用统计分析方法对结果进行分析。这些方法在一定程度上建立了比较客观的分类标准,但目前大量的识别算法都集中在提取特征信息上,特征选取的数量和好坏直接影响到识别效果。
压缩感知(Compressive Sensing,CS)是由文献[10-11]在相关研究基础上提出的一种信号采样和重建的新理论,使用一定数量的非相关测量值能够高效地采集可压缩信号的信息,这种特性决定了压缩感知应用的广泛性。目前,关于CS理论的应用研究已经涉及诸多领域,例如人脸识别[12-13]、医疗成像[14]、生物传感[15]、语音信号处理[16]。CS理论的出现和发展,给高维的谱图数据处理也带来了新的启发:如果可以在某个空间基下对谱图数据进行稀疏表示,那么特征选取就不再是难点,大量的特征将成为算法中可利用的优点。应用CS理论进行识别分类,可以分为稀疏表示、稀疏重建和样本归类3步,最小冗余误差[17]是常用的一种样本归类准则,它通过计算测试样本的冗余误差最小值确定目标归属类。考虑到不同香型白酒谱图间差异性较小的特点,本文提出一种基于压缩感知和K近邻准则的白酒香型分类方法(CS-KNN),以期为白酒产品的分类鉴别提供新的方法和参考价值。
压缩感知问题可以化为最小l0范数问题:
其中,Ψ为正交稀疏基矩阵;Φ为观测矩阵;x为稀疏向量。解决l0范数的优化问题是一个NP难题,算法复杂度随着问题规模的增长而成指数增长。目前解决方案主要有:将最小l0范数问题转化为最小l1范数问题求解[18],或者转求最小l0范数问题的次最优解[19-20]。本文分别选择正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)、稀疏度自适应匹配追踪算法(Sparsity Adaptive Matching Pursuit, SAMP)、迭代加权最小二乘算法(Iteratively Reweighted Least Squares,IRLS)以及基追踪算法(Basis Pursuit,BP)来求解式(1)。
CS理论表明,满足约束等距条件(Restricted Isometry Property,RIP)的感知矩阵Θ可以对稀疏向量进行映射并保留信号特性。用超完备的冗余函数库可以代替基函数,这个超完备的冗余函数库称为冗余字典[21]。本文选择白酒训练样本集构造冗余字典矩阵Ψ,这样白酒谱图信号y在冗余字典下的稀疏表示为x(y=Ψx),只要设计满足RTP约束条件的观测矩阵Φ便可对稀疏向量x进行映射处理。已经证明当观测矩阵Φ为高斯随机矩阵时,感知矩阵Θ有较大概率满足RIP条件,因此,本文选择高斯随机矩阵作为观测矩阵Φ。
3.1 白酒谱图CS稀疏求解
给定M类白酒目标训练样本集,记第i类训练集Ei共ni个样本,表示为:
其中,vij∈ℝm×1表示第j个训练样本,j=1,2,…,ni,i=1,2,…,M;m为样本维数;ℝ表示实数集。记M类目标训练集所有训练样本为矩阵Ψ,表示为:
其中,Ψ∈ℝm×n,n=n1+n2+…+ni+…+nM。
设高斯随机测量矩阵为Φ∈ℝd×m(d≪m),对白酒测试样本y和训练样本集Ψ进行映射处理,获取扰动特征量=Φy和感知矩阵Θ=ΦΨ。分别利用OMP,SAMP,IRLS,BP等算法寻找式(2)的最稀疏解。
上式为白酒信号特征量在变换域Θ=[θ11,θ12,…,θ1n1,…,θn]下的稀疏表示x。
设式(2)的最小l0范数解为x表示为:
则测试样本在冗余字典上的稀疏表示为:
如果测试样本y属于第i类,则在理想情况下,x中只有与第i类训练样本数据对应的元素不等于0,其他都为0,但是噪声、模型误差以及不同类别样本间高度相似的影响会导致x中其他处也会出现较小的非零值。本文应用KNN准则判别测试样本的归属类别。
3.2 CS-KNN分类
首先利用CS理论对白酒TOFMS谱图进行稀疏求解,即对每一张谱图求稀疏解得到训练集和测
(x)表示对f(x)的估计,当a=b时,δ(a,b)= 1;否则δ(a,b)=0。
(3)(x)即是待测样本y的类别。
4.1 仪器设备
实验使用江苏省质量安全工程研究院与中科院大连化学物理研究所联合设计制造的单光子电离-飞行时间质谱仪(SPI-TOFMS),电离源采用的是10.6 eV光子能量的真空紫外灯(VUV),可将电离能小于10.6 eV的样品电离生成分子离子,谱图中仅有分子离子峰,碎片峰很少。
4.2 白酒香型识别
实验采集3种香型5个品牌白酒的550张TOFMS谱图,3种香型白酒谱图构成如下:清香型样本由50张汾酒谱图样本组成,酱香型样本由不同生产批次的150张茅台和50张郎酒谱图样本组成,浓香型样本由不同生产批次的150张泸州老窖、50张剑南国宝以及100张不同生产批次的五粮液谱图样本组成。白酒样品的TOFMS谱图如图1所示,每张谱图包含6 250个数据点。
图1 白酒TOFMS谱图
由于低频基线、高频化学噪声、质谱仪自身系统误差以及人为因素导致的样本间测量差异等影响,实验采集得到的白酒谱图混合了真实信号和噪声,因此需要对谱图数据进行预处理。本文利用小波软阈值法去噪,运用数据约简减少谱图中显著性谱峰的数量,将谱图数据标准化以增强不同谱图间的可比性。通过优化选择合适的小波基函数和阈值选择方法能有效地提高算法的识别效果。图2显示的是茅台酒TOFMS谱图去噪前后信号对比。
图2 茅台酒去噪前后TOFMS
选择其中80%的谱图(共440张)组成训练样本集,20%组成测试样本集,采用交叉验证的方法估计CS-KNN算法的分类性能。分别运用OMP, SAMP,IRLS以及BP算法解最小l0范数。图3显示的是运用SAMP算法求得的浓香型白酒样本在冗余字典下的稀疏表示。冗余字典由440张训练样本组成,图中横轴样本序列第1列~第40列为清香型白酒,第41列~第200列为酱香型白酒,第201列~第440列为浓香型白酒。可以看出,浓香型测试样本在冗余字典第201列~第440列上具有明显的稀疏表示系数。
图3 测试样本(浓香型)稀疏解
在理想情况下,图3训练样本序列第1列~第200列的稀疏解为0,但由于噪声、误差以及不同香型间谱图的相似性影响使得这些序列也存在非零值。本文分别运用OMP,SAMP,IRLS以及BP算法解最小l0范数,然后分别根据最小冗余误差方法和KNN算法对测试样本的稀疏表示按香型进行识别分类,实验中d取32,K取3。
误差最小的i对应的类别即为测试样本y的类别标签。实验结果如表1所示。
表1 根据最小冗余误差和KNN的分类结果比较
最小冗余误差方法通过比较不同类别间误差的大小进行分类,KNN方法则利用了不同样本间的关系,这对于高度相似的白酒TOFMS谱图而言,减少了类别特征选择不当对分类结果的影响,表1显示, 4种算法结合KNN进行分类的准确率要优于根据最小冗余误差分类的结果,其中,SAMP算法结合KNN进行分类的准确率能达到91.21%。
IRLS和BP算法属于2种凸优化算法,其特点是需要较少的测量值就能以很高的概率恢复原信号,但缺点是计算复杂度较高O(N3);OMP和SAMP算法属于2种贪婪算法,OMP算法继承了匹配追踪算法中的原子寻优原则,但在残差更新中对已选原子集合进行施密特正交化以保证迭代的最最优性,其复杂度约为O(Kdm)。当步长为1时, SAMP算法可视为一个带有支撑集更新功能的OMP算法,SAMP算法计算复杂度要高于OMP算法,随固定步长的不同而不同。表1中2种凸优化算法的运算时间均高于2种贪婪算法的运算时间,并且因为KNN分类需要计算测试样本与每一个训练样本的距离,而最小冗余误差分类只需计算类别间的误差即可,所以从表1中也可以看出,每种算法按照KNN准则分类的时间都比按最小冗余误差准则分类的时间长。
由于测量矩阵Φ是随机生成的,因此识别率和测量矩阵有关,从而需要进一步对算法的稳定性进行实验。图4为4种重构算法分别进行100次重复实验得到的结果,表2为重复实验分类准确率均值(mean)及方差(var)的比较。
图4 重复实验结果
表2 重复实验分类准确率均值及方差比较
从识别率均值以及波动情况来看,运用SAMP算法得到的稀疏解对白酒谱图进行香型识别分类的准确率以及稳定性要优于其他3种重构算法。
表3为不同高斯随机矩阵维数d对CS-KNN (SAMP)分类的准确率和运行时间等指标的统计结果,表中维数d取值为2j(j=1,2,…,8)。
表3 高斯随机矩阵维数d对分类结果的影响
由实验结果可知,在不同的映射维数下,除了256维的情况外,KNN分类时间均要大于最小冗余误差分类时间,且映射维数d取值越大,分类时间(主要是l1范数优化求解)也越长。2种判别准则在高斯随机矩阵32维左右时均能获得对白酒香型识别的最佳效果。当d=2时,CS-KNN分类准确率为69.82%,随着维数d的增大分类准确率逐渐增高,当d=32(25)时,CS-KNN分类准确率约为91.45%,而当维数大于32维,算法准确率开始降低。
目前对白酒香型研究采用的方法有主成分分析、判别函数、KNN、决策树模型、AdaBoost算法等。LDF和QDF为以高斯分布为假设的参数分类器, CART方法是以实例为基础的归纳学习方法,KNN是一种将盲样决策到其K近邻中出现频率最高的模式类别的非参数方法。通过这些方法对仪器检出白酒谱图进行分析,一定程度上克服了传统的白酒香型鉴定方法不够科学规范、难适应于综合宏观的整体评价等缺陷。为了对比本文提出的CS-KNN方法,这里选择线性判别函数(LDF)、二次判别函数(QDF)、决策树ID3(CART)、K近邻分类(KNN)等4种分类器对白酒TOFMS谱图进行香型分类,结果比较如表4所示。
表4 识别结果比较
可以看出,CART(ID3)使用信息增益方法作为属性选择标准,能获得89.73%的识别率,但由于该方法需要频繁地将白酒TOFMS训练数据在主存和高速缓存中换进换出,从而使得算法的时间开销大。利用PCA降维然后使用判别函数进行处理,虽然获取分类结果较快,但识别率有待提高。KNN属于一种懒惰的非参数方法,直接利用KNN算法进行分类,精度较低。应用本文方法,选择恰当的最小l0范数解法以及合适的维数d能获得优于其他方法的分类效果。
本文提出利用CS方法对白酒TOFMS谱图进行整体分析,运用训练数据构造冗余字典作为稀疏基,高斯随机矩阵为测量矩阵,以此获得反映白酒香型特征的稀疏表示,进而根据K近邻法进行分类识别。本文首先对白酒香型运用4种不同重构算法结合最小冗余误差和K近邻法分别进行分类,其次考察高斯随机矩阵维数d对分类结果的影响。实验结果表明,与最小冗余误差方法相比,基于压缩感知的白酒香型识别方法能得到较高的识别率,但计算时间较长。相较于OMP,SAMP,IRLS算法,SAMP算法能获得更高的识别效果。
本文研究是对现有白酒香型分类方法的有益补充,也是这种方法在白酒分类领域的新应用,实验结果表明,该方法对白酒香型进行分类是可行的,能避免特征选取的问题。但如何设计最佳的测量矩阵,并提高求解最优化问题的计算效率还有待进一步研究。
[1]徐成勇,郭 波,周 莲,等.白酒香味成分研究进展[J].酿酒科技,2002,(3):38-40.
[2]张永生,魏新军,韩伟元,等.白酒中微量成分的气相色谱-质谱分析与鉴定[J].酿酒科技,2011,(3):101-103.
[3]陈 华,郁志勇.中国白酒香型的化学模式识别(Ⅰ):主成分分析和因子分析[J].食品科学,2000,21(7): 42-47.
[4]霍丹群,张苗苗,侯长军,等.基于主成分分析和判别分析的白酒品牌鉴别方法[J].农业工程学报,2011, 27(14):297-301.
[5]姜 安,彭江涛,彭思龙,等.酒香型光谱分析和模式识别计算分析[J].光谱学与光谱分析,2010,30(4): 920-923.
[6]陈 华,郁志勇.中国白酒香型的化学模式识别(Ⅱ):聚类分析[J].食品科学,2000,21(8):37-41.
[7]姜 安,彭江涛,彭思龙,等.基于SVM的白酒红外光谱分析方法研究[J].计算机与应用化学,2010, 27(2):233-236.
[8]万益群,潘凤琴,谭 婷.化学计量学用于解析江西白酒的高效液相色谱指纹图谱[J].食品科学,2009, (4):239-242.
[9]霍丹群,尹猛猛,侯长军,等.可视化阵列传感器技术鉴别不同香型白酒[J].分析化学,2011,39(4): 516-520.[10]Donoho D L.Compressed Sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[11]Candès E J.Compressive Sampling[C]//Proceedings of ICM’06.[S.l.]:American Mathematical Society, 2006:1433-1452.
[12]Zhu Ningbo,LiShengtao.AKernel-basedSparse Representation Method for Face Recognition[J].Neural Computing and Applications,2012,24(3/4):845-852.
[13]魏冬梅,周卫东.采用压缩感知的人脸识别算法[J].计算机工程,2011,37(18):10-11,15.
[14]Abdulghani A M,Casson A J,Rodriguez-Villegas E.Compressive Sensing Scalp EEG Signals:Implementations and Practical Performance[J].Medical&Biological Engineering&Computing,2012,50(11):1137-1145.
[15]Mohtashemi M,Walburger D K,Peterson M W,et al.Open-target Sparse Sensing of Biological Agents Using DNA Microarray[J].BMCBioinformatics,2011, 12(1):314.
[16]Griffin A,Hirvonen T,Tzagkarakis C,et al.Singlechannel and Multi-channel Sinusoidal Audio Coding Using Compressed Sensing[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(5): 1382-1395.
[17]沈 跃,刘国海,刘 慧.随机降维映射稀疏表示的电能质量扰动多分类研究[J].仪器仪表学报,2011, 32(6):1371-1376.
[18]Chen S S,DonohoDL,SaundersMA.Atomic Decomposition by Basis Pursuit[J].SIAM Journal on Scientific Computing,1998,20(1):33-61.
[19]Tropp J A,Gilbert A C.Signal Recovery from Random Measurements via Orthogonal Matching Pursuit[J].IEEE Transactions on Information Theory,2007,53(12): 4655-4666.
[20]Needell D,TroppJA.CoSaMP:IterativeSignal Recovery from Incomplete and Inaccurate Samples[J].Applied and Computational Harmonic Analysis,2009, 26(3):301-321.
[21]Du Xiaojiang,Xiao Yang,Dai Fei.Increasing Network Lifetime by Balancing Node Energy Consumption in Heterogeneous SensorNetworks[J].WirelessCommunications and Mobile Computing,2008,8(1):125-136.
编辑 金胡考
Liquor Aroma Classification Based on Compressive Sensing
WANG Haiyan1,2,WANG Hu1,WANG Guoxiang1,LIU Jun1,2
(1.School of Management Science and Engineering,Nanjing University of Finance and Economices,Nanjing 210046,China;
2.Jiangsu Province Institute of Quality and Safety Engineering,Nangjing 210046,China)
Most present liquor classification methods need feature selection,but the feature selection algorithm will increase the computational complexity and limit the number of the characteristics.The selection result directly affects the recognition results.Therefore,this paper applies the Compressive Sensing(CS)theory into holistic analysis for Time-offlight Mass Spectrometry(TOFMS)of liquor.Using the training data to form the over complete dictionary and taking it as a sparse matrix,the Gaussian random matrix builds the measurement matrix.By calculating the minimuml1norm solution,it obtains the sparse representation of the liquor aroma,then realizes liquor aroma recognition based on the KNearest Neighbor(KNN)algorithm.Combining four reconstruction algorithms with minimum residual error and KNN classify liquor aroma,experimental results show that it is feasible to use CS for classification of liquor aroma,and it can avoid the problem of feature selection.Using Sparsity Adaptive Matching Pursuit(SAMP)to solvel1norm and recognition with KNN has a accuracy rate about 91.45%and better stability.
Compressive Sensing(CS);Time-of-flight Mass Spectrometry(TOFMS);sparse representation;liquor aroma;K-Nearest Neighbor(KNN)algorithm;minimum residual error
王海燕,王 虎,王国祥,等.基于压缩感知的白酒香型分类[J].计算机工程,2015,41(3):172-176,181.
英文引用格式:Wang Haiyan,Wang Hu,Wang Guoxiang,et al.Liquor Aroma Classification Based on Compressive Sensing[J].Computer Engineering,2015,41(3):172-176,181.
1000-3428(2015)03-0172-05
:A
:TP18
10.3969/j.issn.1000-3428.2015.03.033
国家自然科学基金资助项目(61373058);国家自然科学基金资助面上项目(71373117);国家重大科学仪器设备开发专项基金资助项目(2013YQ090703);国家质量监督检验检疫总局应急基金资助项目(2012104009);质检公益专项基金资助项目(201410173)。
王海燕(1968-),女,教授、博士,主研方向:模式识别,食品安全工程;王 虎、王国祥,硕士研究生;刘 军,副教授。
2014-03-20
:2014-04-26E-mail:njue2010@163.com