基于隐马尔可夫模型的乳制品种类判别

2017-12-18 11:10,,,,
食品工业科技 2017年23期
关键词:乳品乳制品预处理

, ,, ,

(南京农业大学工学院,江苏南京 210031)

基于隐马尔可夫模型的乳制品种类判别

赵盈盈,罗慧*,肖鹏飞,卢伟,崔梦洁

(南京农业大学工学院,江苏南京 210031)

为构建基于光谱分析和隐马尔科夫模型的乳制品种类判别的新方法,首先采集4种乳制品的光谱数据样本,其次分别采用小波变换法、多点平滑法和多元散射校正法对光谱数据进行预处理,通过主成分分析法提取样本数据主特征。将处理后的数据分成两个集合,一部分数据用于训练隐马尔科夫分类模型,其余数据进行测试。实验对15种不同数据处理条件下的数据进行了测试,结果表明不同预处理和特征维度会影响分类模型的检测精度,平均检测结果达到99%以上,隐马尔科夫模型用于乳制品种类判别具有较稳定的判别准确性。

光谱分析,乳制品种类判别,主成分分析法,隐马尔可夫模型

乳品是现代人生活中不可或缺的重要食品之一,然而乳品安全问题层出不穷,这些问题不仅损害了乳品行业的形象,更损害了消费者的利益[1]。不同类别乳制品中乳蛋白含量明显不同,乳品中各项营养成分也与其类别息息相关[2],对乳品进行质量检测和品种鉴别具有重要的现实意义。

在乳品检测中光谱分析技术已被验证是一种有效的检测方法,该方法具有速度快、效率高、分析成本低、无污染、测试重现性好等特点,是目前该领域的研究热点。在国外,Cassoli、González-Martín和Kawamura等学者将红外光谱技术应用到乳品浓度检测、脂肪等物质含量检测、乳品等级检测等方面[4-7]。 在国内,鲁超、吴迪、何勇等研究学者也将光谱技术如近红外和中红外光谱用于乳品成分检测和品种判别中[8-10]。现有的基于光谱技术的乳品检测方法中神经网络法[10-12]、偏最小二乘法[13-14]和支持向量机法[15]等模式识别方法常用于乳品种类判别,这些方法主要是基于机器学习的模式识别法,这类方法具有很强的非线性拟合能力,可映射任意复杂的非线性关系,学习规则简单,然而对于一些复杂问题,算法收敛速度慢,模型训练时间长,模型参数并不能保证全局最优,模型判别性能不稳定。

本实验研究一种基于光谱分析和隐马尔可夫模型(Hidden Markov Model,HMM)的乳品种类判别方法,这种方法是基于统计分析的乳品判别方法。HMM用来描述一个含有隐含未知参数的马尔可夫过程[16-18],是一个输出符号序列的统计模型,具有二重随机性,算法效率高,易于训练,且不需要训练全局最优参数,模型性能稳定[19-20]。本实验中采集不同乳制品的光谱样本,通过小波变换等三种方法对数据样本进行预处理,并用主成分分析提取光谱样本主要特征信息,分析了不同种数据条件下HMM乳品分类的准确性。

1 材料与方法

1.1 材料与仪器

牛奶样品 购自南京市沃尔玛超市,保鲜冷藏(牛奶品牌为蒙牛乳业,酸奶品牌为莫斯利安)。

PC4000型光纤光谱仪 上海闻奕光电科技有限公司;FSH-2A型号牛奶均质机 浙江金坛新瑞有限公司。

1.2 实验方法

1.2.1 光谱采集 样本选自4种不同种类的乳制品,分别为核桃牛奶、酸奶、全脂纯牛奶和低脂纯牛奶。实验室的温度保持在25±1 ℃。所有乳制品用均质机均质,使乳制品中各成分分布均匀。样本放置于光程1 mm的石英比色皿中,并占比色皿容积的3/4。使用光纤光谱仪对样本进行漫透射,每种乳制品采集200组样本光谱,共800组样本。测定背景光谱消除背景噪声,每个样本测定3次取平均光谱,截取波长在600~800 nm间的光谱数据作为原始光谱数据。

1.2.2 数据处理 本实验对采集的光谱数据进行预处理,以消除背景噪声、光的杂散射、样品状态和仪器状态等因素的影响,实验中采用了3种预处理方法,分别是小波变换、平滑处理和多元散射校正。将预处理后的数据进行PCA特征降维后,一部分样本训练HMM模型,剩余样本进行测试,所有数据处理采用Matlab软件编程实现,数据处理的流程如图1所示。

图1 数据处理的流程图Fig.1 Flow chart of data processing

小波变换能够提供一个随频率改变的“时间-频率”窗口,可对信号进行时频分析和处理[11]。本实验采用sym8小波5层变换,它的主要特点是左右对称性好,在sym小波的应用中最为广泛。平滑处理能够减少测量数据中的统计误差,多用于无法多次测量求平均和有陡然变化的情况[21-22],本实验中采用移动平均法对数据进行平滑处理。多元散射校正能够有效地消除散射对原始光谱的影响,提高光谱的信噪比,增强与成分含量相关的光谱的信息吸收[23]。PCA是将原特征进行线性变换、映射至低纬度空间中,可用于提取数据的主要特征分量[23],本实验对预处理后的光谱数据分别进行10维、30维、50维、100维和200维的降维处理,计算不同维数样本的特征累计贡献率,降维后的数据用于HMM模型建立和测试。

1.2.3 HMM模型 建立HMM是用来描述含有隐含未知参数的马尔可夫过程的统计模型。HMM是马尔可夫链的一种,它的状态需要通过观测向量序列来观察,每个观测向量由一个具有相应概率密度分布的状态序列产生并表现出来[24-26]。HMM由2个状态集合和3个概率矩阵共5个元素进行描述,其中状态集为隐含状态集和观测状态集,概率矩阵为初始状态概率矩阵、隐含状态转移概率矩阵和观测状态转移概率矩阵[19]。

(1)隐含状态Q通常无法通过直接观测得到,n为可能的状态数。

Q={q1,q2,…,qn}

式(1)

(2)观测状态O在模型中与隐含状态相关联,可直接观测得到,m为可能的观测数。

O={o1,o2,…,om}

式(2)

(3)初始状态概率矩阵π表示隐含状态在初始时刻的概率矩阵。

π=(πi)

式(3)

式(3)中,πi=P(i1=qi),i=1,2,…,n是时刻t=1处于状态qi的概率。

(4)隐含状态转移概率矩阵A描述了HMM模型中各状态之间的转移概率。

A=[aij]n×n

式(4)

式(4)中,aij=P(it+1=qj|it=qi),i,j=1,2,…,n是时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率。

(5)观测状态转移概率矩阵B是生成观测状态的概率。

B=[bij]n×m

式(5)

式(5)中,bij=P(oj|qi),i=1,2,…,n,j=1,2,…m是时刻t且隐含状态是qi的条件下,观测状态是oj的概率。

建立HMM乳制品种类判别模型时,将训练数据集作为观测向量,根据训练数据集中的最大值和最大值与最小值之间的数值数,确定观察数和状态数。用训练数据集训练隐含状态矩阵得到HMM种类判别模型,代入测试数据集进行测试。

实验中将三种预处理后的光谱数据分别提取10维、30维、50维、100维和200维PCA特征值,从每类乳制品的200组样本数据中随机抽取50组作为训练数据集对HMM进行训练,用训练后的HMM测试剩余的150组样本数据。计算匹配度表示乳品种类判别的准确率,其中匹配度是通过计算训练后的HMM参数与测试数据集之间的对数似然率得到。实验中HMM模型的观察数为50组数据中的最大值,状态数为50组数据中最大值与最小值之差加1。

2 结果与分析

2.1 光谱数据采集

本实验共采集800组乳制品样本的光谱数据,每种乳制品有200组,原始光谱如图2所示。

图2 原始样品的光谱图Fig.2 Original sample spectrum

2.2 数据预处理结果

图3~图5显示了原始光谱数据分别经小波变换、平滑处理和多元散射校正处理后的结果,每类乳制品有200组光谱数据。

图3 小波变换处理后的光谱图Fig.3 Sample spectrum by the processing of wavelet transform

图4 多点平滑移动平均法处理后的光谱图Fig.4 Sample spectrum by the processing of multi-point smoothing-moving average

图5 多元散射校正处理后的光谱图Fig.5 Sample spectrum by the processing of multivariate scattering correction

2.3 数据降维结果

预处理后的光谱数据为776维,为降低数据复杂度并减少运算时间,对其进行10维、30维、50维、100维和200维的PCA降维处理,计算不同维数特征的累计贡献率,用于分析提取主特征后特征样本对原始特征的表现特性,结果如表1所示。

表1 PCA降维结果Table 1 Results of PCA

2.4 数据测试结果

本实验在15种不同数据处理条件下对4类乳制品的600组样本进行了测试,每类乳制品测试样本为150组。HMM模型对乳制品种类判别的结果如表2所示。由表2可知,60次训练和测试的平均结果达到了99%以上。

三种不同预处理方法得到的乳制品判别准确率如表3所示,3种预处理方法得到的准确率均大于98%。

5种不同PCA降维得到的乳制品种类判别准确率如表4所示。在200维特征条件下准确率均达100%。该结论也可由表1得到,在200维特征条件下,其PCA的累计贡献率为100%。

表2 15种处理条件下的乳制品判别准确率Table 2 Classification accuracy of dairy products under 15 kinds of treatment conditions

表3 3种预处理方法的乳制品判别准确率Table 3 Classification accuracy of dairy products with 3 pretreatment methods

3 结论与讨论

3.1 讨论

本实验的结果从三个方面进行讨论。1)光谱数据的预处理方法对HMM的种类判别准确率有影响。小波变换预处理后的光谱样本得到的判别准确率最低,测试数据集的结果为98.93%,多元散射校正得到的准确率最高,测试集和训练集的结果分别为99.80%和99.87%,因此多元散射校正预处理方法用于HMM模型的光谱数据处理效果最佳。2)PCA特征提取的维数会影响HMM的乳品种类判别准确率。PCA特征提取的维度越高,处理后的光谱特征数据含有的有效特征成份越多,HMM的种类判别准确率越高,随着主特征维度的增加,累计贡献率相应增大,当特征提取维数达到200维时,3种预处理方法后的PCA累计贡献率达到100%,对应的HMM模型的种类判别准确率也最高。3)4种乳制品的60组测试数据的平均准确率均大于99%,实验结果表明基于HMM和光谱分析的乳制品检测方法是可行的,且具有较高的判别准确率。

3.2 结论

与传统的基于机器学习和模式识别的乳品检测方法不同,本实验首次将基于统计学习的HMM应用到乳品种类检测中。本实验方法构建一个基于随机序列分析的HMM统计模型,算法效率高,模型收敛速度快,不需要搜索全局最优参数,通过计算HMM参数与测试数据集之间的对数似然率判断判别的准确性,在不同数据处理条件下,本实验中的HMM均具有较高的准确率,可见基于统计分析的HMM具有稳定的判别性能,能够有效对乳制品进行种类检测。本实验方法对于基于光谱数据用于乳品识别的相关研究工作具有一定的参考价值。

[1]孙红敏,金庆谊,李晓明,等. 基于ARM的近红外原料奶成分检测设备研发[J]. 东北农业大学学报,2014(8):103-109.

[2]李双红,刘永峰,韩裕睿,等. 不同胎次奶牛乳中乳蛋白含量的近红外光谱定量分析[J]. 食品工业科技,2014,35(4):60-65.

[3]李长滨,张荷丽,王姗姗,等. 近红外光谱技术在食品品质方面的应用[J]. 食品研究与开发,2015(10):98-101.

[4]Cassoli L D,Sartori B,Machado P F. The use of the Fourier Transform Infrared spectroscopy to determine adulterants in raw milk[J]. Revista Brasileira De Zootecnia,2011,40(11):2591-2596.

[5]Gonzálezmartín I,Hernándezhierro J M,Revilla I,et al. The mineral composition(Ca,P,Mg,K,Na)in cheeses(cow’s,ewe’s and goat’s)with different ripening times using near infrared spectroscopy with a fibre-optic probe[J]. Food Chemistry,2011,127(1):147-152.

[6]Kawamura S,Kawasaki M,Nakatsuji H,et al. Near-infrared spectroscopic sensing system for online monitoring of milk quality during milking[J]. Journal of Food Measurement and Characterization,2007,1(1):37-43.

[7]Masataka K,Shuso K,Maki T,et al. Near-infrared spectroscopic sensing system for on-line milk quality assessment in a milking robot[J]. Computers & Electronics in Agriculture,2008,63(1):22-27.

[8]鲁超,皮付伟,刘毅,等. 基于牛乳加工工艺的NIRS研究[J]. 光谱学与光谱分析,2008,28(1):84-87.

[9]吴迪,曹芳,冯水娟,等. 基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的应用[J]. 光谱学与光谱分析,2008,28(5):1071-1075.

[10]何勇,冯水娟,李晓丽,等. 应用近红外光谱快速鉴别酸奶品种的研究[J]. 光谱学与光谱分析,2006,26(11):2021-2023.

[11]王磊,郭中华,金灵,等. 基于近红外光谱技术乳制品品种快速无损鉴别[J]. 激光与红外,2013,43(10):1133-1137.

[12]方雄武,王田子,郑丽敏. 基于近红外透射技术的乳制品成分含量检测[J]. 中国奶牛,2015,306(22):30-34.

[13]Luo W,Huan S,Fu H,et al. Preliminary study on the application of near infrared spectroscopy and pattern recognition methods to classify different types of apple samples[J]. Food Chemistry,2011,128(2):555-561.

[14]Viegas T R,Mata A L,Duarte M M,et al. Determination of quality attributes in wax jambu fruit using NIRS and PLS[J]. Food Chemistry,2016,190:1-4.

[15]杨延荣,杨仁杰,张志勇,等. 基于参量化二维相关红外谱和最小二乘支持向量机判别掺杂牛奶[J]. 光子学报,2013,42(9):1123-1128.

[16]李和平,胡占义,吴毅红,等. 基于半监督学习的行为建模与异常检测[J]. 软件学报,2007,18(3):527-537.

[17]Netzer O,Lattin J M,Srinivasan V. A Hidden Markov Model of Customer Relationship Dynamics[M]. INFORMS,2008.

[18]王岳斌,阳国贵,邝祝芳. 基于HMM的数据库异常检测系统设计与实现[J]. 计算机应用与软件,2009,26(1):96-99.

[19]腾格尔,贺昌政,蒋晓毅. 隐马尔可夫模型研究进展及其管理领域应用[J]. 软科学,2012,26(2):122-126.

[20]朱明,郭春生. 隐马尔可夫模型及其最新应用与发展[J].计算机系统应用,2010,19(7):255-259.

[21]王明,于峰,刘新,等. 采用近红外漫反射技术对牛奶中蛋白质、脂肪检测[J]. 激光杂志,2015(1):70-73.

[22]王林舸,籍保平,庆兆砷,等. 基于不同波段近红外光谱的原料奶主要成分品质检测研究[J]. 中国食物与营养,2011,17(8):52-55.

[23]穆海波,殷秀秀,艾连中,等. 基于傅里叶变换红外光谱技术和软独立模式分类法的牛奶分类识别[J]. 乳业科学与技术,2012,35(2):34-37.

[24]岳夏. 基于HMM的复杂条件故障诊断技术研究[D]. 广州:华南理工大学,2012.

[25]Zhang Y,Wu S,Luo Y. Applications and recognition of gesture trajectory using HMM[J]. Bandaoti Guangdian/Semiconductor Optoelectronics,2015,36(4):650-656.

[26]刘宝菊. 基于HMM的商标词识别研究与应用[D]. 成都:西南交通大学,2016.

ClassificationofdairyproductsbasedonHiddenMarkovModel

ZHAOYing-ying,LUOHui*,XIAOPeng-fei,LUWei,CUIMeng-jie

(Department of Electrical Engineering,Nanjing Agricultural University,Nanjing 210031,China)

A new method was studied for determining the classification of dairy products based on spectrum analysis and Hidden Markov Model(HMM). Firstly,the spectrum data were collected,which sampled from 4 kinds of dairy product. Secondly,wavelet transform method,multi-point smoothing method and multivariate scattering correction method were used to preprocess spectral data,and the main characteristics of sample data were extracted by principal component analysis(PCA). Then,the processed data was divided into two collections,part of which was used to train the Hidden Markov classification model(HMM)and the residual data was tested. The experiment results under 15 processing conditions showed that different pretreatment methods and main feature dimensions of PCA could affect the detection accuracy of the classification model. The experimental average result was more than 99%. In conclusion,HMM could be used in dairy products classification and had a stable classification accuracy.

spectrum analysis;classification of dairy products;principal component analysis(PCA);Hidden Markov Model(HMM)

2017-05-05

赵盈盈(1996-),女,本科,研究方向:基于光谱技术的农产品检测,E-mail:xsclmy@163.com。

*通讯作者:罗慧(1982-),女,博士,讲师,研究方向:农产品检测,E-mail:lh821005@njau.edu.cn。

国家自然科学基金青年基金项目(61401215);江苏省自然科学基金青年基金项目(BK20130696);中央高校基本科研业务经费专项基金项目(KYZ201763)。

TS252

A

1002-0306(2017)23-0064-05

10.13386/j.issn1002-0306.2017.23.014

猜你喜欢
乳品乳制品预处理
乳品加工的关键技术及主要设备
2018年1~2月乳制品产量同比增长8%
乳品检测中的问题及措施
基于预处理MUSIC算法的分布式阵列DOA估计
通过乳制品源头控制提高原料奶品质的措施
杜马斯燃烧法快速测定乳制品的含氮量
图形在乳制品包装设计中的应用分析
浅谈PLC在预处理生产线自动化改造中的应用
消费者进口乳品的安全选择
络合萃取法预处理H酸废水