基于改进模糊聚类的烟草品质集成评价模型

2016-08-10 08:04尹梅周国雄
关键词:模拟退火烟草聚类

尹梅,周国雄

(1.湖南工程职业技术学院信息工程系,湖南 长沙 410151;2.中南林业科技大学计算机与信息工程学院,湖南长沙 410004)



基于改进模糊聚类的烟草品质集成评价模型

尹梅1,周国雄2

(1.湖南工程职业技术学院信息工程系,湖南 长沙 410151;2.中南林业科技大学计算机与信息工程学院,湖南长沙 410004)

针对烟草化学成分与烟草品质之间难以建立确定的数学模型的问题,提出了一种基于改进模糊聚类的烟草品质评价方法。该方法以烟叶样品的化学成分的差异性为依据,以模型分类结果与专家评吸结果的一致性为目标,利用模拟退火算法对现有的模糊聚类算法进行优化改进,建立基分类器;在此基础上,利用 AdaBoost将基分类器对于不同样本集的多个分类结果进行集成,形成最终的烟草品质评价模型。以130组烟叶作为烟草样本,测定了各烟叶样品中总糖、还原糖、总氮、烟碱、氧化钾、氯离子、蛋白质7种化学成分含量,并采用改进的模糊聚类方法与神经网络算法、模糊聚类算法进行对比试验,该方法的误检率为6.7%,具有提升小样本数据的辨识能力,优于所比较的其他2种方法。

模糊聚类;模拟退火;专家评吸;烟草品质评价

投稿网址:http://xb.ijournal.cn

烟草中的化学成分十分复杂,它们对人的感官刺激与人的主观感受之间的关系极其微妙,呈弱随机性,使得烟草品质的评价差异性较大。现有的烟草品质评价,大都采用传统的数理统计方法,曹建敏等[1]利用简单相关分析、偏相关分析以及线性回归方法,分析了多种化学物质对烟草品质的影响;李强等[2]对烟草主要化学成分进行主成分分析,建立了烤烟品质的估算方法;于建军等[3]通过相关和回归方法,从7种化学成分及其3种比值中提取了4个对烟草品质影响较大的主因子,这些方法能够明确不同化学成分对烟草品质的影响程度,但难以建立烟草化学成分与其品质之间确定的数学模型,因而无法直接给出评估结果。徐小华等[4]则将支持向量机用于烟草化学成分协调性的分类,陈清等[5]利用人工神经网络对烟草品质进行分类,这些智能计算在一定程度上弥补了传统数理统计的不足,但是对于弱随机性的品质分类准确性仍然不高。

笔者提出了一种基于改进模糊聚类的烟草品质的评价方法:以烟叶样品的化学成分的差异性为依据,以评价结果与专家评吸结果一致性为综合目标,利用模拟退火算法对现有的模糊聚类算法进行优化改进,建立基分类器;在此基础上,利用AdaBoost将基分类器对于不同样本集的多个分类结果进行集成,形成最终的烟草品质评价模型。

1 烟草品质评价原理和方案

选用烟叶中总糖、还原糖、总氮、烟碱、蛋白质、氧化钾、氯离子的含量作为烟草品质主要评价依据,采用多种烟草样本以及专家评价结果建立测量集[6],通过分类算法对样本烟草化学成分进行分析,来评价烟草内在品质的差异性。

基于传统数理统计方法只能分析影响卷烟品质的相关因素,无法建立烟草化学成分与品质之间明确数学模型[7]和评吸专家的感受存在一定的随机性,导致单一的分类模型,往往存在弱学习特性[8],分类结果容易受到影响,导致偏差,提出一种基于改进模糊聚类的烟草品质集成评价方法,算法原理如图1所示,主要分为基于模拟退火优化的模糊聚类烟草品质评价模型和基于 AdaBoost的集成分类优化2部分,前者采用模拟退火算法对传统的模糊聚类算法进行优化,对多组测试样本中的化学成分进行分类,得到若干个单一的烟草品质弱评价模型;在此基础上,利用 AdaBoost对多组分类模型的权重进行迭代计算,最终组合为烟草品质集成评价模型。

图1 基于改进模糊聚类的烟草品质集成评价方法Fig.1 Tobacco quality integrated evaluation method based on improved fuzzy clustering

2 基于改进模糊聚类的烟草品质评价模型

烟草中主要化学成分的含量及比例是评价烟草品质的重要依据,但是由于燃烧过程中各种化学成分间存在相互作用,使烟草品质的评价模型的建立更为困难。

聚类分析是典型的无指导学习算法,具有很强的数据挖掘和知识发现能力,聚类分析能够按照某个特定标准对数据集进行合理划分[9],确定每个对象所属的类别,从而将烟草化学成分这类复杂对象集合,分化成由相似的对象组成的多个类。

2.1模糊聚类分析

式中:uil为隶属度,表示第l个烟叶样品隶属于第i个品质等级的程度,并要满足2个约束条件,即。引入距离),(iixxd'表示任意烟叶样品间的差异度,),(iixxd'采用明考斯基公式[10]来表示。由于不同化学成分对烟叶品质的影响有一定的差异,因此在明考斯基距离的基础上,加入权重因子,以体现不同化学成分对烟叶品质的影响程度,得到

式中:xi、xi'分别表示2个烟叶样品品质等级;d(xi,xi')为 2个样品品质等级的加权明考斯基距离; xij表示第i个烟叶样品的第j个化学成分含量的取值;ωk(k∈[1,p])表示第k个化学成分的品质等级影响权重。

由于不同化学成分的度量单位不一致,会影响烟叶品质聚类分析的结果,为避免这一影响,需要对数据进行标准化处理[11–12]。采用 z–score标准化方法对于各化学成分含量f的度量值进行处理,即

式中:zif为标准化处理后的烟草样本某一等级成分取值;r1f,r2f,…,rnf分别表示N个烟叶样本的某一化学成分的原始含量f数据,mf是rif的平均值。

经过 z–score标准化处理后,以每个烟叶样品品质等级到各个品质等级中心距离之和的最小值为目标,结合式(2),得到如下目标函数。

由此,利用模糊聚类的基本思想,烟草品质的评价问题被转换为式(4)所示的目标优化问题,即通过选取合适的分类中心cjk,使式(4)所示指标达到最优。

2.2基于模拟退火的分类改进

传统的模糊聚类采用K均值法,即采用最小二乘法对(4)式所示目标函数进行求解,寻找权重因子以及聚类中心向量。该方法一方面受到计算法的限制,难以在全局范围类搜索最优的分类结果;另一方面由于仅考虑了烟叶样品的化学成分的差异性,而无法使分类中心符合评吸专家的评定结果。

模拟退火是一种基于种群并行优化的算法,具有易实现、计算效率高等优点[13–14],同时在陷入局部最优问题上有所改善,因此采用模拟退火算法对于分类中心cjk进行选取。

2.2.1实现步骤

第1步,对烟草样本的化学成分含量进行标准化处理。

第2步,建立初始族群,在充分高的初始温度T0条件下,在PM×个烟草品质分类中心cjk系数以及P个权重组成的解空间中,产生N个随机的物质粒子族群γ,每个族群同时随机生成初始解状态S1,S1,…,SN,以及迭代次数 L。

第3步,评价烟草品质,根据准则函数计算种群中各个物质粒子的综合代价J(γn)。

第4步,模型扰动,对族群中的物质粒子按照状态产生函数进行扰动,调整N个粒子的状态值,生成新的粒子γn。

第5步,退火过程,根据退火表对准则函数进行降火。

第6步,判定算法终止条件,判断评价指标J,如J小于0,认定烟草品质分类中心已达到最优,否则按照Metropolis准则对结果进行判断,若满足Metropolis准则,则终止迭代,反之跳入第2步,继续迭代。

第7步,利用迭代得到的最优系数构造烟草品质分类中心,建立烟草品质分类评价模型,完成烟草品质分类。

2.2.2 准则函数选取

在退火算法中,准则函数的取值越小,表示权重和分类中心cjk的取值越优。根据烟草品质评价问题的特点,准则函数的选取既需要考虑烟叶样品的化学成分的差异性,又需要考虑分类结果与评吸专家评定结果的一致性,因此采用式(5)的性能指标。

式中:J为综合准则函数,其由分类距离代价J1与分类准确性代价J2加权组合而成;α和β分别为2种指标的权重系数;2J利用样本的分类误差来度量,其中nl表示第l个等级中,专家认定的样本个数,ln'表示模型分类中与专家评定结果一致的样本个数。

2.2.3温度更新速度

模拟退火算法中,温度更新函数用于外循环中温度值的修改[15],是“金属物质”降温方式的数学表示,它直接决定了烟草品质评价算法的收敛速度。

2.2.4状态产生函数

模拟退火算法的搜索能力决定于状态产生函数的选取,应尽可能同时保证搜索的全局性和随机性。为了达到这一目的,引入混沌因子对物质粒子的状态进行扰动[16]。

式中:px是某一时刻准备进行迭代生成新状态的原始物质粒子状态;xp'是即将产生的新物质粒子状态;Logistic为混沌扰动因子。

3 基于AdaBoost的烟草品质集成分类

专家评吸对烟草品质评价的结果受到很多因素的影响,单一烟草样本集的品质评价模型,难以克服评价样本的弱随机性,容易出现误判。AdaBoost集成分类方法,能够将多个精度相对较低的弱分类算法进行综合考虑,构造出精度较高的强分类算法,提升分类精度,因此将改进模糊聚类算法与AdaBoost相结合,用于烟草品质评价。

基于AdaBoost的模型集成分类算法[17],是利用改进模糊聚类算法作为基分类器,通过单个基分类器的分类结果误差为依据,加权建立最终的烟草品质评价模型[17]。首先根据改进模糊聚类算法的分类误差计算样本权重;其次利用加权后的烟草样本进行模糊聚类分析,得到对应的烟草品质评价模型,同时更新该分类模型的模型权重;根据模型精度以及迭代次数检查收敛条件。如满足迭代结束条件,则根据模型权重和各次烟草品质分类模型生成最终的集成烟草品质评价模型,否则开始新一轮的迭代。

AdaBoost方法的实现:

第1步,设m个初始学习的化学成分样本集为{M},各个样本集的初始权重Mddd,,,21…相同,均设置为1/M。

第2步,利用模拟退火算法优化模糊聚类算法,分别对m个烟草训练样本集进行训练,获得第t次的烟草品质评价模型ht。

第3步,记录本次烟草品质评价模型ht,计算并保存第t次烟草品质评价模型ht的权重tω,根据第2步得到的烟草品质评价模型的分类误差,判定收敛标准,若满足收敛条件,进入第5步;否则进入第4步。

第4步,根据烟草品质评价模型对m个训练集分类误差绝对值的和,计算样本权重,计算新的样本集,返回第2步,开始新一轮迭代。

3.1模型权重的计算

烟草品质评价模型的权重tω的计算,直接影响最终评价模型的准确性[19]。为了增加误差较小的烟草品质评价模型在最终模型中的权重,采用分类误差相对值进行权重的更新。

式中:yt(k)表示各个烟草训练集原始分类结果;Et表示第t次迭代计算的烟草品质评价模型ht的错误率,相对所有烟草品质评价模型对各个烟草训练集的加权方差总和的比例,即相对误差;βt为调节因子;ωt为第t次迭代得到的烟草品质评价模型对最终预测模型的影响权重值。

3.2样本权重的计算

在评吸过程中,品质评价结果必然会受到评吸专家个人主观因素的影响,存在异常评价的样本,为了有效降低错误样本对烟草品质评价模型的影响,提升正确样本的贡献,需要对样本权重值进行调节。采用分类误差绝对值作为衡量样本权重的依据,通过权重计算和归一化2个步骤,计算样本的权重。

式中: Et表示第t次迭代计算的烟草品质评价模型ht的错误率,相对所有烟草品质评价模型对各个烟草训练集的加权方差总和的比例,即相对误差;dt'+1(k)表示新的样本权重值。

由于样本权重值总和必须为 1,需要进行归一化处理。

4 仿真与试验

为了验证方法的有效性,采用真实的烟草样本数据对基于模拟退火的改进模糊聚类算法和基于AdaBoost集成分类算法进行仿真试验。

烟草样本为来自于山东、山西、云南、四川、陕西、广西、贵州和江西8省的130组烟叶,测定了各烟叶样品中总糖、还原糖、总氮、烟碱、氧化钾、氯离子、蛋白质7种化学成分含量,与多位评吸专家给出的品质评定结果组成试验样本集。随机抽取其中的 3 0组样本作为验证样本,其余的 1 00组作为学习样本。

4.1改进模糊聚类算法的仿真

采用MATLAB仿真软件,对基于模糊聚类的烟叶品质评价方法进行仿真;同时采用模拟退火方法对模糊聚类的分类中心进行优化。模拟退火的冷却参数α=0.9,初始温度T0=1 000,群体规模N=20,其中分类中心 cjk和权重采用实数编码,分别占 16位。最大迭代次数为8。

为了说明改进效果,将改进模糊聚类算法和单纯的模糊聚类算法,对相同烟叶样本进行分类分析,得到的不同样本数量条件下,验证样本品质分类精度如图2所示。不难看出,基于模拟退火优化的模糊聚类方法的分类精度具有明显优势,随着样本数量的不断增加,模拟退火–模糊聚类对烟叶样本的分类精度不断提高,当样本数大于 6 5后,模糊聚类–模拟退火算法的平均分类误差在 15%以内,优于传统的模糊聚类算法的分类结果。

图2 分类误差对比曲线Fig.2 Classification error contrast curve

4.2基于AdaBoost的集成分类仿真

以改进模糊聚类算法为基分类器,利用MATLAB,按照AdaBoost方法进行集成分类。经过多次试验发现,AdaBoost算法的迭代次数以及单次训练的样本数量是决定分类精度的关键因素。

若单次分类参与的样本数较少,为了涵盖所有样本,必然要求 AdaBoost迭代次数增加,迭代次数增加能够提升算法的精度,但由于单次样本数量较少,其分类的精度可能仍然不高;反之,若单次分类选用的样本数较多,算法的运算量呈指数级增加,各次训练的差异将不明显。集成分类仿真结果表明,AdaBoost算法的迭代次数为11次,单次训练的样本数为12时,分类精度较高。

表1是专家对于30组验证样本所作出的烟草品质评定结果。表2是采用算法所得到的品质评价结果。对比表1和表2,可以看到,利用所建立算法得到的结果与专家评定结果差异较小,准确性较高。

表1 30组验证样本的专家评吸结果Table 1 The results of expert evaluation for 30 groups of validation samples

表2 30组验证样本的改进模糊聚类算法的评级结果Table 2 The experimental results of the 30 sets of validation samples by the improved fuzzy clustering algorithm

为了进一步说明所采用算法的优势和有效性,采用SVM、神经网络、模糊聚类对100组烟叶样本集进行学习,建立评价模型,利用评价模型对验证样本进行分析,30组验证样本的评级结果列于表3。

表3 烟草品质评价对比Table 3 Comparison results for tobacco quality evaluation

改进的模糊聚类算法的评级结果与专家评吸结果基本一致,误检率为6.7%,因此在检测的准确性方面优于其他2种算法。这主要是由于将模拟退火算法与模糊聚类算法相结合,提升了小样本数据的辨识能力,同时利用 AdaBoost方法,降低了评吸专家对烟草品质评定过程的主观性对分析结果的影响,因此在样本相同时,检测的误检率远小于其他2种缺陷辨识算法。

[1] 曹建敏,刘帅帅,邱军.烤烟重要致香物质与评吸质量的相关性研究[J].中国烟草科学,2012,12(6):65–68.

[2] 李强,周冀衡,杨荣生.基于主成分回归的曲靖 C3F等级烤烟评吸质量估算模型[J].中国烟草学报,2011,24(1):42–45.

[3] 于建军,闫鼎,叶贤文.重庆地区烤烟主要化学成分与评吸质量分析[J].浙江农业学报,2010,32(10):22–25.

[4] 徐小华,胡晓飞,全晓松,等.支持向量机对烟草化学成分协调性的分类应用[J].江苏农业科学,2014,42(7):431–432.

[5] 陈清,刘巍,钟科军.基于烟草中致香成分的人工神经网络分类模型[J].湖南大学学报(自然科学版),2009,23(2):56–64.

[6] 殷勇.烟草成分对其香级影响程度的粗糙集判别方法[J].农业机械学报,2010,16(5):36–42.

[7] 李恒,罗华元,王玉,等.烤烟致香成分与评吸质量的相关性分析[J].昆明学院学报,2008,30(4):37–40.

[8] 汤朝起,刘颖,束茹欣.应用在线近红外光谱分析复烤前后原烟及片烟的质量特性[J].光谱学与光谱分析,2014,24(12):45–48.

[9] Zhao Feng,Jiao Licheng,Liu Hanqiang.Kernel generalized fuzzy C–means clustering with spatial information for image segmentation[J].Digital Signal Processing,2013,16(1):63–67.

[10] Zeng Shan,Tong Xiaojun,Sang Nong.Study on multicenter fuzzy C–means algorithm based on transitive closure and spectral clustering[J].Applied Soft Computing Journal,2014,18(5):25–31.

[11] Benaichouche A N H,Siarry Oulhadj P.Improved spatial fuzzy C–means clustering for image segmentation using PSO initialization,Mahalanobis distance and postsegmentation correction[J].Digital Signal Processing,2013,18(5):33–36.

[12] Zhao Xinchao.Simulated annealing algorithm with adaptive neighborhood[J].Applied Soft Computing Journal,2010,26(2):56–62.

[13] Leung Stephen C H,Zhang Defu,Zhou Changle,et al. A hybrid simulated annealing metaheuristic algorithm for the two-dimensional knapsack packing problem[J].Computers and Operations Research,2010, 26(1):42–45.

[14] 葛洪伟,王银年.求解VRPSDP问题的改进模拟退火遗传算法[J].计算机工程与应用,2010,32(30):48–52.

[15] 袁泉.Adaboost组合分类模型在信用评估领域应用研究[D].哈尔滨:哈尔滨工业大学,2011.

[16] 付忠良,赵向辉,苗青,等.AdaBoost算法的推广——一组集成学习算法[J].四川大学学报(工程科学版),2010,16(6):36–39.

[17] 陈春萍.基于SVM与AdaBoost组合的分类算法研究[D].西安:西安电子科技大学,2012.

责任编辑:罗慧敏

英文编辑:罗 维

An improved fuzzy clustering-based ensemble evaluation model for tobacco quality

Yin Mei1, Zhou Guoxiong2
(1.Department of Information Engeering, Hunan Vocational College of Engineering, Changsha 410151, China; 2.School of Computer and Information Engineering, Central South University of Forestry & Technology, Changsha 410004, China)

To solve the difficulty in establishing the mathematical model of the cigarette chemical composition and tobacco quality, an improved fuzzy clustering-based ensemble evaluation model for tobacco quality is proposed. The method first determined the differences in chemical components among tobacco samples, and to obtain consistency results between model classification and expert evaluation results, simulated annealing algorithm was used to optimize the existing fuzzy clustering algorithm, and base classifier was established. On this basis, multiple classification results for different sample sets by the classifiers were integrated using the AdaBoost, and the final tobacco quality evaluation models was formed. The contents of 7 kinds of chemical composition including total sugar, reducing sugar, total nitrogen, nicotine, potassium ion, chlorine ion and protein in 130 group of tobacco leaf were determined, contrast experiment is done by the improved fuzzy clustering method, neural network algorithm and fuzzy clustering algorithm, the results showed that the error detection rate of the improved fuzzy clustering method is 6.7%, indicating the improved method has the ability to recognize small sample data, and is superior to the other compared methods.

fuzzy clustering; simulated annealing; expert evaluation; tobacco quality evaluation

尹梅(1983—),女,广西桂林人,硕士,讲师,主要从事电子信息工程技术及自动控制研究,21298544@qq.com

TP273+.21

A

1007-1032(2016)04-0359-06

2015–06–15 修回日期:2016–05–08

国家自然科学基金项目(60975049)

猜你喜欢
模拟退火烟草聚类
结合模拟退火和多分配策略的密度峰值聚类算法
基于改进模拟退火的布尔函数生成算法
CORESTA 2019年SSPT联席会议关注新烟草、吸烟行为研究和雪茄烟
基于K-means聚类的车-地无线通信场强研究
改进模拟退火算法在TSP中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
烟草依赖的诊断标准
基于模拟退火剩余矩形算法的矩形件排样
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法