张忠良,汤建国,乔丹娜,雒兴刚*,赵 亮,唐加福
(1.东北大学信息科学与工程学院,沈阳 110819;2.云南中烟工业有限责任公司技术中心,昆明 650231)
基于代价敏感学习的卷烟感官质量评估方法
张忠良1,汤建国2,乔丹娜2,雒兴刚1*,赵亮1,唐加福1
(1.东北大学信息科学与工程学院,沈阳 110819;2.云南中烟工业有限责任公司技术中心,昆明 650231)
针对卷烟感官评估中存在的代价敏感问题,将基于代价敏感的反馈神经网络应用于卷烟感官评估中。为了验证方法的有效性,结合烟草企业生产实际设置代价矩阵,并利用烟草公司提供的数据进行了对比试验。结果表明,与代价不敏感方法相比,本方法在错分总代价,高代价类别识别率以及平均分类准确率3个方面均有显著改善。
分类算法;代价敏感;感官评估;神经网络;卷烟
感官质量评估被广泛地应用于食品生产和设计中,例如红酒[1]、卷烟[2]、咖啡[3]和啤酒[4]等。Stone等[5]将感官评估定义为:“感官评估是一门通过视觉、嗅觉、味觉、触觉和听觉来唤起、测量、分析以及解释产品或材料特性的科学学科”。显然,感官评估依赖于专家的经验和知识。
目前,烟草及其制品主要通过品烟专家的感官评吸对卷烟产品感官质量进行评价。然而,这种完全依赖人工方式的感官评估存在诸多不足。评估结果容易受到专家知识结构、情感以及周围环境等因素的影响,往往带有模糊性和不精确性,并需要花费大量的时间和财力。而且卷烟感官评估对品烟专家的身体健康会产生一定负面影响。
近年来随着信息化水平的提高,卷烟企业积累了大量的数据。为了克服上述所提到的关于专家评估的不足,相关研究人员开始采用数据挖掘的手段辅助专家感官评估[6-9]。然而,所有的这些研究都是基于错分代价一致的前提下展开的。
事实上,在卷烟感官评估中,错分代价也是不一致的。例如,在新产品的开发中,错分可行方案的代价远远大于错分不可行方案,因为错分符合要求的叶组配方将导致可行方案的流失。另外,将高品质的烟叶错分为低品质的烟叶的代价也远远大于相反情况,因为高品质的烟叶一般为稀缺资源。因此,有必要研究代价敏感的卷烟感官评估方法。本文考虑采用基于代价敏感的神经网络应用于卷烟感官质量评估中。试验结果表明,基于代价敏感的神经网络在错分总代价、高代价类别识别率以及平均分类准确率3个方面均有显著改善。利用该方法可以辅助感官评吸工作,减少感官评吸专家的工作量,从而提高烟草企业在新产品开发和产品维护中的效率。
1.1材料
试验数据来源于国内某烟草集团2010—2012年的成品烟化学成分检测和感官质量评估结果,共684组数据。其中化学成分包括总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、氨态碱13项指标,作为模型的输入属性;感官质量评估指标包括光泽、香气、谐调、杂气、刺激性、余味6项,作为模型的输出属性。数据均为多名卷烟感官评估专家评吸后给出的平均结果。每一项指标分别作为决策属性,因此本文考虑6组数据集。专家打分依据的感官质量评判标准如表1所示。各感官指标分值原始数据分布情况如图1所示。
1.2方法
表1 卷烟感官质量评判标准Table1 Evaluation criteria of cigarette sensory quality
图1 各感官指标结果分布情况Fig. 1 The distribution of the values of sensory evaluation indices
1.2.2基于代价敏感的神经网络 本文采用文献[10]提出的基于代价敏感的神经网络运用于卷烟感官评估中。在这里作简单阐述。
过抽样(Over-sampling):基于代价敏感的过抽样方法试图通过改变训练样本分布从而使得每个样本的错分代价一致。具体地,该技术根据样本的错分代价按一定比例复制代价较低的样本。首先,识别具有最小单位代价的类别。根据文献[10],使用公式4识别基准类别。
欠抽样(Under-sampling):和过抽样策略类似,基于代价敏感欠抽样技术也是通过改变样本分布从而使得每个样本的错分代价一致。不同的是,这种方法通过删除代价相对较低的样本达到这种效果。具体地,同样根据公式5计算第个类别对应的样本数量。在基于代价敏感的欠抽样方案中,根据公式6识别具有最大单位代价的类别。
在训练阶段,基于阈值偏移的代价敏感神经网络和传统的神经网络没有区别,但是在预测阶段,前者采用阈值偏移的方式使得输出结果更偏向于错分代价较高的类别。
2.1数据预处理
由于卷烟感官评估结果是由多名专家评分后取平均值得到的,因此我们得到的数据表中感官指标的数值不是离散值。另一方面,每个专家基于表1以0.5为分段进行打分,评估结果实际为离散量,因此我们需要对感官结果进行离散化处理。感官评估指标的离散化方法如表2所示。以光泽为例,将得分在[0, 2.75]区间内的样本归为一类,属于该类的样本光泽暗淡,然后将(2.75, 3.25]分为一类,以此类推,每隔0.5为一个间隔,最终得到整个区间的划分。
表2 卷烟感官指标离散化情况Table2 Description of discretization of cigarette sensory index
由表2方法离散化后的6组数据集的基本信息如表3所示,由于在表2中某些区间内不存在样本,所以表2和表3相应数据集中的类别数不一定一致。此外,在进行试验之前,需要对每一个条件属性进行归一化处理,计算如下:
根据文献[12],本文采用5次5折交叉验证的方法进行实验,即试验时将全部数据样本随机分为5份,每次取其中的4份进行训练,其余样本作为测试集,计算错分代价。重复进行5次这样的试验,5次的平均结果作为最终分类器的错分代价。
表3 感官指标各数据集信息Table3 Information of sensory evaluation datasets
2.2 代价矩阵设置
我们通过在烟草企业对卷烟设计和生产过程的调研发现:一方面,卷烟配方感官品质的优劣决定该配方用于何种档次的卷烟生产,卷烟配方的感官品质越好,则对应生产的卷烟价格越高;另一方面,高感官品质的卷烟配方是稀缺的,卷烟配方实际是多个单料烟的混合物,不同单料烟的组合得到的卷烟配方的感官品质是不同的,而高感官品质的卷烟配方往往较难获得。因此,通过与烟草企业研究人员进行讨论,我们确定了如下的代价矩阵设置原则:当高感官品质的卷烟配方错分为低品质的卷烟配方时,赋予较高的错分代价;反之,则赋予单位代价。以香气为例,假如我们现在有两个卷烟配方样本a和b,其对应的香气指标的分值分别为26和32,如果将样本b的香气指标错误地预测为26,则我们会错失一个高香气品质的卷烟配方,因此赋予较大的错分代价;反过来,如果将样本a的香气指标错误地预测为32,只需人工进一步验证确认即可,不会造成损失,因此赋予较小的错分代价(单位代价)。基于上述事实,我们采用如下方式产生代价矩阵:
2.3参数设置
在本文中,BP神经网络作为基本分类器训练基于代价敏感的分类器,神经网络具有三层结构,在隐含层和输出层我们均采用‘logsig’作为传递函数,隐含层节点数设置为10,训练次数设置为200。需要说明的是,本文的目的是为了说明基于代价敏感的神经网络在卷烟感官质量评估中的有效性,为卷烟生产企业设计开发智能感官评估系统提供借鉴,因此并没有进行参数设置的优化,事实上,由于各个企业历史数据和产品的不同,需要根据企业自身实际情况进行参数的选择。
2.4试验结果
本文采用分类器错分总代价、高代价类别分类准确率以及平均分类准确率作为衡量不同方法性能的三个指标,其中错分总代价是指所有错分样本所产生的错分代价,高代价类别分类准确率是指错分代价最大的类别的预测准确率,平均分类准确率是指各个类别的分类准确率的平均值,因此,错分总代价越低,高代价类别分类准确率和平均分类准确率越高,说明相应方法的性能越好。所有的结果如表4-表6所示,每行对应数据集,每列表示相应的分类方法,最后一行代表每个方法的平均值。表中每个数字表示评价指标值±方差。
表4反映了采用不同代价矩阵情况下,错分总代价的试验结果。从试验结果可以看出,光泽和谐调的错分总代价相对较小,而其他感官指标的错分总代价相对较大。对照图1,原始数据集中,光泽和谐调的分布规律明显,而其他感官指标的分值分布较为模糊,这说明在卷烟感官评估中,光泽和谐调这两个指标较为容易识别,而其他指标则难度较大。产生这一问题的原因有两方面:一方面香气等较难识别的感官指标导致分类器产生的错分总代价较高;另一方面由于香气等指标的评估结果分布规律模糊,在类别属性离散化过程中可能导致引入了更多的类别属性噪声,进一步加剧了识别的难度。因此,在建立基于代价敏感的卷烟感官评估系统时,一方面要不断提高分类器的性能,另一方面要从数据源头抓起,提高历史数据的质量,比如香气等感官指标的评定结果不以多个卷烟评估专家给出的评估结果的平均值出现,而是直接给出这些指标的类别档次信息,从而避免离散化等操作带来的噪声问题。
另外,从表4中α的取值可以看出不同的感官指标的错分代价矩阵是各有特点的。例如谐调、余味和刺激性3个指标的α较小,而其他3个指标的α值较大。较小的α值说明针对这些感官指标,应尽量保持原有样本的分布;反之,则说明需要突出高代价样本的识别效果。
表5反映了采用不同代价矩阵情况下,高代价类别分类准确率的试验结果。结果说明采用基于代价敏感的学习方法,可以有效地提高目标类别的识别率,这对于卷烟产品维护和新产品开发,具有重要的实践意义。例如需要开发或者维护的卷烟新产品的香气目标值为28±0.25,则卷烟设计人员只需将28±0.25设置为错分代价较高的类别,这样利用本方法就可以识别出符合要求的卷烟配方,从而大大缩小配方设计人员的搜索范围,提高工作效率。
表6反映了采用不同代价矩阵情况下,平均分类准确率的实验结果。平均分类准确率反映了分类器在各个类别上的分类效果。可以看到,当采用Over-sampling和Under-sampling时,光泽,谐调,刺激性以及杂气这4个感官指标的平均准确率明显高于香气和余味两个感官指标,这说明基于代价敏感的神经网络在预测高代价类别样本的同时,也可以更好地预测其他类别的样本,但是当感官指标达到一定复杂程度时,基于代价敏感的神经网络的决策更偏向于高代价样本,从而导致平均预测准确率有所下降。另外,Threshold-moving的平均预测准确率较低,说明该方法在预测卷烟感官指标时更偏向于高代价类别。因此,Over-sampling和Undersampling技术在卷烟感官评估中的效果更好。
表4 错分总代价试验结果Table4 Results of misclassification cost
表5 高代价类别分类准确率Table5 Classification accuracy on classes with the highest cost
表6 平均分类准确率Table6 Results of average classification accuracy
本文利用基于代价敏感的神经网络预测卷烟感官质量,结果表明该方法在错分总代价、高代价类别的识别率以及平均分类准确率3个指标上均获得了显著的效果,尤其在预测高代价类别和平均准确率这两个指标上,本文方法具有绝对的优势。因此,基于代价敏感学习方法可以有效的识别卷烟感官评估中的高代价样本。据此,在卷烟新产品开发和产品维护过程中可以将目标类别设置为较大的错分代价,从而获得符合要求的产品配方,对卷烟生产具有实践意义。
[1] King E S, Dunn R L, Heymann H. The influence of alcohol on the sensory perception of red wines [J]. Food Quality and Preference, 2013, 28(1)∶ 235-243.
[2] Feng T J, Ma L T, Ding X Q, et al. Intelligent techniques for cigarette formula design[J]. Mathematics and Computers in Simulation, 2008, 77(5-6)∶ 476-486.
[3] Borém F M, Ribeiro F C, Figueiredo L P, et al. Fortunato V A, Isquierdo E P, Evaluation of the sensory and color quality of coffee beans stored in hermetic packaging[J]. Journal of Stored Products Research, 2013, 52∶ 1-6.
[4] Ghasemi-Varnamkhasti M, Mohtasebi S S, Rodriguez-Mendez M L, et al. Classification of non-alcoholic beer based on aftertaste sensory evaluation by chemometric tools[J]. Expert Systems with Applications, 2012, 39(4)∶4315-4327.
[5] Zeng X Y, Ruan D, Koehl L. Intelligent sensory evaluation∶Concepts, implementations, and applications [J]. Mathematics and Computers in Simulation, 2008, 77(5-6)∶443-452.
[6] 高大启,吴守一. 并联神经网络在烤烟内在品质评定中的应用[J]. 农业机械学报,1999,30(1):58-62.
[7] 邵惠芳,许自成,李东亮,等. 基于BP神经网络建立烤烟感官质量的预测模型[J]. 中国烟草学报,2011,17(1):19-25.
[8] 王强,陈英武,李孟军. 基于支持向量机的卷烟质量评估方法[J]. 系统管理学报,2006,15(5):475-478.
[9] 王涛. SVM在配方感官评估中的应用[J]. 微计算机信息,2010(10):236-238.
[10] Zhou Z H, Liu X Y. Training cost-sensitive neural networks with methods addressing the class imbalance problem[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(1)∶ 63-77.
[11] Tomek I. Two modifications of CNN[J]. IEEE Transactions on Systems, Man and Cybernetics, 1976, 6∶769-772.
[12] J G Moreno-Torres, J A Sáez, F Herrera. Study on the Impact of Partition-Induced Dataset Shift on-Fold Cross-Validation, IEEE[J]. Transactions on Neural Networks and Learning Systems, 23 (2012) 1304-1312.
A Method for Cigarette Sensory Quality Evaluation Based on Cost-sensitive Learning
ZHANG Zhongliang1, TANG Jianguo2, QIAO Danna2, LUO Xinggang1*, ZHAO Liang1, TANG Jiafu1
(1. College of Information Science and Engineering, Northeastern University, Shenyang 110819, China; 2. Technology Center, China Tobacco Yunnan Industrial Co., Ltd., Kunming 650231, China)
Arming at the cost-sensitive problems in cigarette sensory evaluation, Cost-Sensitive Back-Propagation Neural Networks(CSBPNN) was employed in this paper to deal with the problems derived from cigarette sensory evaluation. In order to verify the effectiveness of our methodology, the cost matrix was obtained based on production practice and the comparative experimental study was carried out by using dataset from a tobacco company. The experimental results indicated that our methods have a significant advantage on total misclassification cost, high cost label recognition rate and average classification accuracy when compared with the cost-insensitive methods.
classification algorithm; cost-sensitive; sensory evaluation; neural network; cigarette
TS41+1
1007-5119(2016)05-0075-07
10.13496/j.issn.1007-5119.2016.05.014
国家自然科学基金面上项目“基于QFD和数据挖掘的卷烟产品叶组配方优化关键技术研究”(61273204)
张忠良(1986-),在读博士研究生,研究方向:数据挖掘。E-mail:zzl19860210@126.com。*通信作者,E-mail:xgluo@mail.neu.edu.cn
2015-12-30
2016-08-09