王 楠,雒兴刚*,张忠良,于 洋,唐加福,汤建国
1. 杭州电子科技大学管理学院,杭州市杭州经济开发区白杨街道2 号大街1158 号 310018
2. 东北大学信息科学与工程学院,沈阳市和平区文化路3 号巷11 号 110819
3. 云南中烟工业有限责任公司技术中心,云南省昆明市五华区红锦路367 号 650231
卷烟配方是由多种不同的单等级片烟按照一定比例配伍而成,在卷烟生产过程中,卷烟配方维护是维持卷烟品牌质量稳定的重要内容[1]。传统的卷烟配方维护是一项复杂的工作[2],需要感官评吸和测量仪器综合评定替换后的卷烟配方的感官和烟气指标是否满足要求。这种依靠专家评吸和分析检测的方式效率低、耗时长、成本高,因此,开发卷烟配方智能化维护技术和手段显得必要且迫切[3]。
近年来,随着机器学习、数据挖掘及人工智能在各领域的广泛应用与发展,数据挖掘等智能技术在卷烟产品开发与生产过程中的应用也有一些报道[4-5]。王晓辉等[6]为了克服基于烟叶感官分组方法易受人为主观影响的缺点,提出了根据烟叶的化学指标进行聚类分析的方法对烟叶进行分类。赖燕华等[7]采用相似度分析、主成分分析和聚类分析对卷烟质量进行综合分析,为卷烟产品的质量控制提供有效的评价方法。此外,还有研究采用数据挖掘技术构建烟叶化学成分与感官和烟气质量之间的关系模型。Feng 等[8]将遗传算法、神经网络、支持向量机(SVM)和模糊集方法与专家知识结合起来建立了产品配方设计智能化系统。郭东锋等[9]分析了化学成分与主流烟气指标之间的相关关系。张圣男[10]采用遗传算法优化支持向量机的参数建立了基于支持向量机的卷烟烟气指标预测模型。过伟民等[11]分析了烟叶不同理化指标对感官指标的影响情况。王涛[12]提出了用回归函数估计SVM 方法进行建模来解决感官评估多类划分问题。张忠良等[13]将基于代价敏感的反馈神经网络应用于卷烟感官评估中,可有效识别卷烟感官评估中的高代价样本。虽然已有研究对卷烟配方智能化维护进行了一些探索,但这些研究大多根据单等级片烟特征进行聚类分析或者根据卷烟的物理化学指标与感官质量及烟气指标之间的映射关系建模,缺乏考虑单等级片烟配伍性问题。最近,雒兴刚等[14]运用基于关联规则挖掘技术试图获得单等级片烟之间的配伍信息,然而该方法局限于配方中部分非主干单等级片烟之间的替换,无法维护配方中任意单等级片烟缺失的情况。
基于此,本文中提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)技术[15]的卷烟配方维护方法。与其他矩阵分解技术(如奇异值分解SVD,主成分分析PCA)相比,NMF 的分解结果有直观的语义解释,且配方可以看作是单等级片烟的线性组合。而且NMF 具有基于部分表示的特点,可以结合不同的烟草数据特征来表示数据,发现配方数据中单等级片烟间的配伍关系。另外,NMF 方法可以对大量的数据进行压缩和概括,节省存储空间,可提高数据处理速度。因此,本文中所提出的方法不仅可以与卷烟配方数据相结合,挖掘出单等级片烟之间的配伍规则,而且对于配方中任何单等级片烟缺失的情况都能进行有效处理,可为卷烟配方设计人员推荐合理的卷烟配方方案。
选择某烟草企业3 年(2010 年1 月—2012 年12 月)的数据进行研究。其中包括24 个卷烟品牌,涉及共1 534 个配方及其包含的1 220 种单等级片烟。单等级片烟包括国外102 份(6 个不同国家),国内1 018 份(14 个不同省份),13 个品种,497个不同等级,6 种不同颜色。其中,包括24 种再造烟叶,5 种出口片烟及1 191 种国内片烟。
单等级片烟数据文件包含1 220 种单等级片烟及其28 个属性信息。配方数据文件包含1534 种配方(编号FBI0001~FBI1534),列出了每种配方包含的 单 等 级 片 烟(AD0001~AD0716,DLC0001~DLC2072,不连续)共1220 个,及其所属的品牌。其中任意配方基本保持由10 至37 份单等级片烟经过一定的比例配制而成。
将配方数据转换成二进制配方矩阵Y(n×m),其中,n 表示配方的数量,m 表示单等级片烟的数量。如果配方i 含有单等级片烟j,则Yij为1,否则为0。
1.2.1 非负矩阵分解
NMF 方法是Lee 和Seung 在1999 年提出的一种新的矩阵分解技术[15],该方法已在图像处理与识别、文本挖掘、语音处理、故障检测与诊断等领域得到了广泛的应用[16-26]。
非负矩阵分解(NMF)是所有数据都是非负数的矩阵分解方法。对于任意给定的一个非负矩阵Y,NMF 算法能够寻找到一个非负矩阵W 和一个非负矩阵H,使得满足:
其中:Y 是一个(n×m)卷烟配方矩阵;W 是一个包含k 个潜在特征的(n×k)基矩阵;H 也是一个包含k 个潜在特征的(k×m)矩阵。参数k 是分解的等级并确定矩阵分解的潜在特征数量。W 和H 的最优值可以通过最小化Y 和WH 之间的平方误差来确定[27-28]。
1.2.2 基于NMF 的卷烟配方维护模型
图1 基于NMF 的卷烟配方维护模型框架Fig.1 Framework of NMF-based cigarette blend maintenance model
为了确定模型系数矩阵M,应用NMF 方法分解卷烟配方矩阵,如图2 所示。NMF 方法将识别给定配方数据的信息,并用k 个潜在特征总结这些信息,所以k 的值对于数据的表示至关重要。当k的值太小时,数据的表达就会不足;当k 的值太大时,就会过度拟合数据。k 的最优值将在下文验证期间确定。
k 值确定后,配方数据矩阵的分解为:
其中Yold_formulas和Xold_formulas是配方的二进制表示,采用最小二乘方法估计M[29]:
1.2.3 模型参数优化及测试方法
图2 NMF 分解卷烟配方矩阵Fig.2 NMF factorized cigarette blend matrix
将配方数据分为训练集+验证集和测试数据集,其中,训练集+验证集共占配方数据的90%,测试集占10%。在训练和验证模型时采用基于10 折交叉验证的方法,将训练集+验证集随机平均分为10 份,在10 次循环中,每次选取9 份作为训练集用于训练模型,1 份作为验证集用于调整模型参数,最后测试集用于测试模型性能[30]。
模型完成配方的能力是通过验证模型是否能够检索从配方中消除的单等级片烟来完成的。对于验证集中的每个配方i,随机选择一个单等级片烟j 并从配方中消除,这个单等级片烟在两种配方中是可以相同的,也可以是不同的。在实际验证集矩阵中,将消除的单等级片烟j 对应的“1”替换为“0”,即,配方完成验证后将恢复到它们的初始状态
在验证模型时,模型为每个配方返回1 220 个单等级片烟预测值的有序列表。接着,确定被消除的单等级片烟在输出单等级片烟有序列表中的排列等级。如果消除的单等级片烟在列表中具有最高预测值,则其排名是1(最高等级),验证过程如图3 所示。
图3 验证过程Fig.3 Validation process
通过反复试验,确定矩阵分解参数k 的范围取为30~40,根据式(2)训练集配方的二进制矩阵Ytrain被分解成W 和H:
Ytrain和Xtrain是训练集中的二进制配方。当Xold_formulas=Xtrain时,由式(3)估计出模型系数矩阵,所以验证集配方的预测值为:
其中Xvalidate是验证集中的二进制配方矩阵。Yvalidate,pred根据图3 验证过程确定的Xvalidate中每个消除单等级片烟在推荐序列表中的等级。针对每个验证集,分别计算所选范围中的每个k 值对应的平均数等级,选择平均等级最小的k 值作为当前验证集的最优k 值。在所有验证集的10 个最优值k 中,选择中位数值作为模型的最优k 值。
为了评估模型挖掘单等级片烟间配伍规则的性能,对模型进行测试,并修改测试集配方yij=1→yij=0,其中i 为测试的配方之一,j 为配方i 中随机选择的单等级片烟。此时的实际训练集为训练集+验证集,即Yvalidate+train,共1 380 个配方。t 设定为10,使用验证期间得到的最优k 值,通过NMF 方法分解矩阵Yvalidate+train。使用式(3)计算模型系数矩阵M,其中Xold_formulas=(Xvalidate+train)。
测试集包含154 个配方,对于测试集中的每个配方,确定消除单等级片烟在推荐列表中的等级,将用于计算如下3 种模型性能度量指标[30]:①在推荐单等级片烟的有序列表中消除单等级片烟的平均数等级。②在推荐单等级片烟的有序列表中消除单等级片烟的中位数等级。③消除的单等级片烟位于推荐单等级片烟列表的前10 位的百分比。
1.2.4 基于相似度的单等级片烟替换方案
如上所述,在推荐的候选列表S 中选择最合适的1 种(或1 组)单等级片烟替换缺失的单等级片烟,考虑单等级片烟缺失情况的多样性,提出了两种替换方案,即一对一替换和多对多替换两种情况。本研究中采用欧几里得距离计算缺失单等级片烟和候选单等级片烟的化学成分信息(总糖、还原糖、总烟碱、总氮、钾、氯、蛋白质、施木克值)的相似度[7],距离值越小则意味着相似度越高。具体方案如下:
(1)一对一替换(One Versus One,OVO)。当某配方缺失一种单等级片烟,计算缺失的一个单等级片烟与推荐的t 个单等级片烟的相似度并排序,从中选择相似度最大的一个进行替换。
(2)多 对 多 替 换(Multiple Versus Multiple,MVM)。当某配方缺失x(1<x<t)种单等级片烟,在推荐的t 个单等级片烟中选择x 个进行替换。其中多对多替换有3 种方法:
a. 基于一对一的多对多替换(MVM based on OVO,MVM_OO)。每次假设这x 个缺失配方中只缺少其中一个单等级片烟,在推荐的t 个单等级片烟中选择等级最高的一个单等级片烟保存,x次替换后,保存的x 个单等级片烟即为替换单等级片烟。
b. 基于最大相似度的多对多替换(MVM based on maximum similarity,MVM_MS)。分别计算每个缺失单等级片烟与t 个推荐的单等级片烟的相似度,在t 个推荐单等级片烟中找出与每个缺失单等级片烟相似度最高的单等级片烟,所组成的单等级片烟组即为缺失单等级片烟的替换单等级片烟。
c. 基于平均相似度的多对多替换(MVM based on average similarity,MVM_AS)。举例说明:当缺失单等级片烟不大于10 个时,假设某品牌的配方中,缺失DLC01、DLC02、DLC03 3 个单等级片烟时,在推荐的10(t=10)个单等级片烟中进行排列组合C(10,3),选出3 个单等级片烟为1 组,共120 组。首先,分别计算组合的3 个单等级片烟和缺失单等级片烟的平均相似度距离ave_d1,ave_d2,ave_d3。对3 个平均相似度距离求和,产生120 个和值sum_d120-n(n=1,2,…,120),选出和值最小的1组,所对应的单等级片烟ZDLCn1,ZDLCn2,ZDLCn3即为替换单等级片烟,如图4 所示。
图4 MVM_AS 单等级片烟替换选择步骤Fig.4 Procedure for MVM_AS substitution of single grade strips
本研究中选用某品牌卷烟的一个配方FBI0282(包含23 种单等级片烟)进行实验。假设配方FBI0282 中分别缺失1 种,3 种单等级片烟,产生2 个单等级片烟组:①单等级片烟组1:缺失单等级片烟AD0280。②单等级片烟组2:缺失单等级片烟AD0280、AD0603、DLC0277。使用图1 框架建立模型,t 设定为30,这时训练使用的数据集包含所有配方(1 534 个)。用以上两组单等级片烟作为模型实例输入,分别进行OVO 配方维护和MVM 配方维护实验,并选择替换方案。
1.2.5 卷烟配方维护效果评估方法
为了评估基于NMF 的卷烟配方维护模型的效果,基于文献[10]和[12]的研究成果,采用基于支持向量机的预测模型建立成品卷烟8 种化学指标(总糖、还原糖、总烟碱、总氮、钾、氯、蛋白质、施木克值)与6 种感官指标(光泽、香气、谐调、杂气、刺激性、余味)及3 种烟气指标(一氧化碳、焦油、烟气烟碱)之间的映射关系,预测经过维护的卷烟配方的感官和烟气指标,再计算与原配方的感官和烟气指标的差值,差值越小,维护效果越好[9]。采用libsvm 库的SVR 模型进行预测,即s=3;核函数选取径向基(RBF)函数,其中惩罚参数c=2,核参数g=l。
10 次实验对154 个配方的测试结果如表1 所示。由表1 中k 的均值可知,k 的最优值约等于37,这意味着需要大约37 个潜在特征来表达配方数据。观察表1 的等级部分,第1 个度量(平均等级)说明平均每一个被消除的单等级片烟可以在推荐的单等级片烟有序列表中的第29 位置(共1 220 个单等级片烟)找到;第2 个度量(中位等级)说明50%的消除单等级片烟的等级小于6。第3 个度量表明被消除的单等级片烟被发现在前10 等级的配方占测试配方(共154 个单等级片烟)的63.99%,由第5 个度量可知被消除的单等级片烟排在前30的配方占测试配方的百分比达到了82.48%;以上说明模型表现很好。
表1 10 次实验测试结果Tab.1 Results of 10 experimental tests
应用实验2 的数据,绘制消除单等级片烟的等级统计图像,见图5。从图中可以看到,累计百分比曲线很快地达到一个较高值,然后上升缓慢,最后接近于水平,说明NMF 模型可以更好地了解单等级片烟信息矩阵,推荐的单等级片烟与输入单等级片烟组具有良好配伍性。从图5 还可以看出,一些消除的单等级片烟具有非常低的等级,表明该模型不能够检索这些被消除的单等级片烟。通过查阅单等级片烟信息表,这些低级等级的单等级片烟往往是相当罕见的单等级片烟,通常不与某测试集配方之外的单等级片烟结合,而只与该测试集配方中的单等级片烟组合。由于这个配方未被用来训练模型,在测试过程中模型将不识别这些单等级片烟组合。当配方中很少使用某种单等级片烟时,上述情况出现的概率很高。因此这不是NMF 模型的问题,仅与被消除的单等级片烟和所用测试集配方的特征密切相关。
图5 测试数据等级分布和累计等级百分比分布Fig.5 Level distribution and cumulative level percentage distribution of test data
通过仔细观察模型系数矩阵M,M 是一个方阵,其行和列都代表1 220 个单等级片烟,该矩阵给出了每一对单等级片烟的相互影响权值,这些权值反映了每对单等级片烟组合的好坏程度。其中一些权值是负值,表示一种单等级片烟的存在限制了另一种单等级片烟在推荐单等级片烟列表中的出现,这意味着这两种单等级片烟不能形成良好的组合。而正值则表示这两种单等级片烟能很好组合,并且这些单等级片烟之一的存在将增加另一种单等级片烟在推荐单等级片烟列表中排在前十的机会,值越大,推荐该单等级片烟的机会就越高。一些单等级片烟对于其余单等级片烟具有接近零的值,不会对二进制配方向量与矩阵M的乘积造成影响。这说明这些单等级片烟的存在不会影响推荐单等级片烟的列表,并且不会被推荐添加到配方中。
为了选择最佳的替换方案,预测新配方的感官和烟气指标,并计算与原配方的感官和烟气指标的平均绝对偏差,针对不同的方案分别用相同的单等级片烟组1 和单等级片烟组2 作为输入,进行20 次替换的实验结果见图6。从图6 可以看出,OVO 比3V3 的维护效果好,原因是缺失单等级片烟数量越多,配方的不稳定性越高,替换的效果就会受到影响。3V3 的3 种方法的平均绝对偏差围绕一个稳定值上下波动。进一步计算OVO 和3V3的3 种方法各项指标的平均相对偏差,如表2 所示。从表2 可以看出:①OVO 在感官和烟气指标的维护中,相比于3V3 方法,各项指标平均相对偏差均较低,各项指标综合平均相对偏差(0.28%)在4 种方法中也达到了最小,达到了非常好的效果,与上述结论相同。②在3 种3V3 方法中,3V3_AS在烟气指标的维护中达到了非常好的效果,维护的烟气指标的平均相对偏差均达到了最小;而3V3_MS 和3V3_OO 在感官指标的维护中达到了较好的效果,两者相差不大。③3V3_AS 的综合平均相对偏差在3 种方法中最小(0.80%)。因为3V3_AS 方法能考虑到各替代单等级片烟间的相互影响,从整体上维护各项指标的稳定,而3V3_MS 和3V3_OO 仅考虑单一候选单等级片烟与缺失单等级片烟相似性。与其余两种3V3 方法相比,3V3_AS 方法能更有效维护原品牌综合指标的稳定。因此,多对多替换应该考虑选择基于平均相似度的方法(MVM_AS)。
图6 新配方与原配方的平均绝对偏差Fig.6 Average absolute deviation between new blend and original blend
表2 新配方与原配方的平均相对偏差Tab.2 Average relative deviation between new blend and original blend (%)
基于上文结论,选择相同的单等级片烟组1 和单等级片烟组2 作为输入,分别采用OVO 和3V3_AS 方法进行一次卷烟配方维护实验,推荐出替换单等级片烟及缺失单等级片烟信息如表3 所示。在表3 中,基于OVO 方法推荐的单等级片烟为DLC0568,因此当单等级片烟AD0280 缺失时,可用推荐的单等级片烟DLC0568 替换缺失单等级片烟AD0280。3V3_AS 是基于平均相似度的三对三替换,因此当配方中缺失单等级片烟AD0280、AD0603、DLC0277 时,用 单 等 级 片 烟DLC0977、DLC0245、AD0495 进行替换。
对按照表3 结果进行配方维护前后的卷烟样品进行感官评吸和烟气指标测定,并计算平均绝对偏差,结果如表4 所示。表4 中,配方1和配方2 分别是OVO 和3V3_AS 配方维护实验形成的新配方。由表4 可以看出,配方1 和配方2与原配方的感官和烟气指标的平均绝对偏差都较小;配方1 的平均绝对偏差远小于配方2 的平均绝对偏差,与上文结论一致;配方2 与原配方的感官质量和烟气指标的平均绝对偏差相对略大一些,但是在可接受范围之内,可以进行维护。
表3 缺失的单等级片烟和模型推荐的单等级片烟的特征属性及化学成分分析①Tab.3 Characteristics and chemical component analysis of missed and recommended single grade strips
表4 配方维护前后卷烟配方的感官和烟气指标①Tab.4 Sensory and smoke indexes of cigarette blend before and after blend maintenance
因此,实验结果证明了此模型在进行一对一替换和多对多替换时,均能有效维护原品牌卷烟的感官质量和烟气指标的稳定。
①提出了采用非负矩阵分解(Non-negative Matrix Factorization,NMF)方法构建模型来完成卷烟配方的维护。②NMF 模型能够检索配方中被消除的单等级片烟,可以很好地维护配方的完整性。③NMF 卷烟配方维护模型可以较好地推荐与单等级片烟组形成良好组合的单等级片烟,使新卷烟配方中的单等级片烟具有良好的配伍性。在候选单等级片烟的选择中,将单等级片烟的化学信息加入模型,提高了替换单等级片烟与缺失单等级片烟的相似性,增强了卷烟配方维护的可靠性。④一对一(OVO)替换和基于平均相似度方法的多对多(MVM_AS)替换都能有效维护原品牌卷烟的感官质量和烟气指标的稳定。综上,本研究中提出的基于NMF 的卷烟配方维护模型,可为卷烟配方设计人员提供配方替代推荐,有助于企业维持卷烟感官质量的稳定性,提高工作效率。