周武庆,康向平,张超
1. 中国烟草总公司 山西省公司,山西 太原 030006 2. 山西大学 计算智能与中文信息处理教育部重点实验室 计算机与信息技术学院,山西 太原 030006
大数据时代,信息化辅助决策在烟草行业显得愈发重要,基于数据挖掘和人工智能技术的烟草信息化系统近年来得到了快速发展。经过十余年的信息化建设,全国烟草行业的信息化网络已初步建成[1]。然而,当前烟草信息系统中仍存在一些瓶颈,尤其是辅助决策系统主要依赖于简单的统计学方法,针对现实中诸多不确定性信息还无法有效处理[2-3]。随着《烟草行业信息化发展规划(2014—2020)》的正式发布,烟草行业对信息化建设的深度愈加紧迫,因此有必要研究不确定环境下的行业数据挖掘方法。
在构建面向复杂问题的辅助决策系统时,通常需要处理两大任务,即评价或决策信息的表示,以及评价或决策信息的分析处理[4-5]。在信息表示方面,模糊理论将经典集合论中隶属度的取值范围由0或1推广到闭区间[0,1],可有效表示不确定性信息。随后,诸多推广模糊数据分析模型相继被提出,从不同的角度完善了不确定性信息的表示手段[6-7]。其中,为了合理描述专家在决策过程中犹豫不决这一心理状态,美国学者Smarandache[8]于上世纪末同时引入了包含隶属度、犹豫度和非隶属度的序对来表示不确定性信息,随后,犹豫模糊分析理论被建立,并在管理决策领域产生了广泛的影响[9-11]。2015年,Ye[12]进一步发展了犹豫模糊分析理论,提出了一种广义的犹豫模糊理论,建立了犹豫中智集的概念,其可为烟草辅助决策信息的表示提供有效的理论工具[13-14]。此外,在评价和决策信息分析处理方面,RS理论从确定性规则与可能性规则的角度出发,通过下近似集合与上近似集合来进行数据挖掘,是一种行之有效的管理决策工具[15-18]。在众多RS模型之中,概率粗糙集(probabilistic rough set,PRS)模型通过引入条件概率,能够降低错误分类对最终决策结果的影响,可为烟草辅助决策信息的分析提供具有较强稳定性和鲁棒性的方案[19-21]。
总的来讲,针对复杂的评价和决策问题,传统统计学存在一定局限性,相关研究正逐步向更高级更复杂的方向持续演进,在此背景下,本文研究,无论是对于丰富相关理论,还是更好地辅助管理决策,显然都是有意义的。
通常,在处理复杂评价和决策问题时,人们往往会从多个不同角度去看待问题,尽管角度不同,结果会有差异,但综合起来却可能是一个相对全面客观的评价,在这方面,正反两方面评价就是一种最常见的方式。例如,当对一个人的品行进行评价时,如果基于正面评价的结论是:“他是一个有担当、讲责任、明规矩的人”,基于反面评价的结论是“他不是一个卑劣、庸俗、自私的人”,尽管正反两方面评价出发点不一样,但目标指向却是一致的,在此情形下,综合起来更能充分说明:这个人是一个具有良好品行的人。事实上,无论是对于什么样的评价客体,只要是遵循上述评价理念,评价的结果一般都不会出现太大的偏差。
当然,在实际评价和决策中,除了多视角综合分析外,可能更需要人们统筹考虑以下影响因素:
1)应注重评价人的自身心理状态。评价时,评价人可能会犹豫不决。犹豫,说明对事物的评价没有足够把握,结果不一定准确、可信度较低;相反,不犹豫,则说明可信度较高。事实上,这样的心理因素是非常重要的。一定程度上来讲,评价人不仅仅是评价主体,同时也是评价客体,需要对自身犹豫心理给出一个客观合理的评价,只有这样,才能从根源上客观反映出评价结果的合理性。
2)应注重评价和决策结果的不唯一性。以正面评价为例,如果满分是100分的话,结论也许是一个范畴,如80~90分,亦或是这个范畴中的多个值,如80分、85分、88分等,这些值可能无法取舍,都具有一定的合理性。在此情形下,如果一味强调评价结果的唯一性,而忽视评价结果的多样性,那么评价结果可能是片面的,是不完整的。同样,对于反面评价,或者是评价人对自身心理状态的评价,都可能会面临评价结果不唯一这样的实际情况。
3)应注重评价和决策的模糊性。在确定性逻辑下,人们对于事物的判定结果只有“0”和“1”两种情况,非此即彼,二者必居其一。然而,边界的模糊性是普遍存在的,甚至是像高与底、强与弱、好与坏等这些明显对立特征的概念也没有绝对分明的边界。在此情形下,确定性逻辑尽管简单易懂易用,但在处理一些复杂的评价或决策时,往往不利于人们从看似不相关的复杂数据中发现一些潜在的有价值的知识。例如,当评价一个人是否年轻时,也许没有一个肯定的回答(用“1”表示),或一个否定的回答(用“0”表示),只能是给出一个介于“0”和“1”之间的中间值,即用“隶属于年轻人群体的大小程度”去度量这种模糊情况。
在实际应用中,当人们统筹考虑上述因素去处理一些相对复杂的评价和决策问题时,如果仅仅是依赖于一些传统的评价方法或模型,评价结果可能会失真,与实际存在较大的偏差。近年来,尽管相关研究取得了一定进展,但尚处于初始阶段,尤其是,犹豫,这种反映评价人心理的客观事实,在数据建模关键步骤中尚未得到足够的重视,心理学与统计学的融合问题仍有待进一步深入研究。
为有效应对复杂数据背景下不确定性问题建模、分析与计算任务,适应更复杂环境下的评价和决策需求,为解决烟草行业辅助决策系统在处理不确定性决策信息时存在的局限性,本文统筹考虑正反两个方面的模糊评价、评价人对自身心理状态的评价,以及评价结果的多样性,尝试借助模糊论、概率论,以及RS理论等,从信息表示与信息分析两个层面出发,去探讨一种广义上的数学分析方法。该方法涉及心理因素分析,应用范围较广,可以为卷烟品牌发展评价、生产经营管理决策提供一定的理论支持,也可以为科学合理设计烟草行业计算机辅助决策系统提供有益参考。
基于上一节对评价或决策理念的认知,本文选用广义犹豫模糊理论,即基于犹豫中智集作为信息表示工具,其中犹豫中智集的形式化定义为:
对于数据集U,一个犹豫中智集A由3个函数来刻画,即隶属函数 C TA:U→int[0,1],犹豫函数CIA:U→int[0,1]和非隶属函数 C FA:U→int[0,1],int[0,1]代表[0,1]的幂集。在此意义下,犹豫中智集A被描述为[12]
基于不同的表示方法,展现的内容和方式是不一样的。事实上,相对于传统方法,基于犹豫中智集的信息表示相对更为合理,信息量也更为丰富。例如:
模糊理论:隶属度(单一值),非隶属度(单一值),如〈 0 .6,0.1〉,其中0.6为隶属度、0.1为非隶属度。
犹豫模糊理论:隶属度(单一值)、犹豫度(单一值)、非隶属度(单一值),如 〈0 .6,0.1,0.1〉,其中0.6为隶属度、0.1为犹豫度、0.1为非隶属度。
广义犹豫模糊理论(即犹豫中智集):隶属度(单一值或多个值)、犹豫度(单一值或多个值)、非隶属度(单一值或多个值),如〈(0.6,0.7),(0.1,0.2),其中0.6和0.7均为隶属度、0.1和0.2均为犹豫度、0.05和0.1均为非隶属度。
在信息分析处理方面,传统方法同样无法提供考虑错误分类对最终结论影响的机制,因此本文尝试引用PRS模型作为信息分析工具。
假设U是一个数据集,(U, R )是一个近似空间,P是一个基于σ代数的概率度量,则(U, R,P)是一个概率近似空间。常见的概率分布如正态分布的概率密度函数:
拉普拉斯分布概率密度函数(:)
伯努利分布概率密度函数:
上述PRS模型,主要是用于数据分类处理,即将待评价数据集最终划分为3个不同的类:一类是正域 P OS(X,α,β),正域中的数据肯定属于集合X;一类是边界域 B ND(X,α,β),边界域中的数据可能包含于集合X;最后一类是负域 N EG(X,α,β),负域中的数据肯定不属于集合X。此外,阈值参数α、β,代表对于决策失误的容忍度,即专家做出错误决策在一定程度下也不会影响正确决策结论的得出。
在现实生活中,人们通常会做出各种各样的评价和决策,但大多数情况下,这些决策更多是一种匹配性的决策。例如,当消费者在选择卷烟品牌时,其购买前,一定是有内在诉求的,即每个消费者心目中都会有一个理想的品牌,以及相应的理想评价集合(即,针对理想品牌每一项评价指标预先给出的理想期待值,如品牌焦油含量要低、卷烟质量要过硬、香型要清香、浓香、中间香或雅香、外包装设计要精美、品牌文化要得到认同、价格要适中……)。在实际购买中,当面对n个不同的卷烟品牌,消费者同样也会从焦油含量、香型、外包装设计、品牌文化、价格等m个角度做出现场评价(本质上是建立n个品牌与m个评价指标之间的评价矩阵),与消费者内心期待相近、相吻合、匹配程度较高的即为消费者心仪的卷烟品牌(本质上是将理想评价集合与决策矩阵进行匹配)。
对于如何匹配,本文引入了条件概率的建模思想。从本质上来讲,条件概率模型本身就是一个典型的匹配性决策模型,通常,条件概率模型表示为
即在事件B发生的条件下,事件B和事件A同时发生的概率。在本文中,决策矩阵可以理解为“条件部分”,对应事件B;理想评价集合可以理解为事件A;事件A和B同时发生的概率可以理解为它们之间的匹配情况。
当然,基于上述条件概率思想得到的结果通常表现为具体的数值,尚不能给出最终的决策结论,后续,仍需要通过某种机制将数值转化为具体的决策方案。为此,本文拟引入阈值、融入RS理论建模思想,通过对数据进行筛选,可以进一步确定理想评价集合的正域、负域、边界域,并最终得到问题的决策方案,其中,正域与理想目标最接近,其次分别为边界域和负域,正域中方案即为最佳决策方案。
遵循上述建模机理,本文设计了如下数据分析模型。
犹豫中智集合A,本文将其下近似集合与上近似集合分别定义为
上述模型是一种多理论融合的形态,也是一种相对通用的知识表示和分析处理框架,能充分体现评价人的主观意识和决策心理,可以为复杂情况下相关评价和决策提供一定的理论支撑。
在卷烟品牌选择中,上述模型可以勾勒出消费者所心仪品牌的范围,范围之内的区域称为正域,范围之外的区域称为负域,范围边界上的区域称为边界域。如果一个品牌经过匹配,确定其处于正域,则说明该品牌一定是消费者心仪的品牌;相反,确定其处于负域,则说明该品牌距离消费者的诉求还有很大差距;如果一个品牌经过匹配,确定其处于边界域,则说明该品牌介于上述心仪和不心仪两种情况之间,消费者购买欲可能会不太强烈。
本文能为卷烟品牌定性定量分析评价、生产经营管理决策提供更为合理的理论支持。以烟草品牌发展潜力分析为例,假设数据集U:x1,x2,···,xm是待评价的烟草品牌集合, V :y1,y2,···,yn是由若干个评价指标组成的评价指标集,A是行业或企业针对理想品牌每一项评价指标预先给出的理想评估值。
首先,针对两个数据集U和V,由专家建立U×V上的一个犹豫中智关系R。在此基础上,基于
在概率近似空间中,对照理想品牌的指标符合性状态,确定4个待评估品牌与理想目标A的匹配情况,在此基础上,求解A的正域、负域、边界域,其中正域中的品牌均为潜力品牌;负域中的品牌不具有发展潜力;边界域中的品牌为待定品牌,需要进一步评估。具体求解步骤如下。
输入 品牌集U,指标集V,理想品牌的理想评估值集A。
输出 有发展潜力的烟草品牌。
3) 设定阈值α、β、ε;
6) 依据正域、负域、边界域,确定各类卷烟品牌的发展潜力,其中正域中品牌即为潜力品牌;
end
接上例,假设集合U中包含4个待评价的卷烟品牌x1,x2,x3,x4;集合V中包含5个具体的评价指标y1,y2,y3,y4,y5,如品牌市场状态、销售规模体量、创新性、消费者普遍接受程度等指标;集合A是一个理想评价集合,即针对每一项评价指标,由行业或企业预先给定的理想评价值,其中
专家给定的阈值:
为简化分析,暂不考虑ε因素。基于上述前置性信息,依据专家评价意见构建U×V上的犹豫中智关系R,详见表1。
表1 一个犹豫中智关系
确定理想目标集A的正域、负域、边界域:
依据上述计算结果,得到最终决策结论:
1)正域结论:品牌x1具有发展潜力。
2)负域结论:品牌x4不具有发展潜力。
3)边界域结论:品牌x2和x3为待定品牌,需要进一步评估。
1) 针对目前多大数烟草辅助决策系统依赖传统统计学分析,无法对复杂评价和决策信息有效表示与分析的局限性,本文通过融合RS理论、概率论、模糊论,以及心理学等,提出了一种合理的数据分析模型。
2) 该模型能充分体现评价人的主观意识和决策心理,具有较强的容错能力,一定程度上可以为烟草行业辅助决策系统建设提供有益参考。