戴志锋,张棋飞,尤川川
(湖北经济学院 信息工程学院,武汉 430205)
随着社会信息化的快速发展,各行各业数据都呈现出爆炸式增长,并逐步积累了海量的数据,无疑我们已经进入了一个“大数据”时代[1]。不确定性数据广泛出现在诸如无线传感器网络等诸多应用领域之中[2],由于现实世界是多样的、复杂的和运动变化的,导致人们对事物和信息的表达往往是不精确、不确定和模糊的,知识的不确定性来源于知识本身的不确定性以及受测量误差与可靠性局限等外界影响而导致的不确定性[3],而不确定数据决策则从大量相关不确定性数据获取确定性有价值决策信息。粗糙集理论是一种研究不确定知识和数据的表达、学习和归纳的理论方法,揭示不精确数据间的关系和潜在的规律规则,从中发现隐含的知识,已被广泛应用到人工智能、知识获取、决策分类、故障诊断和大型数据库等领域[3]。不可分辨关系是粗糙集理论的基石,基于不可分辨关系粗糙集理论引入上近似集和下近似集等概念来度量、刻画知识的不确定性和模糊性,进而运用决策表、属性约简和决策网络等不确定处理技术、方法进行粗糙集智能决策。
知识的表达方式在智能数据处理中占有十分重要的地位[4],而决策表是一种特殊的知识表达系统。决策表的数据以关系表的形式表示,行对应论域中要研究的对象,列对应描述对象的属性,一个对象的全部信息由表中一行属性值反映。决策表本质上由一个多值属性集合描述一个对象集合,每个属性对应一个等价关系,而属性子集对应不可分辨关系,不可分辨关系揭示出论域知识的颗粒状划分结构。
知识约简是知识获取的关键步骤[5],一般约简是不改变对论域中对象分类能力前提下消去冗余知识,相对约简是不改变将对象划分到另一个分类中去的分类能力前提下消去冗余知识[4],它是决策表属性约简的基础。决策表属性约简就是从条件属性集合中发现部分必要的条件属性,使得根据其形成的相对于决策属性的分类和所有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性具有相同的分类能力。一个条件属性集合可能有多个约简,所有约简的交集定义为核,核是表达知识必不可少的重要属性集。
在Pawlak提出的决策网络研究方法中[6],以每个有向关联的相邻属性值节点间偶对作为一条决策规则,决策规则前后衔接连串则构成描述复合决策的一个决策规则链,并代表决策网络中一条路径,该路径中每条决策规则称为一个分支,而所有从一起始节点到一终止节点的路径的集合形成此两节点之间的连接,同时,基于这种相关概念定义,在给出决策规则的确定因子cer、强度因子str和覆盖因子cov等术语基本量化计算公式的基础上,路径的相应因子按其串联决策规则分支的相乘计算,连接的相应因子再按其并行路径的求和计算。文献[7]中Pawlak进一步提出将决策网络与决策表相关联,通过相应决策表的决策规则支持度构建决策网络的思路,并在具体的实现过程中,决策网络中一条决策规则分支可能是经过重叠得来的,其支持度值实际上由决策表中包含该分支相应属性值节点对的全部决策规则记录支持度叠加求和,而由这些决策规则分支再重构的组合决策规则链路径,已在支持度值甚至路径分支上不同于决策表决策规则记录相应的原始决策规则链路径。
Pawlak简化决策网络关注于通过路径和连接的确定因子、强度因子和覆盖因子计算公式的技术途径约去所有中间层次节点[6],仅含首尾因果两层次节点,并以其相互连接构成简化决策网络,该方式过于理想化,更粗粒度的连接进一步中和了组合决策规则链路径的独立性,从而使得决策分析不断脱离最初的决策表决策规则记录,在方向上偏离了实际决策情况,这种统计角度广义上决策分析不是以决策规则链路径整体而是以局部的决策规则链路径分支为单位进行,因缺少原始性数据依据与支撑而缺乏一定的实用性。事实上,简化决策网络的形成相应于简化决策表,决策表简化的一个基本前提是应保持决策表条件类相对决策类的分类能力不变,亦即应通过决策表条件属性的相对约简途径,约简去掉冗余条件属性,而对约简决策表不应进一步做简化处理,约简决策网络应是不能再简化的决策网络,对于通常保留有多个必要条件属性的决策表约简情形,需要给出更具一般性的决策网络图示。
上述Pawlak决策网络中决策规则的定义较为广义,与决策表中的不相一致,严格意义上决策规则是条件属性组合与决策属性之间因果关系,条件属性间不构成决策规则。Pawlak决策网络从定义为一种有向图角度,分支由相应决策表不同决策规则分支进行局部叠加重聚而成,实际上并不具有原子性,与决策表中决策规则不能形成严格的对应关系。Pawlak决策网络简化不一定保持了相对分类能力,简化处理也可能缺乏相应的实际意义。因而,Pawlak决策网络方法在不确定决策智能性中还体现出一定程度的粗粒度性。
不确定数据彼此间有着联系,不确定数据决策亦相互关联,不确定群体决策制定又存在着不确定性,对于复杂的不确定数据群决策问题,通过群决策建模分析,进行一定的数据组织与表示结构形式化描述,以便基于群决策信息利用智能计算技术,开展智能决策分析与处理,融合成智能的“知识”和判断,进而提供智能决策和智能服务。
决策表用于表达绝大多数决策问题,与一个样本知识库相对应,它包含记录有大量样本的属性值和决策情况,作为领域知识的载体,通过分析得到领域中有用的、规律性知识。决策表建模具有统一性和通用性,决策表中每一行实际上就是一条决策规则记录,每条决策规则记录对应一个决策Agent实例,条件属性描述决策Agent的特征,决策属性表示决策Agent的决策意见。决策网络中决策网络路径与决策表决策规则记录相关联,由特定的前后相邻决策网络分支链接组成,整体上同样对应于一个决策Agent,决策网络路径的具体分支即为决策Agent的决策分支。不失一般性,决策表考虑决策属性集仅有单个决策属性情形,决策网络中节点考虑由单个“属性—值”对逻辑公式构成的情形。
决策表是群决策信息的建模表示形式,决策网络进一步地给出决策表的直观图示,决策网络分析用于研究冲突决策Agent间关系,揭示确定性与不确定性决策规则,一种多Agent智能群决策建模MA-IMGDM如图1所示。
图1 多Agent智能群决策建模
由图1可知,一个决策表由若干决策规则记录组成,一个决策网络对应于一个决策表,并由多条决策网络路径构成,决策表中一条决策规则记录和相应决策网络中一条决策网络路径代表同一个抽象决策Agent个体,决策规则记录、决策网络路径与决策Agent形成两两一一对应关联;在更高层次上,一个决策表和相应的决策网络从形式化上表征同一个MAS(多智能体系统)群体,该群体是不同决策规则记录、决策网络路径相应不同决策Agent的集合体,决策表、决策网络与MAS在关联上两两一一对应。
在MA-IMGDM建模中,决策规则记录与Pawlak决策网络广义上决策规则有所不同,决策网络路径也与Pawlak决策网络中复合决策规则链相互区分,通过决策表与决策网络等粗糙集智能信息处理技术相结合,并运用决策网络分析方法解决多智能体系统决策问题,使得群决策过程数据加工与群体成员相互协调,从而呈现不确定数据群决策智能特性。
约简决策表和约简决策网络,才分别是真正更具实际意义的简化决策表和简化决策网络。与Pawlak决策网络研究方法基本对接,而又不同于Pawlak简化决策网络,在群决策分析过程中,采用约简决策表替代简化决策表,相应地采用约简决策网络替代简化决策网络,保持决策表分类能力不变和决策Agent整体性下决策分析本质不变。在上述MA-IMGDM建模基础上,进一步提出多智能Agent三阶段权重型群决策框架MIAW-TPFGDM,如图2所示。
图2 多智能Agent三阶段权重型群决策框架
由图2可知,决策表在一定的特殊简化即约简处理之后,才运用决策网络进行决策分析。框架中底层建模、中间层约简和顶层分析三阶段递进的群决策过程演化路径,实现群决策数据分层次的分析挖掘,以及从决策表层次决策规则记录相应的初始决策Agent,到进而约简决策表层次约简决策规则记录、约简决策网络和近似约简决策网络层次决策网络路径相应的约简决策Agent的形式演变,构造多Agent权重型群决策网络。
基于属性权重的纵向约简,即条件属性约简,由决策表约简的是决策Agent的属性,约简决策表具有更少的条件属性,但具有和原决策表相同的知识。根据不可分辨关系和下近似集计算确定的条件属性相对约简通常具有多样性,代表不同决策组合优化偏好,其中条件类划分的决策类划分相对核属性集属于不可约简的共同本质部分属性,占最重要属性权重。
基于个体权重的横向约简,即决策个体约简,由约简决策网络剪枝的是约简决策Agent的个体。根据约简决策Agent支持度量化,由约简决策表形成约简决策网络,对于诸多应用场景而言,采取仅保留cer因子值大于或等于权重阈值的约简决策Agent的近似决策方式可能更具现实意义,以此进一步形成近似约简决策网络,其中近似优化约简决策Agent占最重要个体权重。
着眼于以原始的决策表中决策规则记录Agent为单位进行决策表约简和决策网络分析,框架中决策网络图在形式上对图的基本定义作了广义性扩展,具体呈现为一种不叠加多重Agent型决策网络,决策表中每条决策规则记录Agent均对应于决策网络中一个决策网络路径Agent,每个决策网络路径Agent按分支逐段单独表示且自成整体,并在每个分支相应标注其标识符。决策网络中cer、str和cov等因子值不是按分支相互叠加计算,而是细化到单一决策网络路径Agent分别计算,不同决策网络路径Agent重叠分支不作叠加复合、各自因子值分别并行标注。每个决策Agent及其相应的约简决策Agent有着相同的支持度值,以及意义相近的标识符名称;与同一决策Agent相应的约简决策网络和近似约简决策网络中约简决策Agent有着相同的cer、str和cov等因子值。
通过上述对Pawlak决策层次构成、决策网络分析方法诸方面所作的改进,MIAW-TPFGDM框架实现以决策表中初始决策规则记录Agent作为群决策的基本单位,决策网络中决策分析更精细,更直观反映出决策网络路径Agent基本粒度决策情形和实际关联情况,决策网络与决策表就决策Agent能形成一致对应关系,更客观体现出决策Agent原子性、整体性和决策Agent优化意义,因而更适用于多Agent智能群决策研究。同时,MIAW-TPFGDM框架和MA-IMGDM建模使能构造面向Agent的真正意义上智能群决策网络,更加突现由约简决策表中可能存在的由于约简决策规则条件属性值不能决定决策属性值之类表现出来的不确定到逐步确定过程中决策Agent的贯穿性、主体性,以及决策表建模、决策网络逐层分析、简化和优化等不同形式智能信息处理中决策Agent间协同性、MAS群智能性,表征一种智能不确定群决策模型。
上述智能不确定群决策模型适用于一般的数据分析处理应用,尤其是森林火灾预警、医疗保健监测等物联网、无线传感器网络之类大数据分布式实时性应用环境下智能数据采集与决策分析场景。出于简省性考虑,本示例未给出初始的决策表及其约简处理过程,同时,为了通用性起见,给出一般化描述形式的约简决策表如表1所示,并以此进一步进行相应的群决策分析。
表1 带支持度约简决策表
由表1可知,该约简决策表有两个条件属性分别为CA1和CA2,以及一个决策属性为DA,两个条件属性值集分别表示为{c11,c12,c13,c14}和{c21,c22,c23,c24},决策属性值集表示为{d1,d2,d3},约简决策规则记录Agent个体集表示为{a1,a2,…,a10},支持度Support针对具体约简决策规则记录Agent个体权重而言,表示该约简决策规则记录Agent的支持重数。约简决策规则记录Agent与初始决策表中决策规则记录Agent前后形成一一对应关系,相应的约简决策规则记录Agent与决策规则记录Agent有着相同的Support支持度值。由于决策表约简的特性,造成表1中约简决策规则记录Agent a4与a5的条件属性值和决策属性值都相同的特殊情形,但它们相应的初始决策表中决策规则记录Agent及其支持度值并不相同,因此仍被分别视为不同的Agent个体。
根据约简决策表,将各约简决策规则记录Agent的条件属性值对和决策属性值对依次表示为决策节点,彼此相重的决策节点共同作一次性标记,以此构建相应的各约简决策网络路径Agent,再基于各约简决策规则记录Agent支持度值计算并标注各约简决策网络路径Agent的cer、str和cov等因子值,且在每个分支同时标注标识符,各约简决策网络路径Agent采用与相应约简决策规则记录Agent相同的标识符,如此直至形成约简决策表相应的完整约简决策网络,约简Agent群决策网络如图3所示。
由图3可知,示例中约简决策网络路径Agent a1与a2、a9与a10的CA1-CA2值路径分支分别重叠,约简决策网络路径Agent a6与a7、a8与a10的CA2-DA值路径分支分别重叠,甚至约简决策网络路径Agent a4与a5的CA1-CA2值与CA2-DA值路径分支完全重叠,但这些重叠的路径分支都未作叠加复合,仍作为各自相应约简决策网络路径Agent的具体分支分别单独表示和标识,并按各自相应约简决策网络路径Agent分别计算cer、str和cov等因子值,使得决策分析保证了切合实际的基本粒度。
图3 约简Agent群决策网络
为增强群决策分析的确定性程度,将图3中约简决策网络再行裁剪优化,仅保留cer因子值大于或等于权重阈值的约简决策网络路径Agent a2、a4、a7和a10为近似确定性部分的Agent个体,最终得到近似优化约简决策网络,如图4所示。约简决策网络路径Agent的cer因子值实质上是一种条件概率,作为剪枝约束条件的cer权重阈值根据实际需要作适当设定,如本例中cer权重阈值设定为通常选取的0.5。
图4 近似优化约简决策网络
示例表明,决策网络以Agent为决策基本粒度和决策分析主体,有利于充分揭示Agent之间相互关联,实现到群决策MAS真正意义上映射转换,Agent条件属性纵向约简和个体权重横向约简则使得整个群决策过程逐渐从不确定性趋于近似确定性,呈现出智能不确定群决策分析特性,同时,决策表与约简决策表保持相对分类能力不变,决策Agent与约简决策Agent保持对应关系不变、Agent个体数量不变和Agent支持度值不变。
本文沿用Pawlak决策网络基本方法并弥补改进其分割决策网络路径Agent整体性的决策分析不足,进行多Agent智能群决策建模,提出多智能Agent三阶段权重型群决策框架,突出决策表经约简之后才进行决策网络分析,真正实现面向Agent的MAS智能群决策分析,从而更好地识别并评估不确定数据之间的决策依赖关系。下一步将针对在不叠加决策Agent数据量大的情形下,如何探索相应并行化解决办法以更好处理大数据集,以及针对约简不一定适用于新对象,如何实现动态增量约简以对新对象的分类进行有效预测等方面,开展更加深入的智能不确定群决策研究。
[1]Jacobs A.The Pathologies of Big Data[J].Communication of the ACM,2009,52(8).
[2]周傲英,金澈清,王国仁,等.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1).
[3]王国胤,张清华,马希骜,等.知识不确定性问题的粒计算模型[J].软件学报,2011,22(4).
[4]李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003.
[5]钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12).
[6]Pawlak Z.Decision Networks[C]//The Fourth International Conference on Rough Sets and Current Trends in Computing,LNAI 3066.Uppsala:Springer-Verlag,2004.
[7]Pawlak Z.Some Remarks on Conflict Analysis[J].European Journal of Operational Research,2005,(166).