D-S证据融合的中医辨证模型

2014-11-04 00:56李四海吕晓云
计算机工程与应用 2014年15期
关键词:证素证型证候

李四海,吕晓云

LISihai1,LVXiaoyun2

1.甘肃中医学院 信息工程学院,兰州 730000

2.兰州大学 中西医结合研究所,兰州 730000

1.SchoolofInformationEngineering,GansuUniversityofTraditionalChineseMedicine,Lanzhou730000,China

2.InstituteofIntegratedTraditionalandWesternMedicine,LanzhouUniversity,Lanzhou730000,China

1 引言

中医强调辨证论治,即从各方面综合诊察患者机体当前阶段的整体反应状态。证素辨证学认为[1],患者的症状、体征为证候,通过对证候的辨识而确定的病理本质为证素。辨证就是根据中医学理论,通过对症状(证候)进行分析,明确病位与病性(证素),最终做出证名诊断的思维认识过程。中医辨证过程中存在大量的模糊、不确定信息,其辨证过程可以归纳入不确定多属性决策问题。在不确定信息的表示及融合方面,传统的方法主要有:基于概率的优化方法及主观Bayes理论、不确定性推理及人工神经网络方法、多属性决策及效用理论、D-S证据理论等。由于D-S证据理论具有处理不确定性的能力以及在工程应用上表现出来的实用性能,近年来在医学诊断、目标识别、故障诊断、投资决策及传感器信息融合等方面得到广泛应用[2]。

在众多的不确定推理方法中,贝叶斯网络被广泛用于中医证素识别及药物功效预测[3-4]。Bayes方法是根据先验概率来更新后验概率。优点是具有坚实的理论基础,计算量适中。缺点是需要大量的概率数据来构造知识库,无法区分模糊及不确定信息,在实际应用中,主观概率及其一致性很难得到保证。

证据理论是由Dempster于1967年首先提出,由Shafer于1976年进一步发展起来的一种不精确推理理论,也称为D-S理论[5],属于人工智能范畴,最早应用于专家系统中,具有直接表达“不确定”和“不知道”的能力,能够根据证据的积累不断缩小假设的集合。与主观贝叶斯方法不同,D-S理论是用一个概率范围而不是单个的概率值来描述不确定性:用信任函数来度量不确定性,用似然函数来度量由于“不知道”带来的不确定性。这样就弱化了相应的公理系统,满足比概率更弱的要求,即不必满足概率可加性。与主观Bayes方法相比,证据理论具有更好的灵活性及实用性。

2 D-S证据理论

2.1 基本概率分配

设Θ为辨识框架,由一系列互斥且可穷举的基本命题组成。问题域上的任意命题A都属于2Θ,在幂集2Θ上定义基本概率分配BPA(BasicProbabilityAssignment)m:

BPA实现了将2Θ上的任意子集映射为[0,1]上的一个数m(A),当m(A)>0时,称 A为BPA的焦元。对焦元A,分别定义信任函数Bel和似然函数Pl:

Bel(A)和Pl(A)分别表示对事件A信任度的下界和上界,Pl(A)-Bel(A)反映了对A不知道的程度。

2.2 证据组合规则

对不同概率分配函数的组合是通过求正交和实现的。

(2)多个信任函数的组合

其中K反映了证据之间的冲突程度,K越小,冲突程度越高,当K=0时,无法使用Dempster规则,当K→0时,会得到与常识相悖的结论。

3 D-S证据融合中医辨证模型

3.1 中医辨证模型

基于D-S理论的中医辨证模型以患者所表现出的各种症状、体征(证候)为依据,根据对证候的辨识来确定病理的本质(证素),由病位、病性证素构成最终的证型名称(证名),其中,由证候辨识证素是关键。设辨识框架 Θ={syn1,syn2,…,synm}为所有证素的集合,共 m个证素,证候的集合 s={s1,s2,…,sk}共 k 个证候,共有n个专家。面对相同的证候,不同的专家会根据各自的知识和经验给出不尽相同的诊断结果,所以模型采用多级融合的群决策模式,以降低系统的不确定性同时提高诊断结果的可信度。

第一级融合:以各种证候为证据,经过证据融合,得到证素的初步辨识结果。具体过程为:首先由每个中医专家根据证候集及自己所具有的中医知识给出每个证候下的基本概率分配,然后对所有证候的mass函数求正交和。这样,对相同的证候集,通过证据融合得到每个专家各自的mass函数。

第二级融合:在相同的辨识框架Θ下,对所有专家给出的mass函数再次进行证据融合,进一步降低系统的不确定性,提高各证型之间的可区分程度。二级融合结果作为最终的辨证依据。

基于D-S理论的多级中医辨证模型如图1所示。

图1 基于D-S多级证据融合的中医辨证模型

3.2 证据冲突及近似计算

大量的研究表明,D-S理论在实际应用中需要注意两个问题:对冲突证据的处理及提高计算效率[6-8]。

首先是证据冲突问题,当各个专家的意见发生严重不一致时,会产生证据冲突,对冲突证据的处理可从两个方面进行:(1)根据对专家的信任程度,为专家赋予不同的可信度,降低可信度低的专家对融合结果的影响,降低决策风险。(2)对冲突证据进行预处理,然后再使用Dempster规则合成证据,如通过对证据加权求平均来消解或缓解证据冲突[9]。

其次是计算量问题,这是保证基于D-S理论中医辨证模型实用性的关键问题,由于中医证候、证素很多,规范后的证候有700余项,证素有50余项,如果直接使用该模型时会产生“焦元爆炸”。假设有k个证候,m个证素,则要得到一个第二级融合的证据需要的计算量为2km,如此指数级的计算量是难以接受的。

Voorbraak发现[10],如果mass函数的合成将产生一个Bayes信任函数(即一个识别框架上的概率测度),则mass函数用它们的Bayes近似来代替,将不会影响Dempster合成规则的结果。Voorbraak给出了mass函数的Bayes近似计算公式,即

根据以上公式,在第一级融合前,首先计算mass函数的Bayes近似,减少焦元的数量,即识别框架中凡是含有两个及以上证素者其mass函数值均为0。假设经近似计算后识别框架中含有单个证素的焦元有t个,证候数量仍为k个,则近似计算后的贝叶斯mass函数矩阵如下:

每个专家的BPA可按如下的公式计算:

可以看出,以上公式将正交和变为了连乘的形式,大大简化了计算量,从而使得基于D-S证据理论的中医辨证模型具有更好的实用价值。第一级融合结束后,对所有专家的BPA进行第二级融合仍按公式(2)进行。

3.3 证型决策规则

为了有效合理地利用D-S证据融合2得到的基本概率赋值进行证型决策分析,给出如下的决策判据:

(1)目标证型应具有最大的基本概率赋值。

(2)目标证型的基本概率赋值应该大于合成的不确信度。

(3)目标证型的基本概率赋值与其他证型的基本概率赋值的差值应该大于给定的阈值θ。

(4)不确信度赋值m(Θ)必须小于某个阈值。

(5)证据冲突程度K要小于给定门限值,以保证诊断结果的合理性和实用性。

4 实例分析

使用该模型对冠心病进行中医辨证。首先收集冠心病的一系列证候(包括主诉症状及四诊信息),构成证候集,然后对证型名称进行规范,按照本虚(气虚、血虚、阴虚、阳虚)、标实(气滞、血瘀、痰浊、寒凝)将证型分为气虚血瘀、气滞血瘀、血瘀痰浊等证型[11],分别用S1、S2、S3来表示,构造辨识框架 Θ={S1,S2,S3,{S1,S2},Θ}。证候集由本虚和标实的各主要症状和次要症状组成。

在证候集中,与各证素关联的症状主要有脉诊、舌诊及体征信息,症状有主、次之分。如血虚的主症为紫默舌、口唇青紫;次症为胸痛、脉弦。痰浊的主症为腻苔;次症为脉滑[12]。中医专家根据各证型的主、次症状给出各症状对证素的贡献度,即基本概率分配,对各主、次症状的BPA进行融合可得到每个专家的BPA。表1给出了两个专家面对相同证候集给出的各自的BPA,分别用m1和m2表示。

表1 D-S证据融合后的mass函数(K=0.705)

对两位专家给出的mass函数进行证据合成,首先计算归一化常数K:

限于篇幅,其他计算过程省略,最后合成的结果如表1所示。从表1结果可知,m(Θ)明显减小,说明D-S证据融合降低了疾病诊断的不确定性。融合前,每个专家对各证型给出的基本可信度函数值都偏低,无法得出令人信服的诊断结果;融合后,基本可信度函数值较单个专家给出的基本可信度函数值具有更好的可区分性,主要证型的基本可信度函数值有较大程度的提高:S2的基本可信度函数值由融合前的0.4或0.3提高至0.51,为各证型中最大,根据本文提出的证型决策规则,S2(气滞血瘀证)为最终诊断的证名。随着专家证据的积累,假设集会逐步缩小,主要证型的可信度会不断提高,诊断结果也会更令人信服。

需要指出的是,当专家较少时,最终诊断结果与证型决策规则(3)中阈值θ的关系较大。阈值θ越小,诊断结果越稳健,但诊断结果中可能会包含多个证型;反之,如果要求最终诊断结果中只包含单一证型,则阈值θ可以取大一些,表明诊断决策为追求精准度而愿意承担诊断结果缺失的风险。如果专家较多且采用了合理的冲突证据消解方法,阈值θ对最终诊断结果影响不大,当θ取值较大时模型仍然具有较高的辨证精度。

以下进行近似计算,以和表1加以对比,首先计算出Bayes的mass函数,然后计算新的归一化常数K′:

根据表2的融合结果,依据证型决策规则,可以得出诊断结果仍然为气滞血瘀证,说明近似计算方法是有效的。由此可知,如果诊断结果只关注单一证型,则近似计算过程简单明了,特别是当证据很多时,计算量大为减少,使得基于D-S证据理论的中医辨证模型具有更好的实用价值。对比两种方法的计算结果发现,表2中合成的mass函数值较表1都有不同程度的增加,原因在于通过mass函数的Bayes近似,对{S1,S2}及Θ的不确定性进行了消解,增加了S1、S2、S3的确定性。

表2 近似计算后的mass函数

5 结论

基于D-S多级证据融合理论建立了中医辨证模型,分析了模型的证据冲突及近似计算问题,提出了证型决策规则,并以冠心病的中医诊断为例验证了模型的有效性。理论分析和实际应用表明,模型的有效性很大程度上依赖于证候和证素之间的基本可信度分配,在下一步的工作中,BPA可以考虑采用专家诊断和人工神经网络、支持向量机输出相结合的方法,以得到更为客观和准确的可信度分配,进一步提高基于D-S理论中医专家系统的实用性和有效性。

[1]朱文锋.证素辨证学[M].北京:人民卫生出版社,2008.

[2]何兵,郝爱民,赵沁平.一种基于不确定信息的决策方法[J].计算机学报,2004,27(2):281-285.

[3]朱文锋,朱咏华,黄碧群.采用贝叶斯网络运算进行中医辨证的探讨[J].广州中医药大学学报,2006,23(6):449-452.

[4]刘颖,李江,王耘,等.贝叶斯网络在中药活血化瘀功效预测中的应用[J].北京中医药大学学报,2008,31(4):229-231.

[5]姚丽莎,赵海峰,罗斌,等.基于证据理论的小波域多特征医学图像融合[J].计算机应用,2012,32(6):1544-1547.

[6]徐从富,耿卫东,潘云鹤.面向数据融合的DS方法综述[J].电子学报,2001,29(3):393-396.

[7]张航,王一军,罗大庸.改进的D-S证据理论及在水质评价中的应用[J].小型微型计算机系统,2010,31(6):1236-1239.

[8]尹慧琳,王磊.D-S证据推理改进方法综述[J].计算机工程与应用,2005,41(27):22-24.

[9]吕悦晶,宋向勃,张蕾,等.一种加权改进的D-S证据推理算法[J].计算机应用与软件,2011,28(10):30-33.

[10]VoorbraakFA.Computationallyefficientapproximation ofDempster-Shafertheory[J].IntJMan-MachineStudies,1989,30:525-536.

[11]孙亚男,宁士勇,鲁明羽,等.贝叶斯分类算法在冠心病中医临床证型诊断中的应用[J].计算机应用研究,2006,11:164-166.

[12]吴荣,聂晓燕,王阶,等.基于贝叶斯网络的名老中医治疗冠心病辨证规律研究[J].中国中医药信息杂志,2010,17(5):98-99.

猜你喜欢
证素证型证候
肥胖中医证候动物模型研究进展
糖尿病前期中医证型及证素特点分析
2型糖尿病合并肥胖患者的相关危险因素和中医证素分析
基于因子分析及聚类分析的241例感染后咳嗽中医证素证型研究
治咽炎要分清证型
不同证型糖尿病的调理
基于自适应矩估计的BP神经网络对中医痛经证型分类的研究
《伤寒论》三阳三阴病证的证素辨证研究
昆明地区儿童OSAHS中医证候聚类分析
慢性乙型肝炎的中医证候与辨证论治