易 霞,李 晟,秦莉花,陈晓阳,王小云
(1.湖南中医药大学护理学院,湖南 长沙410208;2.湖南中医药大学药学院,湖南长沙410208;3.广州中医药大学第二临床医学院,广东广州510120)
运用现代科学技术对中医理论和实践进行科学阐释是促进中医国际化、现代化的重要手段之一,而数字中医药是实现中医药技术飞跃发展的必由之路。数字中医药是利用数字化技术手段进行中医药数据、信息和知识的获取、存储、处理,形成一个将中医药研究、临床实践集于一体的综合中医院数字系统。将数据挖掘技术引入中医药临床研究,建立基于海量数据、以数据为导向的临床研究工作模式,解决以个体化诊疗为特色的中医临床研究的技术瓶颈问题,是中医药现代化的一大创举。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道但又有潜在的有用信息和知识的过程。其中贝叶斯分类是一种典型的基于统计分类方法,贝叶斯定理是贝叶斯学习方法的理论基础,它将事件的先验概率与后验概率巧妙地联系起来,利用先验信息和样本数据信息确定事件的后验概率,可以预测事件发生的可能性。常用的贝叶斯分类方法为朴素贝叶斯和贝叶斯网络。
朴素贝叶斯方法是贝叶斯分类器中最简单的一种。它假定一个属性对给定类的影响独立其他属性,这一假定称作类条件独立,即假定所有的属性变量均是相互类条件独立的[1]。相对于其他分类方法,朴素贝叶斯分类算法的最大特点是不需要搜索,只需简单地计算训练例中各个属性值发生的频率数,就可以估计出每个属性的概率估计值,因而朴素贝叶斯分类算法的效率特别高。
朴素贝叶斯分类算法用于两类分类或者多类分类问题,可用于离散型资料。采用朴素贝叶斯分类算法必须满足以下2个条件:①要决策分类的类别数是一定的;②各类别总体的概率分布是已知的。利用信息增益算法进行辨证属性选择,并分别采用朴素贝叶斯和强属性集贝叶斯网络算法建立中医冠心病临床证型诊断模型。试验结果表明:该分类算法在中医冠心病临床诊断模型中具有良好的分类性能,有助于提高临床辨证能力及发现新的辨证要素[1]。
贝叶斯网络(Bayesian Network)又称为信念网络、概率网络或因果网络,是根据变量之间的依赖关系,使用图论方法表示变量集合的联合概率分布的图形模型。该模型是一种表示概率关系的有向无环图,表达多个变量的分布函数如何分解为单个变量的条件分布函数的乘积。贝叶斯网络由两部分组成:有向无环的网络图形和条件概率分布,主要由节点和弧来组成,其中每个节点代表一个随机变量,并通过给定节点的条件概率与其父节点相关,而每条弧代表一个概率依赖。在贝叶斯网络中,定性信息主要通过网络的拓扑结构表达;而定量信息主要通过节点的联合概率密度表示。贝叶斯网络预测依据就是取后验概率最大的类别。贝叶斯网络以直观的图型方法描述数据间的相互关系,用概率测度的权重表达多个变量间的时序关系、相关关系或因果关系等多种依赖关系。它可把概率推理和网络结构有效地结合起来,概率推理可有效的利用统计知识,而网络结构可以把专家的知识表达出来。因贝叶斯网络提供了进行知识表达、解释、推理和预测等一个连贯的框架,已成功运用于数据挖掘、医疗诊断等人工智能领域,成为此领域的研究热点之一。
采用贝叶斯网络算法对证候与证素间的相关关系、证素组合形成证名的规律进行探讨,结果表明:与中医专家经验有很高的吻合性[2]。通过将中医体系中的916个证候、51项证素及其构成的1 700条证名构成中医辨证贝叶斯网络的节点集,初步建立中医辨证数据库。并通过网络学习,形成中医辨证贝叶斯网络结构及概率表。利用建立的贝叶斯网络中医辨证系统进行数据计量分析、推理验证证候—证素—证名间的关系,其结果与中医专家经验有很高的吻合性。因此,贝叶斯网络是对中医辨证进行信息挖掘处理的一种较好方法,可运用于中医人工智能辨证系统的建立[3]。
对各种分类方法的评估可根据以下几条标准进行:①预测准确率,指模型能够正确预测未知数据类别的能力;②速度,指构造和使用模型时的计算效率;③鲁棒性,指在数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力;④可扩展性,指对处理大量数据并构造相应有效模型的能力;⑤易理解性,指所获模型提供的可理解程度[4];⑥K折交叉验证,为避免出现过拟合问题,可采用K折交叉验证的方法测试贝叶斯的分类正确率,评价模型的精确率。K折交叉验证技术把数据集随机分成大致相等的K份,取其中1份作为测试集,剩下的K-1份作训练集,循环K次,取K次测试的平均正确率作为试验正确率,这种技术能有效的降低手动选取数据集和测试集的偏置。常用的有5折交叉验证和10折交叉验证。
①朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美。该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其他属性的值,而此假设在实际情况中经常是不成立的,因此,其分类准确率可能会下降。②朴素贝叶斯算法成立的前提是各属性之间互相独立,简化计算。当假定成立时,与其他分类算法相比,朴素贝叶斯分类是最精确的,否则可能较低。然而,其对属性变量间的独立性要求较强,但实际上变量间的相互依赖情况是较为常见的,故在实际中较难得到满足。为解决这个问题,可使用贝叶斯信念网络描述这种相互关联的概率分布。该网络能够描述各属性子集之间有条件的相互独立,提供了一个图形模型来描述其中的因果关系。贝叶斯分类在处理大规模数据库时,表现出较高的分类准确性和运算性能。另外,朴素贝叶斯算法没有直接的分类规则输出。③中医辨证是中医专家系统的核心,运用贝叶斯网络根据信息判定症状之间是否存在因果关系,然后利用贝叶斯网络计算判定症状群的类别所属,贝叶斯网络的优点在于把各个症状看作彼此相互联系的整体。贝叶斯网络模型可用于复杂多因果关系的分析。在中医证候研究中,运用此模型可以研究症状之间、症状与证素间复杂的因果关系,是对中医辨证进行信息挖掘处理的一种较好方法。但仍然存在以下缺点:贝叶斯网络是一种频率算法,一些频率低的症状,证素或者证名不能被纳入计算,对症状等变量的描述只有“出现”“不出现”两种状态,不能反映变量的轻、中、重程度[3]。临床上有的症状对某证素的判断是起否定作用的,如脉沉细就能降低证素阴虚的可能性,而贝叶斯网络计算出的局部概率分布参数则无正负之分,势必对辨证的结论产生负面影响。且仍不能全面体现中医辨证的思维能力[2-3]。
中医辨证具有极其复杂性、高度非线性,而贝叶斯网络技术属于思维科学、非线性科学,具有整体性、动态性、复杂性等特点,能将比较模糊、不易掌握的中医辨证理论,用可视的图形、清晰的语义、精细的数据进行描述,有助于对辨证的理解。
[1]孙亚男,宁士勇,鲁明羽,等.贝叶斯分类算法在冠心病中医临床证型诊断中的应用[J].计算机应用研究,2006,3(11):124 -166.
[2]黄碧群.中医辨证的贝叶斯网络运算[J].中国中医药杂志,2006,51(8):237 -240.
[3]朱咏华,朱文锋.基于贝叶斯网络的中医辨证系统[J].湖南大学学报:自然科版,2006,33(8):123 -125.
[4]张海笑,徐小明.数据挖掘中分类方法的研究[J].山西电子技术,2005,32(2):20 -21.