基于PCA和CBR的医学诊断专家系统

2011-03-20 03:50侯珊珊
电子科技 2011年7期
关键词:案例库协方差检索

侯珊珊

(西安电子科技大学计算机学院,陕西西安710071)

基于案例推理是人工智能领域中新崛起的一种推理技术,它克服了传统专家系统出现的知识获取瓶颈等问题,能够从新案例中获取知识,反映专家的思维过程,与医学诊断具有较高的相似性。因此,在医学诊断中,案例推理是一种有效的思维方式。但在实际应用中,医学案例库一般由大量的符号属性构成,对所有这些属性进行分析,会增加计算量和分析问题的复杂性,而主成份分析是一种典型的数据降维方法,文中对主成分分析和案例推理在医学诊断中的应用进行了研究。

1 相关理论

1.1 案例推理

案例推理是基于人的认知过程的,其核心思想是:专家在进行某个问题的求解时,往往把以前使用过的与该问题类似的案例联系起来,运用以前解决类似案例的经验、知识和方法,来解决当前问题。其推理过程分为4部分[1]:案例检索(Retrieve)、案例重用(Reuse)、案例修正(Revise)、案例保存(Retain),简称4R过程。具体步骤如下:

(1)将新问题作为目标案例,输入新问题的特征或属性。

(2)检索案例库,根据问题的要求,在案例库中找出与目标案例最为相似的案例,其关键是找出对新问题的解决有最大潜在启发价值的旧案例。

(3)判断检索到的案例的信息和知识是否符合需求,若符合,则复用这些信息和知识,否则根据修正规则来修改检索到的旧案例,对新案例进行计算求解,为成功解决问题提供参考。

(4)将有利用价值的新案例存储到案例库中,并对案例推理系统的案例库做相应调整,以完成案例推理的学习功能。

1.2 主成分分析

主成分分析(PrincipalComponentAnalysis,PCA),是数据降维技术的典型算法[2],它通过构造各因子的协方差矩阵,对协方差矩阵的特征进行分析,把原始数据投影到包含了大部分数据信息的线性子空间中,达到数据降维的目的,结果通常用得分矩阵和载荷矩阵表示。它的优点在于计算过程简单、数据信息丢失少。主成分分析的得分矩阵和载荷矩阵一旦计算出来,新病人的数据就可以被映射到一个新的k维空间,然后进行推理,得出诊断结果。

1.3 RS-PCA算法

RS-PCA(Regular Simplex-PCA)算法[3]是一种无监督的通过正则单行表达式来计算文本型变量之间协方差的方法,当空间维数>2时,它是一个正三角形的延伸。简单正则表达式中,顶点之间的距离相等,其中每个顶点是指不同属性的文本数据,如果变量的空间维数>3,那么该规则的表示是一个四面体。

根据文献[4]的定义,RS算法是基于数学上的正则单行概念的。一个正则单行与一个在n维空间的三角形类似,而且它各个顶点之间的距离相等。假设文本类型的变量,这个变量的取值有kj种,按照RS算法,用正则单行中的一个顶点表示变量的取值,为了表示这些顶点,定义vn(rk)作为n-1个顶点中第k个顶点的位置。

现在假设有变量x1,x2,…,xJ,对于案例a,xi有xia种取值,据此,可以用xia来代替vki(xia),xia表示实例a在变量xi上的取值,然后对每个变量都用这种方法进行处理,将这些组织起来就形成一个如式(1)所示的向量x(a)

再对每一个事例重复这个过程,就可以得到一个N×M的矩阵,其中,N是事例的个数,M是所有变量不同取值个数的总和,这个矩阵是正则单行顶点的列表(List of Regular Simplex Vertices,LRSV)。

根据已构造的LRSV矩阵,可以计算它的协方差矩阵A,协方差矩阵的计算如下

再则,计算LRSV矩阵的协方差矩阵

其中,Aij表示第i列和第j列的协方差。

计算出协方差矩阵,下面就可用主成分分析的方法进行下一步分析。主成分分析是将n维的数据映射到一个低维的子空间中,对数据进行降维处理,降低计算复杂度,同时也保留了原变量的绝大部分信息,并且各个主成分之间是不相关的,是一种比较可靠的数据降维方法,步骤为:

第一步,计算出整个数据集的均值向量和协方差矩阵。

第二步,计算出特征向量和特征值,然后将特征值按降序排列。

第三步,选取前k个特征值所对应的k个特征向量。选取了特征向量,就可以计算出每一个事例的得分,从而得到得分矩阵。

其中,X为LRSV矩阵;P为特征向量组成的矩阵,也称为载荷矩阵。

2 医学专家系统设计

医学案例库一般由大量属性构成,这些属性大部分是文本型数据,为便于数据的分析和处理,需要对其进行数字化处理,对所有的这些属性进行分析会增大计算量和分析问题的复杂性,因此,需要找到一种不丢失信息的属性约简方法来减少工作量。

专家系统首先对医学案例库的符号属性进行数字化转换,然后利用主成分分析进行特征提取,将案例库映射到特征空间,再根据案例推理的方法进行辅助诊断。针对RS的数字化转换方法没有考虑各属性特征的重要性不同,提出了基于权重的WRS数值化方法,提高了系统的准确度;并对案例检索中常用的最近邻策略进行了改进,提出了基于最相似匹配原理的最近邻比值检索方法,提高检索效率,降低计算复杂度。

2.1 基于权重WRS数值化方法

基于权重WRS数值化方法,考虑到每个属性的值对结果的影响不同,根据其贡献大小,赋予不同的数值,对贡献大的值赋一个较大的数,贡献小的就赋一个较小的数值,而不是简单的赋值0或1,使得结果更加准确可靠。如何计算每个属性的不同取值对结果贡献的大小,可以由专家根据经验人为确定,也可以由专家系统自动学习得到。前者易于实现且方便,但不可避免地要受专家主观意识的影响。为使权值更加客观地反映属性值对诊断结果的影响,采用一种基于概率统计的权值计算方法,从案例库中学习得到权值。根据概率统计理论的观点,如果属性值s在所有结果是A的数据集U中出现的频率高,那么属性值s的出现对确定结果是A就重要,否则,如果频率低的话,则属性值s对确定结果是A的贡献就小。计算出了权值,就可以根据权值的大小,在编码过程中赋予不同的数值,但是这些不同的数值如何选取,采用的方法是看该属性有多少个不同的取值,最大的取值就是这个值,其他的按权值的大小依次减少。根据WRS方法得到编码,再按照PCA的步骤进行数据降维。

2.2 最近邻比值检索方法

为加快检索速度,提出基于最相似匹配原理的最近邻比值检索方法。首先对属性的权重进行排序,根据目标案例的属性中权重最大的属性,从数据库中取出一批合格的记录放到数据存储中,然后根据目标案例属性中权重次大的属性,对上述数据存储进行一次过滤,最后对目标案例和数据存储中的记录计算相似度,这样就不用计算目标案例和案例库中每个案例的相似度,只对一些接近的记录进行相似度计算。文中提出利用比值法进行相似度计算,即通过计算新案例和源案例之间的比值来选取最相似的案例。

比值越接近1,说明新案例与该案例的相似度越大。通过使用这种检索方法,大大提高了案例的检索效率,降低了计算复杂度。

3 系统测试

为验证系统的有效性,需要进行测试。测试数据[5],从案例库中随机抽取10个不同的案例作为测试案例,对这些案例的测试如下:(1)第一个案例开始测试。(2)首先将这个案例从案例库中删除,作为要诊断的新案例。(3)在剩余的案例库中进行检索。(4)重复步骤(2)和(3),直到10个测试案例都被测试完。

表1 测试结果

测试证明,本系统具有较好的可靠性。

4 结束语

将PCA和CB R结合构造了一个医学辅助专家系统,对RS的数值转换方法和最近邻检索策略进行了改进,提高了系统的准确度和检索效率。实验证明,该系统的推理机能够有效模拟医生的诊断思维,可以作为医生诊断疾病的一种辅助工具。

[1] 章曙光,钱权,方瑾.范例推理中基于时序的范例匹配方法模型[J].小型微型计算机系统,2003,24(4):640-642.

[2] YAN LI,SIMON C K,SANKAR K PAL.Combining feature reduction and case selection in building CBR classifiers[C].IEEE Transactions Knowledge and Data Engineering,2006:415-428.

[3] CARLES P,DANI C,BEATRIZ L.Diagnosing patients with a combination of principal component analysis and case-based reasoning[J].International Journal of Hybrid Intelligent Systems,2009,6(2):111-122.

[4] NIITSUMA H,OKADA T.Covariance and PCA for categorical variables[C].Hanoi,Vietnam:Proceedings of the 9th Pacific-Asia Conference,PAKDD 2005,Advances in Knowledge DiscoveryandDataMining,LNAI,3518,Spring-Verlag,2005:523-528.

[5] 聂艳召.基于案例推理的羊病诊断专家系统研究与实现[D].西安:西北农林科技大学,2007.

猜你喜欢
案例库协方差检索
心血管外科教学案例库的建设及应用研究
国内首个海事司法案例库正式上线
基于实践应用的基坑工程设计案例库建设研究
用于检验散斑协方差矩阵估计性能的白化度评价方法
MTI朝鲜语同声传译教学案例库建设研究
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
二维随机变量边缘分布函数的教学探索
专利检索中“语义”的表现
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器
国际标准检索