郭富强
(陕西广播电视大学 资源建设与现代教育技术中心,陕西 西安 710119)
基于LVQ网络的心脏病智能诊断模型
郭富强
(陕西广播电视大学 资源建设与现代教育技术中心,陕西 西安 710119)
充分挖掘大量历史诊断数据中隐藏的规律、模式和专家知识,是建立心脏病智能诊断系统的重要环节。LVQ网络具有很好的模式识别特性,适合数据挖掘。基于LVQ网络建立一个心脏病智能诊断模型。设计了网络结构,选取30个典型诊断案例作为样本,对模型进行训练和测试。结果表明,该模型可较好地反映诊断数据与诊断结果之间的因果关系,用于心脏病诊断具有较高的准确率。
LVQ网络;数据挖掘;分类技术;心脏病;智能诊断
心脏病是世界上对人类生命威胁的第二号杀手。心脏病的快速和准确的诊断始终是医学研究的重要课题。如果能够及时、准确的判断出人们是否患有心脏病,就可以尽快对病人进行治疗,从而使其对人类的危害降到最低。因此有必要引入计算机智能诊断,充分挖掘和共享大量历史诊断数据中隐藏的规律、模式和专家知识,为心脏病诊断提供智能支持,辅助医生诊断。目前许多医院开始使用PACS系统(Picture Archiving and Communication System),它们已收集了大量病人的确诊病例,包括医学影像(包括SPECT,X-CT,PET,MRI,HRCT 等)和其它的有关医学参数,这些数据中包含着心脏病的发病规律和医学专家的丰富经验,为心脏病自动诊断系统的设计提供了重要的资料。充分利用这些以前的确诊病例和专家的诊断经验,加上当前病人的信息,帮助医生快速有效地正确诊断是否患有心脏病,正是心脏病智能诊断系统的目标。
以往的许多医学辅助诊断系统都是基于知识的专家系统,往往存在若干缺陷:知识获取的瓶颈;知识脆弱性;推理单调性等。比如,开发基于规则和知识的专家系统大约60%到70%的时间花费在知识获取上,采取的方法是由专家通过一系列的领域规则来表示它们的启发式分类经验,由于绝大多数专家在表达他们的领域知识方面存在困难,应用效果有时不甚理想,且专家在利用这类知识时,更多地是采用联想等形象思维方法,简言之,从专家那里获取知识与表达困难,且带有定性和主观的特点,难于定量和客观地表示[1]。
人工神经网络是一种旨在模仿人脑结构及其功能的信息处理系统,具有高度的分布式存储、并行处理、自组织、自学习和自适应的能力,擅长处理超高维、强非线性、知识不完备等复杂模式,因此被广泛应用于非线性系统。目前诊断心脏病的参数由多项构成,且各项参数之间互相影响,呈现出复杂的非线性关系, 因此适合运用神经网络这种强有力的工具进行处理。
文中将LVQ网络引入心脏病诊断,建立心脏病智能诊断模型,并通过实际测试验证它的有效性。
建立智能诊断模型的前提是模型能够学习和吸收医学专家的诊断经验,在大量的历史诊断记录中提取诊断的知识。这就要用到数据挖掘技术。所谓数据挖掘就是从大型数据库的数据中提取用户感兴趣的知识的技术。这些知识是隐含的、事先未知的、但潜在有用的信息;提取的知识可以表示为概念、规则、规律、模式等形式。数据挖掘把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,为人们的决策提供支持。
分类在数据挖掘中是一项非常重要的任务。分类的目的是学习一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。分类的输出是离散的类别值。分类模型的构造方法通常有统计方法(如贝叶斯方法)、机器学习方法(如决策树方法支撑向量机方法)、粗糙集方法和神经网络方法等。其中,叶斯方法的基本思想是:假定对研究对象已有一定的认识,那么即可先用先验概率分布来描述这种认识,然后用样本来修正已有的认识,得后验概率分布,最后通过后验概率分布来建立分类函数[2]。决策树方法是用树形结构表示决策集合,这些决策集合是通过对数据集的分类来产生规则[3]。粗集方法基本思想是基于等价类的思想,而这种等价类中的元素在粗集中被视为不可区分的,其基本方法是首先用粗集近似的方法来将信息系统中的属性值进行离散化,然后对每个属性划分等价类,再利用集合的等价关系来进行信息系统的约减,最后得到一个最小决策关系,从而便于获得规则[4]。
神经网络方法主要是从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。可以完成分类、聚类、特征挖掘等多种数据挖掘任务。与上述分类方法相比,具有知识的学习、扩展和升级简便,模式提取迅捷,高维数据挖掘性能优良等特点。在数据挖掘中,较常用的人工神经网络模型有反向传播网模型BP、径向基函数神经网络RBF和自组织特征映射神经网络SOM等。
LVQ 网络是在有教师状态下对竞争层进行训练的一种学习算法。与上述神经网络的模式识别和映射方式相比, 其优点在于网络结构简单, 只通过内部单元的相互作用, 就可以完成十分复杂的分类处理, 也很容易将设计域中的各种繁杂分散的设计条件收敛到结论上来,从而实现模式识别, 简单易行。
需要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的,而有的数据是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据分类算法。
学习向量量化(learning vector quantization,LVQ)网络是在竞争网络结构的基础上提出的,它将竞争学习思想和有监督学习算法相结合,在网络学习过程中,通过教师信号对输入样本的分配类别进行规定,从而克服了自组织网络SOM采用无监督学习算法带来的缺乏分类信息的弱点[5]。
LVQ网络结构如图1所示,由输入层、竞争层和输出层组成。输入层有N个神经元接受输入向量,与竞争层之间完全连接;竞争层有M个神经元,分为若干组并呈一维线阵排列;输出层每个神经元代表一个分类类别,只与竞争层中的一组神经元连接,连接权值固定为1。
图1 LVQ网络结构Fig. 1 LVQ network structure
LVQ 工作分两步[6]: 首先,当一个样本被送至LVQ网络时,竞争层学习输入向量的分类,对于输入向量中存在的某个聚类中心,竞争层将与该中心最接近的神经元确定为获胜神经元,使其输出为1,其它的神经元输出为0,那么输出为1的神经元代表输入的某个类,而常常几个神经元被指定给同一类,称为一个子类;然后输出层将竞争层传来的子类指定给输出层的一个神经元,而输出层每个神经元分别为使用者所定义的一个期望类别,称为一个目标类。这样,LVQ 就完成了对输入向量的模式识别。
LVQ网络必须先进行学习训练,才能进行正确分类。所需的教师信号包括目标类别数、全体训练样本中每个类别所占比例,以及每个输入向量所属类别。学习算法如下[7]:
1)初始化。竞争层各神经元权值向量W1j(0),j=1,2,…,M赋小随机数,确定初始学习速率η(0)和训练次数K。
2)输入样本向量X。
3)寻找获胜神经元j*:
4)根据分类是否确定按不同规则调整获胜神经元的权值。当网络分类结果与教师信号一致时,向输入样本方向调整权值:
否则,将逆输入样本方向调整权值:
其他非获胜神经元的权值保持不变。
5)更新学习速率
当k<K时,k-k+1,转到步骤2)输入下一个样本,重复各步骤直到k=K。
在上述学习中,必须保证η(k)为单调下降函数。
用LVQ网络模型进行心脏病诊断,工作流程见图2。其中,在学习训练阶段,将历史病例数据样本输入LVQ网络,网络经过训练学习并满足要求后,挖掘出了样本中的知识或模式,成功学习并记忆了众多医学专家的诊断经验,按照指定要求对样本进行了分类。在应用阶段,输入实际的诊断数据,网络按照记忆的知识对其进行诊断,其输出即为所对应的诊断结果。
图2 诊断流程Fig. 2 The diagnosis process
心脏病诊断数据结构反映了判断心脏病的依据参数,数据结构的优劣对诊断的正确与否有着重要影响,同时也影响LVQ网络的结构。原则上,数据结构要能够完整描述诊断模式,每个属性应与心脏病密切相关,互相独立,便于测量。根据目前实际,选13个属性,其中的数据类型有离散型、连续型和二进制型。其属性描述如表1。
以某大型医院PACS系统中存储的30个典型诊断案例为样本,前20个作训练样本,后10个作测试样本。
因为数据类型和取值范围差异较大,为平衡各项数据在运算中所占的比重,使诊断结果更加准确,需要将心脏病样本的所有属性值的范围归一化到0-1。具体方法如下:
1)二进制数据的归一化:把它们归一化到0~1 之间,大于0.5的以1输入到网络,小于0.5的以0输入到网络。
2)连续数据的归一化:
其中Y表示归一化后的数据,Xmin表示最小X的值,Xmax标示最大X的值。输入规则同(1)
3)离散数据的归一化:用的公式(5)归一化,方法同(2)。但取值不同,例如Attr13 中的3,6,7 把它们归一化到0~1之间时,3转换为0,7转换为1,而6就转换为3/4。规一化后的样本如表2所示。
表中目标类型1表示未患心脏病,2表示患心脏病。
本模型LVQ网络的输入层有13个节点,用于接收13维输入向量,输出层设置2个神经元,尚待确定的是竞争层神经元个数。竞争层神经元个数太少容易导致网络不收敛,太多又容易降低网络收敛速度,根据以往构建网络的经验并经反复测试,选择竞争层神经元个数为5个。
表1 心脏病诊断数据的属性Tab.1 Attribute heart disease diagnosis data
在matlab中应用函数newlvq()函数构建和训练LVQ网络,主要需要预先设置以下参数:输入向量的各变量的取值范围构成13*2的矩阵,由minmax()函数自动求得;250个训练样本,患心脏病的占45%,未患心脏病的占55%;学习速率取默认值0.01;学习函数取默认的learnlv1()。经过80次训练,网络分类的误差趋于稳定,降至0.1。网络训练的误差性能曲线如图3所示。经仿真,只有3号样本分类不正确。
图3 网络训练的误差性能曲线Fig. 3 Error performance curve network training
表2 归一化后的诊断数据样本(部分)Tab.2 Gauge diagnostic data of sample
将10个测试样本输入网络,其输出的诊断结果与专家诊断结果比较全部正确。如表3所示。但这只是本测试样本的测试结果,并不能得出模型诊断正确率100%的结论。但可以看出,该模型能够较好地实现心脏病的智能诊断。
表3 模型测试结果Tab.3 Model test results
文中建立了基于LVQ的心脏病智能诊断模型,但还不完善。后续要做的工作,一是要把高水平的诊断案例添加到数据库里边,进一步提高系统的准确性和稳定性;二是本模式目前只限于诊断是否患有心脏病,今后应将功能扩展到诊断患病的程度;三是研究如何根据得到的特征形成诊断分析报告,使该模型运用到临床上。
[1]张俊鹏, 贺建峰,马磊.基于最优风险与预防模型的医疗数据挖掘算法[J].计算机工程,2011,37(22):38-40.
ZHANG Jun-peng,HE Jian-feng,MA Lei. Medical data mining algorithm based on optimal risk and prevention model[J].Computer Engineering,2011,37(22):38-40.
[2]Wolbrecht E,Ambrosio B D,Passch B.Monitoring and diagnosis of a multi-stage manufacturing process using bayesian networks[J].Artificial Intelligence for Engineering,Design and Manufacturing,2000,14(2):53-67.
[3]Maulik U,Bandyopadhyay S.Genetic alg o rithmbased clustering technique[J].Pattern Recog nition, 1997,30(7):50-60.
[4]Intan R,Mukaidono M.Generalized fuzzy rough sets by conditional probability relations[J].International Journal of Pattern Recognition and Artificial Intelligence,2002,16(7) : 865-881.
[5]蒋宇,李志雄,唐茗.LVQ神经网络在滚动轴承故障诊断中的应用研究[J].机械科学与技术.2011,30(3):408-411.
JIANG Yu,LI Zhi-xiong,TANG Ming.A learning vector quantization neural network for faults diagnosis of rolling bearing and its application[J].Mechanical Science and Technology for Aerospace Engineering,2011,30(3):408-411.
[6]朱雅菊.基于LVQ神经网络模型的房地产预警研究[J].陕西科技大学学报,2011,29(4):55-58.
ZHU Ya-ju.Research on the early warning system of real estate based on lvq neural network[J].Journal of Shaanxi University of Science & Technology,2011,29(4):55-58.
[7]李会英,曹凯,王晓原.道路线形特征自动分类方法[J].计算机应用,2011,31(6):1693-1695.
LI Hui-ying,CAO Kai,WANG Xiao-yuan.Automatic classification approach to road alignment features[J].Journal of Computer Appli cations,2011,31(6):1693-1695.
Intelligent heart disease diagnosis model based on LVQ network
GUO Fu-qiang
(Resource Construction and Modern Education Technology Center,Shaanxi Radio &TV University,Xi'an710119,China)
Fully tap the hidden historical diagnosis regularities in the data, models and expert knowledge, is an important part of the intelligent diagnosis system of heart disease. LVQ network has the characteristics of pattern recognition is very good, suitable for data mining. Establish an intelligent diagnosis model of LVQ network based on heart disease. Design of the network structure, selected 30 typical cases as samples, training and testing the model. The results show that, the causal relationship between the model can reflect the diagnosis data and diagnosis results, and has high accuracy for diagnosis of heart disease.
LVQ network; data mining; classification; heart disease; intelligent diagnosis
TN702
A
1674-6236(2014)07-0029-04
2013-08-17稿件编号201308109
郭富强(1962—),男,陕西韩城人,硕士,教授。研究方向:人工神经网络和现代远程教育。