吕亚娟 翁苏湘 李莹
摘 要:该论文的研究视角是当前比较热门的临床医学数据挖掘,分析了临床医学数据的存储特点,提出了依托医院现有网络实现医院的海量临床医学数据挖掘的方法,为医院在疾病诊断和治疗、医学科研与教学、医院管理等方面提供帮助。
关键词:网格 数据挖掘 临床医学数据
中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2015)10(c)-0149-02
快速发展的网格计算将网络上分散的计算机建成了一个虚拟的计算机体系,实现了网络上存在的分散资源的共享,為分布在不同的地方、结构不同的动态变化数据提供了一个存储容器。网格技术一出现就引起了广泛的关注,Globus Toolkit 4推出了支持Windows的Java Ws-Core软件包以来,使网格在Windows下的开发有了一个新的依托平台。数据挖掘改变了数据处理技术,从数据库中提取有用的知识,给决策者提供技术支持。目前,很多决策性的知识都来源于网络,这样,用户需要处理大量的原始数据。将网格技术与数据挖掘结合起来,就可以解决网络上分散数据的挖掘问题。网格技术与数据挖掘技术日渐成熟,完全可以把两者结合起来,完成网络上分散的海量数据的挖掘任务。随着网格技术的逐步成熟,网格的研究也从科学研究单位扩大到了社会的诸多领域,许多商业机构,学校,政府等部门都逐步引入了网格研究应用平台。网格给我们提供的分布式计算平台具有分布式系统的优势,同时弥补了分布式系统自身的许多缺陷。如将网格应用到分布式医院系统,建立一个基于网格的数据挖掘系统,必将使其在疾病诊断和治疗、医学科研与教学、医院管理等方面发挥巨大作用。
1 医学数据的存储特点
医院网络的特点决定其数据源的存储和分布在空间上呈现分布异构特点。分布式数据源是指在物理上分布而逻辑上集中的数据源系统。分布式医学数据源作为数据挖掘工作的对象,是使用计算机网络将地理位置分散的多个逻辑单位(各个节点上的数据集)连接起来,它们的管理和控制又需要不同程度集中,共同组成一个数据源。即分布式数据源可以看成是计算机网络与多个不同组织节点上数据集的有机结合,分布式医学数据源存储特点具有以下几点:(1)物理分布性,数据分散存储在网络中的多个节点上;(2)逻辑全局性,物理上分散存储的在各个节点的数据逻辑上是一个全局数据源;(3)节点自治性,各个节点的数据由本地用户管理,具有自治处理能力,可以完成本节点的挖掘应用,即局部数据挖掘。
分布式医学数据源在数据空间分布、数据结构表达等方面存在许多差异,目前国内外对分布式数据源的分类和定义没有统一的标准,比较认同的分类方法有两种:(1)按局部数据模型分类,分为同构型和异构型。(2)按分布式数据源控制系统的类型分类,分为集中型、分散型和可变型。
2 临床医学数据挖掘的特点
临床医学数据包含的信息非常丰富和复杂,目前基本所有医院都有病人的电子病历,病人的B超、CT、X光、心电图等影像资料也对疾病诊断起到一定的辅助作用,加之涉及到病人信息的病理参数、化验结果等临床信息,它们形成了一个复杂类型的数据库系统,该数据库涉及到病人、科室、医院管理层等多个方面。而临床医学信息又具有隐私性、多样性、不完整性、冗余性、异质性和缺乏数学性质等自身特性,使得临床医学数据与常规的数据挖掘之间存在很大的差异。临床医学数据的挖掘方法主要有统计法、机器学习方法、神经网络法和数据库法,这些方法遍布疾病的诊断、治疗和预防分析以及医院管理的各个方面。
临床医学数据库按是否含有医学影像数据可简单的归纳为两类:第一类为医学影像加上其他相关的医学参数的数据库;第二类为无医学影像的纯医学参数的数据库。该论文主要研究纯医学参数的数据库,以结构化为主的关系型数据为主要研究对象。在医疗实践中产生的大量的结构化医学数据,可以从医院和患者的角度分析这些数据,涉及到医院的信息包括每个科室信息统计和全院数据汇总等方面,涉及到患者的信息包括登记挂号、门诊就诊、开单检查、手术及药物处置、入院治疗、划价交费等方面。
根据临床医学数据源存储特点建立的网格中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。通过上面的分析可知,基于网格的临床医学数据挖掘需求分析可以分为两类:支持网格中心控制节点的数据挖掘需求分析和支持局部网格节点的数据挖掘需求分析。
3 支持网格中心控制节点的数据挖掘需求分析
网格中心控制节点主要处理医院的综合信息。根据医院的实际情况,其现实需求可能有很多种,这里不一一举例,只列举几项。
(1)病人构成分析。分析门诊病人和住院病人性别、年龄、身份、职业等方面,从而得到不同类型病人的经济状况、主要需求医疗服务类型等信息,能够有针对性地采取措施来提高服务质量,增加门诊量和住院量。
(2)患者费用构成分析。患者的费用主要构成有检查费、治疗费、化验费、手术费,这些费用涉及到多个科室,应用数据挖掘技术可以使收费项目结构合理性,优化收费项目结构,减少患者的一些无谓的检查治疗费,病人的负担减少了,医患关系也就更和谐了。
(3)药品使用分析。在某一时间段内,分析各个科室的药品使用情况,及时发现药品使用的不合理现象,为医院管理者提供控制药品比例依据。
(4)各科室费用分析。对比分析医院每个科室或每个病区的在不同时间段内各种费用,找出每个科室盈利或亏损的原因,为奖惩提供量化依据。
4 支持局部网格节点的数据挖掘需求分析
局部网格节点管理的信息具有局限性,涉及的范围较小。
(1)单病种分析:现在的诊断方法、项目很多,选择正确的诊断方法,有助于避免误诊,比如通过测定儿童血液中的钙、铁、镁、锰和血红蛋白等微量元素含量来判断其营养情况。
(2)病人就诊时间分析:很多疾病都是季节性发病的,比如流感、心脑血管病等,这样病人的就诊时间就有很强的季节性,通过分析每月、每季度的门诊人次、住院人次来预测下一时期的门诊和住院人次。
5 结语
以上简单的分析了临床医学数据分布情况下的数据挖掘需求分析,目前数据挖掘技术主要应用于以结构化数据为主的关系数据库、事务数据库和数据仓库。考虑到医院信息的特点,该系统采用三步式数据挖掘方式,数据资源由全局控制节点统一管理,当有数据挖掘任务时,全局控制节点把集中式数据库按水平方式或垂直方式进行划分,把划分好的数据集传递至局部网格节点。结合临床医学数据自身具有的特殊性和复杂性,处理好挖掘过程中的关键技术,基于网格的临床医学数据挖掘将有广阔的应用前景。
参考文献
[1] 肖亮.分布式连锁商业数据挖掘模型[M].北京:航空工业出版社,2008:14-16.
[2] Mario C.,Antonio C.,Andrea P.,Domenico T.,Distributed Data Mining on Grids:Services,Tools,and Applications,IEEE Transactions on systems,man and cybernetics,2004.
[3] 田晶.基于网格的医学数据分析技术研究与实现[D].武汉:华中科技大学大学,2008.
[4] 孙红梅,胡明生.基于网格的分布式数据挖掘模型研究[J].微处理机,2008,12(6):149-152.