军队慢性疾病诊疗数据库与数据挖掘研究综述

2014-01-30 22:08刘丽华
中国医院 2014年9期
关键词:数据挖掘军队卫生

■ 姚 远 刘丽华

1 军队慢性疾病概述

军队慢性疾病是指在军队成员中发病率高的疾病或损伤,这类疾病严重影响军队成员训练与日常工作和生活。同样,军队慢性疾病的发展与控制也是军队卫生事业管理的重点与难题。为了提高军队平战时常见慢性疾病防治的信息支撑能力,更好地发挥信息对平战时军队卫生决策的支持作用,拟在卫生信息标准的基础上,通过对军队常见慢性疾病信息集成以及规范化描述,构建军队常见慢性疾病诊疗数据库,研发基于标准化的、网络化的军队常见慢性疾病诊疗数据挖掘系统。

目前军队成员的心脑血管疾病、代谢类疾病等慢性疾病逐渐成为造成部队战斗力严重损害的主要因素。对影响军人健康的慢性病进行有效防控,是增强军人健康水平、提高部队战斗力的关键环节[1]。然而,目前军队尚缺乏权威、统一、公开、共享的针对平战时常见疾病诊疗数据服务平台,使得众多基层卫生机构、教学科研长期以来在获取疾病诊疗信息和数据支持方面遇到很大障碍。与此同时,军队医院信息系统经过20多年的建设,通过信息技术和信息装备的广泛运用,积累了海量详实的临床诊疗数据,但由于缺乏统一的信息提取与汇总标准,这些数据难以被有效集成、充分利用。

2 军队慢性疾病管理中的问题

2.1 军队慢性疾病发展快

2011年,某部队呼吸道传染病报告率占39.15%[2],严重威胁着军队指战员健康。军队慢性疾病在较长时间内严重影响军队成员的正常工作和生活,给部队战斗力造成危害,同时,对这些疾病的诊治也耗费了巨大资源。常见慢性疾病的临床诊疗和科研攻关,需要以大量客观、详实的临床一手数据资料为基本条件。因此,建立常见慢性疾病诊疗数据库并深入开发和应用,是防控军队常见慢性疾病、提高部队战斗力的重要环节[3]。

2.2 军队慢性疾病诊疗数据资源丰富但利用不足

目前,存在着军队疾病诊疗数据资源丰富与利用不足的矛盾。经过20多年的信息化建设,军队医院在信息化建设方面取得了突出成绩:所有军队医院均建立了HIS,相当一部分医院建立了管理信息系统(MIS)、临床信息系统(CIS)、医学图像存储与传输系统(PACS)等。军队医院信息系统的建立,为常见病研究与防控积累了海量的临床诊断、治疗、用药、手术、费用、康复以及患者情况等第一手资料。例如,仅解放军总医院一家医院的电子病历数据库就存有达30多万份,医学影像学资源数据达到20TD。这些数据无疑是军队乃至国家进行常见病临床诊疗效果评价、疾病负担分析、诊疗技术创新、临床医师培训、卫生政策研究的宝贵资料[4]。

2.3 军队卫生信息标准化建设落后

然而,由于卫生信息标准化建设的落后,这些离散存储的数据无法被集成到一个统一的平台上供军队基层卫生机构、科研人员使用,而长期处于闲置状态,资源浪费严重。众多科教研与技术创新实践,都需要在数据采集与获取方面耗费大量人力、财力与物力,且经常出现数据重复采集现象,在耗费国家军队大量资源的同时,由于样本偏倚、采集方式等问题,数据的代表性和质量难以保证。由于医疗行业科学研究、技术培训、继续教育与技术创新的密集性,这样的成本投入与重复浪费现象与日俱增。

2.4 军队慢性疾病管理迫切需求数据支持

目前军队正不断完善医疗保障制度,涉及众多卫生政策研究与制度制定,迫切需要大量基于病种的个案化诊疗数据作为研究和分析的基础。而从未来的发展趋势来看,更需要一个稳定的、不断完善的基础性统计数据资源环境,作为军队卫生管理与卫生政策研究的基础环境,如在医疗付费模式改革方面需要参照各类病种的大量费用及诊疗数据;在医院补偿机制、支付方式改革的研究方面需要大量药物使用、价格等数据;在医疗机构的配置方面需要参考常见病诊疗的统计数据,所有这些,均迫切需要建立军队常见病诊疗数据库[5]。但是,目前我国存在慢性病信息化与科学研究的重复投入、数据偏倚、质量不高等现象,在发达国家通过建设统一的数据平台被有效避免,使其科研人员以高效率、低成本的方式获得真实、权威的数据,进而产出高质量的研究成果。

3 慢性病诊疗服务研究现状

3.1 国外网络化医疗数据服务现状

相比于我国诊疗数据的整体闲置状态,发达国家早已开展了网络化医疗数据服务,例如美国First Data Bank专门收集整理和发布药品相关信息,而各类疾病的临床指南相关数据则由专门的医学委员会负责整理发布。监测、流行病学及预后(Surveillance, Epidemiology and End Results,SEER)计划自1973年1月1日开始,收集并发布美国肿瘤发病和存活数据。这些数据服务为美国医学研究人员提供了一个权威、公开、高效的数据支持环境,节省了大量数据采集与获取成本[6]。

3.2 国内卫生信息标准研究现状

2003年底,原卫生部信息化领导小组委托卫生部医院管理研究所等单位研究制定了《中国医院信息基本数据集标准1.0版》,作为医院之间、医院和卫生行政主管部门、医疗保险部门之间进行信息交换的基础[7-8]。2004年,中国疾病预防控制中心开展了《中国公共卫生信息分类框架与基本数据集标准》研究,形成了公共卫生信息分类与编码、概念模型框架、公共卫生服务评价指标体系框架、50个基本数据集标准和l5l3个决策层数据元[9]。2005年,原卫生部统计信息中心研制了《社区卫生信息技术标准》;受原卫生部标准化委员会委托,解放军总医院2008年编写了《卫生信息数据集分类与编码规则》等4项部颁标准,2011年又编写了《卫生信息数据元目录》等17项部颁分项标准[10-12]。2008年,由《医药卫生科学数据管理与共享服务系统》标准项目组和国家信息中心负责研制了《医药卫生科学数据共享元数据标准》[13-15]。

2006年解放军总医院编写了《医药卫生科学数据共享工程数据分类与编码方案》,基于科技部《科学数据共享工程分类与编码基本原则与方法》,面向医药卫生领域基础、临床、公共卫生、中医药4个数据中心及药学主体数据库,对数据资源进行系统化归纳、层次化标识、规范化表达。由总后卫生部统一设计、编制和实施的“军字一号”系统1997年开始在军队医院投入运行, 到2004年底在全军所有医院实施[3]。军队医院信息化的迅速发展,使医疗记录电子化过程加速,包括医生工作站、护士工作站、检验信息系统(LIS)、PACS等临床信息系统,药物知识库系统,基于XML的电子病历系统先后启用,使军队医院信息系统成为疾病诊疗数据的存贮载体[5,16]。

3.3 国外疾病诊疗数据服务现状

发达国家较早开展了很多医疗数据服务应用研究。其中,美国国立肿瘤研究院(NCI)的SEER计划为我们提供了很好的范例。该计划建立了收集并发布美国肿瘤发病和存活信息的权威资源,这些数据来自于覆盖了大约26%美国人口的肿瘤登记体系。SEER计划是一个流行病监测系统,它的登记系统按照例行程序,收集各个区域的新发肿瘤确诊患者,其数据包括肿瘤诊断,以及针对肿瘤的手术和放疗(第一疗程)。SEER-Medicare数据是一个能够用于向癌症研究提供支撑的专门资源,是SEER的癌症登记数据和Medicare 支付数据相结合的结果,其中SEER数据包括了收集临床、人口统计学和死因信息的肿瘤患者登记;医疗保险支付数据包含了死亡之前、从一个人的医疗保险纳入时间开始所包括的健康保健服务数据。作为SEER-Medicare一部分发布的SEER数据是通过一个定制的病人权利和诊断摘要文件(PEDSF),包含SEER数据库里与Medicare登记相匹配的患者记录。每个患者最多有10条肿瘤诊断事件的基本SEER诊断信息是可获得的。PEDSF包括每个患者出生年月、死亡日期(如果死亡)、性别、种族和所居住的行政区等信息,也包含来自于其它辅助调查资源的变量和来自于人口普查局的人口经济学状况变量[7-18]。

4 国内外数据挖掘的研究现状

4.1 数据挖掘的概念

数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道但又是潜在有用的信息和知识的过程。将数据挖掘技术应用到医学信息数据库中,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断[19-20]。

医疗数据挖掘是从大量数据中抽取出医学知识的过程[21],其目标是通过对历史医疗数据的分析统计得出满足患者需求的结果,并利用所得到的知识辅助医生疾病诊断和治疗,避免医疗差错。数据挖掘包括数据的清洗、数据的分析以及知识的获取。其间的个个环节均要紧密结合,其工作实际是反复循环的人机交互处理过程,功能是解决既往医学海量数据集和信息利用不足的问题。

4.2 数据挖掘概况

随着医学信息技术的高速发展,HIS和电子病历的广泛应用,医学信息数据的容量在不断膨胀,但是由于缺乏数据挖掘知识和技术的手段与工具,往往导致“数据海量但信息利用贫乏”。如何促进医学研究,充分利用和共享宝贵的医学信息资源来为疾病诊断、治疗提供科学决策,是医学信息领域研究关注的焦点。迫切需要新的信息技术能够智能、自动、高效地将杂乱数据转化成为有用的诊疗信息和医学知识,迫使医学信息投入到数据挖掘技术的学习与应用中[22-23]。

4.3 数据挖掘的医学应用

既往疾病诊断系统是将医学专家和临床专家的诊断经验转化为规则,只要向系统中输入疾病症状即可给出判断,为医生提供避免主观判断失误的辅助决策信息。但是,该诊断系统是根据专家主观判断经验来制定的,缺乏客观性和普遍性,其推理规则和结论都是预先设计的规范病症,而患者疾病的症状很难表现和描述一致,所以具有明显的局限性。通过应用数据挖掘技术,对患者临床医学资料数据库中大量历史数据给予处理,挖掘出具有重要参考价值的诊断规则,以获得更加科学的诊断结论,从而排除各项人为主观因素的干扰,更具有客观性。文献表明,应用粗糙集对既往病种病例的医学数据进行数据统计和数据挖掘归纳出诊断规则,可以预测新的疾病,现有人工预测早产的准确率只有17%~38% ,粗糙集可以提高到68%~90%。在病案首页信息库中,就有患者基本信息,包括年龄、性别、居住地、职业、生活情况等, 通过关联规则可以得出具有价值意义的医学关系及诊疗模式[24-25]。

目前,国内外已有不少这方面的成功案例,如贝叶斯法应用到患者CT图像的自动诊断[26]和抗精神病药物与心肌病发作关系的研究[27],推导机法对重症监护患者的呼吸压力-体积曲线分析[28]、关联规则法应用头外伤患者CT检查的适应证判断等[29-30],都取得了理想的效果。再比如:采用Bayesian神经网络法,组合神经网络对危及生命的心律失常的归类研究[31-32]。运用并行遗传算法为治疗二尖瓣脱垂综合症提供决策[33],采用进化规划对胸痛症状疾病诊断[34],运用进化计算方法还可以对脊柱的侧凸进行分类[35]。应用粗糙集对肺癌诊断[36]、预测脊髓损伤病人的下床活动时间[37]和检测宫颈癌病变阶段[38]等。

5 结论

医学数据库的信息量非常庞大,且其数据和其他类型的数据相比,又具有自身的独特性。要想充分利用丰富而宝贵的医学资源,服务于医学、受惠于患者,必须选择适合医学数据类型的数据挖掘工具及挖掘技术,尽可能大的发挥数据挖掘技术在医学信息获取中的价值,为医学的发展开辟一条新的途径。而数据挖掘技术具有众多成功应用处理医学海量数据的案例,较好的帮助人们从中挖掘出有用的诊疗信息,获取所需要的知识。如果利用军队大型综合医院丰富的疾病诊疗资源优势,建立具有海量存贮特性的军人慢性病诊疗数据库,从军人患者的诊疗数据中挖掘出所感兴趣的慢性病诊疗、预防、保健等知识,协助医生进行临床诊断,利于军事医学的传承与发展和避免军队非战斗减员,是保存战斗力的有效举措之一。

[1]夏素明,苏法荣,贾伟,等.体系部队干部健康管理工作的做法与体会[J].人民军医,2009, 52(12):8521.

[2]李荣,王盛书,姚伟.1992-2011年某部队呼吸道传染病发病情况分析[J].预防医学情报,2013,29(1):66-68.

[3]李元新,杨春辉,陈延丽.军队干休所慢性疾病分级管理模式探讨[J].2011,54(5): 388-389.

[4]李小华,刘晓辉,彭传薇.对军队医院信息化发展的思考[J].解放军医院管理杂志,2009,16(1):1095-1096.

[5]任国宏.整合军卫远程信息资源 实现远程会诊本地化[J].医疗卫生装备,2007,28(5):46-48.

[6]Anita A, Joan LW, Keith MB, et al.Overview of the SEER-Medicare Health Outcomes Survey Linked Dataset[J].Health Care Financing Review, 2008, 29(4): 5-21.

[7]张聚兴,刘俊芳.加快推行我国医疗信息标准化的建立[J].中国医院管理,2004,24(1):30.

[8]刘丽华,金水高,张黎黎.我国卫生信息标准化工作进展[J].中国卫生信息管理,2009,6(1):28-32.

[9]王海军,金水高,刘丽华.公共卫生决策数据元概念框架的研究[J].中华预防医学杂志,2007(5):348-352.

[10]刘丽华,张黎黎,金水高.卫生信息数据集分类与编码规则的研究[J].中国卫生统计学,2008, 25(5): 494-496.

[11]刘丹红,王霞,杨鹏,等.军队卫生信息数据集和数据元的标准化[J].解放军医院管理杂志,2009,16(8): 745-747.

[12]刘丹红,徐勇勇,鱼敏,等.军队卫生信息标准研究概况与面临的挑战[J].解放军医院管理杂志,2004,11(6): 514-515.

[13]李毅,蔡刿,尹岭.医学元数据标准制定基本策略和流程[J].情报学报,2006,25(3): 312-315.

[14]金水高,刘丽华.加强公共卫生信息标准化建设促进公共卫生信息广泛交换和共享[J].中华预防医学杂志,2007,41(5):339-341.

[15]刘璐璐.医疗信息标准化管理与应用[J].深圳中西医结合杂志,2007, 17(6):386-389.

[16]薛万国.我国电子病历研究进展[J].中国医院管理,2005,25(2):17-19.

[17]Warren JL, Klabunde CN, Schrag D, et al.Overview of the SEER-Medicare data: content, research applications,and generalizability to the United States elderly population[J].Med Care,2002,40(S8):3-18.

[18]Malet G,Munoz F,Appleyard R,et al.A Model for Enhancing Internet Medical Document Retrieval with“Medical Core Metadata”[J].Journal of the American Medical Informatics Association,1999,6(2):163-172.

[19]肇恒宇.数据挖掘技术在医学领域中的应用[J].中国科技信息,2009,15:129-130.

[20]贺宪民,吴骋,于长春,等.数据挖掘技术在医学领域中的应用[J].第二军医大学学报, 2003,24(11):1250-1252.

[21]HAN Jia-wei,Micheline Kamber.数据挖掘概念与技术[M].北京:高等教育出版社,2001.

[22]Piatetsky-Shapiro G.Data mining and knowledge discovery in business databases [J].ISMIS,1996,1079:56-67.

[23]于长春,贺佳,范思昌,等.数据挖掘技术在医学领域中的应用[J].第二军医大学学报,2003,24(11):1250-1252.

[24]毕雪华,森干.数据挖掘技术在医学领域中的应用[J].电脑知识与技术,2007,17: 1366-1367.

[25]姚远,刘丽华,冯丹,等.基于军队卫生信息标准数据元在手术信息中的挖掘与利用[J].中国卫生信息,2012,1(1): 15-16.

[26]Sacha JP, Goodenday LS, Cios KJ.Bayesian learning for cardiac SPECT image interpretation [J].Artif Intell Med,2002,26(1-2):109-143.

[27]Coulter DM,Bate A,Meyboom RH,et al.Anti psychotic drugs and heart muscle disorder in international pharmaco vigilance: data mining study[J].BMJ,2001,322(7296):1207.

[28]Ganzert S,Guttmann J, Kersting K, et al.Analysis of respiratory pressure-volume curves in intensive care medicine using inductive machine learning [J].Artif Intell Med,2002,26(1-2): 69-86.

[29]Imberman SP, Domanski B, Thompson Hw.Using dependency/association rules to find indication for computed tomography in a head trauma dataset[J].Artif Intell Med,2002,26(1-2):55-68.

[30]Evans S, Lemon SJ, Deters CA, et al.Automated detection of hereditary syndromes using data mining [J].Comput Biomed Res,1997,30(5):337-348.

[31]Mapel DW, Coultas DB.Ethnic differences in the prevalence of nonmalignant respiratory disease among uranium miners[J].Am J Public Health, 1997,87(5):833-838.

[32]Dokur ZO,lmez T.ECG beat classification by a novel hybrid neural network[J].Computer Methods and Program sin Biomedicine,2001,66:167.

[33]Podgo relec V,Brest J,Koko P.Power of heterogeneous computing as a vehicle for implementing E (3)medical decision support system[J].Int J M ed Inf,2000,58(59):179.

[34]Bojarczuk CC, Lopes HS, Freitas AA.Genetic programming for knowledge discovery in chest Pain diagnosis[J].IEEE Eng Med Bio IM ag,2000,19(4):38.

[35]Wang ML,wai L,Leung KS.Discovery knowledge from medieal database using evolutionary algorithms[J].IEEE Eng Med Bio IM ag,2000,19(4):45.

[36]Kusiak A,Kern JA,Kernstine KH,et al.Autonomous decision making: a data mining approach[J].IEEE Trans Inf Techno IBiomed,2000,4(4): 274.

[37]Ohrn A,Row land T.Rough sets: a knowledge discovery technique for multifactorial medical outeomes[J].Am J Phys Med Rehabil,2000,79(1):100.

[38]Mitra P, Mitra S, Pal SK.Staging of cervical cancer with soft computing[J].IEEE Trans Bio med Eng,2000,47(7): 934.

猜你喜欢
数据挖掘军队卫生
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
军队组织形态解读
卫生歌
讲卫生
办好卫生 让人民满意
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议
旧军队的改造和国民革命军的建立
中国军队河内受降记