李训栋 崔琦 陈豪
(淄博市中心医院信息科 山东省淄博市 255036)
信息化建设能够提高医院信息管理的工作效率,解决传统数据记录、存储和调用等复杂重复化的工作问题,是医院信息管理工作先前发展的重要标志。但随着医院体系的不断发展,多元化建设的不断深入,导致医院信息出现种类复杂、数据多、信息调用缓慢和信息利用不全等问题,致使常规的信息管理系统已经无法适应现阶段的信息管理需求。
在国内已有很多此方面的研究,文献[1]中提出B/S(Browser/Server)技术结构设计一种自动化办公平台,主要针对操作系统和数据库两大问题进行研究,可在一定程度的上解决医院信息第三方管理应用接入难的问题,提高信息共享能力与形式转换工作能力。文献[2]中提出一种针对医院护理信息跟踪管理的系统,通过该系统可实现提高不良护理活动上报率的目的,可为后续的事件处理提供参考依据。在国外文献[3]中针对医院血库配送活动构建区域服务网络,通过该网络可实现对血库血液的记录管理,并提出选择血液的暂定年龄匹配政策和网络兼容等问题的思考方向。
就目前而言,鉴于C/S架构稳定性较好、客户端响应速度快等优势,国内仍有大量医院正在使用或即将上线C/S架构的院内信息化系统,随着医院业务的不断发展和日积月累,医院沉淀了大量的结构复杂难以利用的医疗信息数据,同时,又随着新政策和新技术等对医院信息数据提出的更高要求,导致目前医院信息数据在利用过程中出现不完整、不及时、不可靠等问题,如何解决CS架构下医院信息种类复杂、数据多、信息调用缓慢和信息利用不全等问题,变得尤为重要。
面对海量的医院信息数据,高效、科学、全面的数据挖掘方法尤为重要,如何从海量的医院信息数据中,把相关联的不同表联系起来,构建有意义的关联规则,将数据关联起来,帮助使用人员进行数据分析并做出合适的决策,目前常用的关联规则方法有很多,如贝叶斯网络、决策树、Apriori算法等。其中Apriori算法作为一种挖掘单维布尔型的关联规则算法,最早由R.Agrawal等人在1993年提出来的,是关联规则挖掘频繁项集的经典算法。该算法的优点在于使用先验性质,频繁项集逐层产生的效率被大大提高,算法本身简单易理解,无复杂推导,同时对数据集要求不高,目前应用较为广泛,但是Apriori算法也存在一定的缺陷,尤其是当数据库很大的时候,候选频繁k项集数量巨大,在验证候选频繁k项集的时候,需要对整个数据库进行扫描,非常地耗时。另外,决策树算法是数据挖掘技术中的一种重要的分类与回归方法,基于“树”结构来进行决策,比较容易理解,对样本数量要求较低,但是缺点在于该模型算法容易产生较为复杂的模型,导致模型对数据的泛化性较差。所以,本文将分别对Apriori算法进行改进、把贝叶斯分类法融合决策树算法得到增量决策树算法并应用于CS架构下的医院信息数据管理。
基于上述文献和医院面临的困境可看出,多数研究均以医院日常某项活动为对象,缺少对医院信息的整体管理方向研究。因此,本文将融合上述研究的不足之处将医院信息下的门诊、住院、药品、财务、决策以及系统维护等因素全部融合到系统优化的设计方向中,运用数据挖掘技术对上述因素产生的信息进行处理。下文是基于C/S(Client-Server)架构对系统设计与信息处理的详细描述。
国内医院信息管理系统起步于80年代,从最初的以财务为核心的收费系统,到近年来围绕以病人为核心的临床信息系统,在医院业务不断发展的过程中,医院信息管理系统扮演了一个很重要的角色,已经覆盖了医院医疗服务、临床管理、运营管理、科教研等方方面面的广泛应用,医院信息管理系统已经成为医院现代化进程的重要内容,同时也是医院发展必不可少的基础设施和技术支撑环境。从进入到21世纪后,我国计算机网络事业得到了飞速的发展,国内医院信息化建设水平日渐提升,为医院医疗服务水平的提高提供了重要的保障。现阶段,在医院建设发展过程中,管理人员已经逐步认识到综合管理工作对医院发展的重要意义,并且加强对信息管理的重视,积极构建了信息管理系统,促进医院综合管理水平的日渐提升[4]。
医院合理应用信息管理系统的重要目的之一就是能够实现对医院不同信息的数字化整合,为医疗信息的处理和应用提供开放性的平台,促进医院各类信息的自动化运转[5]。但医院信息管理系统最大的一个特点是覆盖范围广,覆盖了医院的不同科室和不同角色的医务人员,同时覆盖医院门诊、住院、医技、急诊等不同的点,不同角色的使用人员和不同的点之间又联系密切,信息相互调用,因此导致整个医院的信息源头多、需求多、统计口径多,在进行数据挖掘的过程中尤为复杂和艰难,但是随着外部、患者、医务人员、管理者等多角色不同的数据汇聚及应用需求,在医院信息数据价值最大化的利用过程中,医院信息数据的挖掘和分析被摆在了一个非常重要的位置。本文所提医院信息管理系统的优化设计涵盖人事、财务、病历、历次就诊记录、护士站、药房和住院医生等信息模块,以医院不同工种分类产生的数据信息如图1所示。
图1:医院信息的模块化流向图
如上图所示,本文所提优化设计可实现对病人病历信息产生的多层次细致管理,即可以从不同模块的角度对信息的产生进行记录,并支持模块对产生数据进行管理。本文优化设计的对象就是我院应用的信息系统中采用C/S结构的主应用部分,这部分应用系统承担了从门诊到住院,从药品到财务的主要业务运行,特点是交互频繁、数据处理的压力最大,正是因为这样才有优化最大的必要性和意义。图2所示。
图2:信息管理系统的三层结构图
图2中在系统优化设计中使用三层C/S结构,分别为用户界面层、应用逻辑层和数据服务层[6]。其中用户界面层一般安装在系统的用户端,其特点为便于操作,即用户可通过端口封装好的操作命令实现对系统底层数据的管理;功能层一般为应用程序的主体结构,系统的信息管理该处完成逻辑运算,同时用户的一些操作权限等功能都需在此处实现;数据层以数据库管理系统为主(Database Management System,DBMS),主要承担对数据库存储数据的增、删、改、查。通过该系统主治医生便可从病人以往记录的病历桌着手,以实际病情发展走向为方向进行查询,以期得出具有针对性的诊疗方案[7]。
医院数据查询分析,是医院院长、财务科、医务科、绩效办公室等管理职能的角色最关心的功能,通过合理的算法尽量占用最少资源挖掘出有价值的部分,数据挖掘的基础仍然是数据,而这些数据很有可能是大量的、不完整的、模糊的、可能有污染的随机详细数据,从中提取隐含的、潜在有价值的信息和知识,供我们所用。如何通过科学有效的数据挖掘算法或工具提升数据挖掘的效率和准确率是主要研究方向,在本文中,采用了优化Apriori算法和增量决策树算法分别应用在CS医院信息管理系统架构下的医院信息数据挖掘。
为探究医院各信息产生模块间的关系,本文将利用关联法则算法对产生信息数据进行梳理,从中了解出不同功能模块下数据的关联性,以此构建医院信息管理的数据关系网格。通过关联法则算法实现对医院信息管理的梳理,为后续计算提供更加贴合实际的预测和建议。
利用关联法则进行数据挖掘时常用的数据分析方法为Apriori算法,该算法操作简单,使用方便,但从Apriori算法的实际使用中可以看出两点问题:
(1)Apriori算法需要在运算时频繁对数据库进行扫描;
(2)Apriori算法在运行过程中会产生大量的候选项集,并且可能会出现重复扫描同一项集的情况。
上述问题可严重阻碍医院信息管理系统的工作效率。对此,本文将提出剪枝和增加标识两种优化方案[9-11]。
针对Apriori算法频繁扫描数据库的问题,本文将通过对扫描过程中产生的项集增加标识的方法来降低扫描次数,进而提升算法的整体的运行效率。当Apriori算法需要对支持度计算的时候赋予项集0、1的标识,其中将不涵盖此项集的标识计为0,将涵盖此项集的标识计为1,以此方式让算法在扫描数据之前先进行一次0、1扫描,标记计为0的项集为不涵盖此次目标项集的数据,以此过滤不涵盖目标项集的数据扫描过程,降低算法对数据库的扫描次数。对于Apriori算法计算过程中会出现大量候选项集的问题,本文将采用剪枝的方式给予解决。在Apriori算法计算过程中频繁项集的子集也存在频繁性,通过剔除频繁项集中反复出现的子集便可以极大减少目标项集所含元素的数量,进而提升算法处理数据的速度。运行伪代码如下所示。
首先,算法会对数据库第一项数据进行读取,并将生成项集所用的组合形式标记为1;其次,进行下一项数据的读取并对表示进行组合,组合中有k-项集,若组合中为k-项集则标识为1,则跳过标识过的项集,若组合中存在k-项集但项集小于最小支持度阈值,则支持度技术加1。以上为此算法的一次运行过程,循环运行直至不再产生新的项集。
分类算法大多通过决策树算法对数据进行分析,但常规的决策树算法无法对新数据进行较强的处理。为解决此问题,本文将贝叶斯分类法融合,以达到增量决策树算法的目的。增量决策树算法在数据分析中首先会将数据样本分成n个小样本数据,小数据会在决策树上形成结点,而决策树能够将节点分类成贝叶斯结点和普通叶结点[12-14]。通过将贝叶斯分类法和决策树算法相融合,从而得到增量决策树算法。
如图3,当在决策过程中出现新增样本,则算法会将数据树属性与新出现的数据样本进行匹配,在叶结点处结束匹配,判断结束匹配点是否在普通叶结点处,若是,则需判断是否出现分类错误。若出现分类错误则需要进行贝叶斯分类与决策树分类的准确率对比,如果贝叶斯分类得出的准确率更高则将节点转为贝叶斯结点,反之则不变。利用递归的方式不断将决策树丰富,可以通过修改贝叶斯参数或增加贝叶斯结点的方式实现数据样本的增量。
图3:增量决策树算法
为证实上述设计的可行性将针对Apriori算法和增量决策树算法分别设计并进行一次模拟仿真。本模拟仿真的实验环境在Windows10下进行,计算机的参数为:内存16G;CPU:Intel xeon-E222 4G 4核3.5G其中模拟仿真所有数据库的数据来源为医院脱敏后的仿真据,试验平台为怀卡托智能分析环境[15]。
为证明优化后Apriori算法的适用高效性,将未优化的Apriori算法为对象进行比对,用两种算法分别运行同一组信息数据,通过所得数据的对比得出实验结论。首先,需要在怀卡托智能分析环境中植入Apriori算法和经过本文优化的Apriori算法。其次,从测试数据库中获取医院的日常运行备份数据,并将其分为五组,其数据量分别为1K、5K、10K、50K和100K。最后,借助怀卡托智能分析环境分别使用植入的两种算法对上述五组数据进行数据挖掘,两种算法耗时情况如图4所示。
图4:算法耗费时间统计图
由上图7可知,改进后的Apriori算法比未改进的Apriori算法处理医院信息的时间降低约90%。
为验证增量决策树算法对新数据更强的处理效果,本文将以ID3算法与k-邻近算法为对象设计比对试验。将本文所提方法与ID3和k-邻近算法置于相同的环境条件下对同一数据进行实验,并对得出数据进行分析。将数据库中提取出的医院信息数据分为5组,并分别用1、2、3、4、5表示,医院信息数据如表1所示。
表1:医院信息数据表
首先,利用对3种算法分别进行一次不含增量学习的处理,其结果如表2和表3所示。经过增量学习处理的结果如表4和表5所示(本文所提方法用“A”表示)。
表2:非增量分类算法精准率统计表
表3:非增量分类算法耗时统计表
表4:增量分类算法耗时统计表
表5:增量分类算法精准率统计表
由表2和表3中数据可知,上述三种方法在处理不具有增量学习的数据集时,A算法、ID3算法和k-邻近算法在耗时上相差较小,但在分类精准率上A算法的优势较为明显,新即A算法的分类精准率比ID3和k-邻近分别高6%和3%。
由表4和表5中数据可知,本文所提增量决策树算法处理5组数据的耗时比ID3和k-邻近高出约60%,其精准率比ID3和k-邻近分别高6%和8%。
证明本文所提增量决策树算法能够提高分类算法的数据辨识能力过来,进而提高医院信息管理系统的数据识别精度。
本文通过对现有医院信息管理系统数据挖掘算法进行改进的方式,提高医院信息管理系统对分类、处理和管理层面的信息管控能力。本文借助C/S架构重点对信息管理系统下数据挖掘算法进行优化,优化方向主要有Apriori算法和增量决策树算法。结合仿真实验结果能够看出本文所提方法具有较高的信息处理能力,可以应用在现阶段多种医院信息管理系统的优化设计当中。但从算法的稳定性和兼容性角度来看,其优化设计仍存在一定不足需要进行改进。
在医院信息管理的发展之路上,如何利用信息化手段实现医院信息沉淀数据最大的价值仍然是一个任重道远的话题。数据挖掘在医院业务的应用的内核应该是医疗业务本身,如何真正的通过数据挖技术为业务服务,而不是本末倒置一味的追求技术本身,终其本质还应该是帮助医院提高业务效率、提高服务质量、提升患者满意度。医院信息数据挖掘的应用范围较为广泛,本文介绍具体几种应用场景:
基于数据挖掘等关键技术,构建临床决策系统如预测分析、智能诊断、个体化用药推荐等,通过预测分析做到早预防、早治疗,让重大疾病防治关口前移,构建良好医患关系,通过智能诊断快速提高临床诊断准确率、降低医疗纠纷,个性化医疗可以改善临床诊疗效果,比如在患者发生疾病症状前,就提供早期的检测和诊断。很多情况下,病人用同样的诊疗方案但是疗效却不一样,针对不同的患者采取不同的诊疗方案,或者根据患者的实际情况调整药物剂量,可以减少副作用。
将临床数据挖掘转化为支撑学科长期发展的战略信息资源,帮助临床科研人员充分发挥数据的价值,充分利用病例的回顾性分析与总结,快速提升医院诊疗队伍的学术地位。利用其数据开展各类临床循证研究,可为优化和改进临床实践指南提供循证证据,并为转化医学研究提出新方向,也可作为卫生经济数据分析,为医疗政策制定提供咨询。
生物制药从基础研究到药物的早期研发,再进入临床前期和临床后期,需要大量的化学及生物试验,整个过程是耗时长、资金投入大。数据挖掘算法的出现和应用可以从理论上提升药品研发的速度和周期,通过数据的微观发现,进行科学研究规律总结,帮助研究者进行药物的研发。
大数据挖掘分析系统从时间、地区、症状等多维度进行数据挖掘,采用聚类、时间序列、多元回归等算法和数学模型,发现慢性疾病的聚集地区、扩散轨迹和时间趋势等,从而对慢性病进行预防控制等。为卫生管理者提供个人绩效和机构绩效挖掘分析,提高管理效率和科学决策水平,提升落实医改各项任务的能力。大数据重大疾病预测、预警系统可以监测群众健康状况,有效进行重大疾病的健康干预,提高重大疾病患者的存活期和治愈率,显著降低医保费用支出。