徐刚
(天津医科大学总医院滨海医院,天津 300480)
目前,我国医院已逐步建立了各类信息管理系统并不断完善,如HIS(Hospital Information System,医院信息管理系统)、LIS(Laboratory Information Management System,实验室信息管理系统)、PACS(Picture Archiving and Communication Systems,医学影像存档与通讯系统)等,这类信息系统每天都在采集大量患者信息。随着信息化的高速发展,患者的各类信息数据日渐膨胀,形成了医院大数据。这类大数据虽然占据了医院大量的存储资源,但目前大多数医院并未对该类数据进行合理的利用,造成了资源浪费。如何对医院产生的宝贵大数据资源,利用数据挖掘技术,挖掘出背后的潜在价值成为医院信息化发展研究的一个重要方向。医院大数据的有效利用,可以为医院的管理决策提供科学化的支持,实现医院的“精细化”管理。
数据挖掘就是从大量的、不完全的、模糊的、随机的实际数据中,提取隐含在其中的、人们事先不知道的、但又是有用的信息和知识的过程。数据挖掘是能够从大量的数据中找到人们感兴趣的、有价值信息的一种新技术[1]。
数据挖掘的前期准备工作是数据的收集和整合,大数据分析是多个信息系统数据的融合分析,医院产生的各类数据中,由于系统不同,所产生的的数据格式也不同,如PACS系统所产生的数据即为图像格式,所以医院数据具有异构性、分布式、碎片化的特点。为了有效的整合数据,需要使用专业的工具将不同格式、不同厂家的数据整合到数据仓库中。另外,大量医疗数据中必定夹杂了一些噪声数据,这类数据没有任何价值意义,而且夹杂在有效数据中,势必会影响数据挖掘的效果,所以噪声收据的有效筛除也是数据挖掘前期准备的一项重要工作。
1.2.1 统计技术
统计分析是是数据挖掘的理论知识基础,即描述和组织数据集,并从数据集中推出结论。常用的统计分析方法包括统计判断、评测数据集的差异、贝叶斯定理、预测回归、方差分析、对数回归、线性判别分析等。
1.2.2 关联规则
关联规则算法就是数据库中的一个项集会随着另外一个项集的变化而呈现出规律性的变化,那么这两个项集之间就存在关联性。关联规则算法主要包括Apriori算法、FP-G算法、FreeSpan算法、Prefixspan算法等。
1.2.3 决策树
决策树是一种从根节点到叶子节点的探索式数据挖掘方法,非常直观,简单易懂。每个样本出现后,先从根节点出发,再选择一个最贴合的分类效果到各层分支节点,最后到达叶子结点,如此反复循环,这棵树变即成为了一个分类训练样本器。常见的决策树算法包括:CART、CHAID、ID3等。
1.2.4 遗传算法
遗传算法是基于达尔文的进化论的基础上产生的,模拟自然界优胜略汰、物竞天择、适者生存机制的问题求解技术,主要包括遗传算法、进化策略、进化规划和遗传规划等内容。遗传算法的基本流程首先需要生成初始种群和编码,然后计算种群中各个个体的适应度并进行评价,如果个体满足终止条件,则终止;若不满足终止条件则进行选择、交叉和变异,循环往复。
1.2.5 神经网络
神经网络是机器学习的典型代表,通过学习算法来模拟人脑思维,它可以从经验知识中进行学习并将学到的知识加以应用。学习集中的每个例子输入到神经网络中都会有一个对应的输出,学习集中所有的例子都学习完后,神经网络就已经建立了自己的判断模式,当把测试集中的例子输入神经网络中,如何符合预期判断,那么神经网络就建立成功,以后这个神经网络就可以作为筛选器来判断事务的分类。
1.3.1 医院大数据的隐私性
医院大数据同其他组织机构收集的大数据不同,医院大数据包含了患者的各项隐私信息,包括基本信息、就医信息等。一旦信息泄露,将对患者的日常生活造成一定程度的困扰。医院在利用数据挖掘技术时要充分考虑到保护患者隐私的问题,这不仅对数据存储的物理安全性要求越来越高,同时对数据安全保护技术的要求也越来越高。
1.3.2 医院大数据的异构性
医院有众多的信息管理系统,各系统采用的开发语言不同,使用的数据库也不同,这就导致各个信息系统所采集的数据结构差异较大,若想使这些信息系统之间进行交互并在此基础上进行数据挖掘操作,需使用专门的数据抽取工具对各平台产生的信息数据进行抽取、清洗和整合,甚至需要手工录入。在数据统一的基础上,建立相应的数据仓库并对数据进行更深层次的分析,如图1所示。
1.3.3 医院大数据的冗余性
医院由于每天就诊患者多,日积月累将产生海量数据,这使得医院在开展数据挖掘的工作中具备先天的数据优势,但这些数据中并不全是有效数据,有些重复的、矛盾的、甚至是错误的数据记录会影响数据挖掘的结果,使数据挖掘产生的结论可信度降低。
图1 医院数据挖掘基本流程Fig.1 Basic Data Mining Process
医院众多信息管理信息系统中,以HIS及电子病历管理系统为基础数据,LIS及PACS的检查数据为辅助数据,建立数据分析模型,利用数据挖掘技术,为后期的疾病诊断及治疗研究提供依据,并为上级卫生管理部门和疾控部门提供科研数据。医院就诊患者具有多样性,患者的来源、身份、年龄或者职业等相关信息数据在输入计算机信息系统后,都可以通过数据挖掘技术来进行结构分析,得到上述几项内容的分布信息,使得医务人员可以对患者进行针对性的服务,可以有效提高医疗服务质量,提高患者满意度[2]。临床路径也是医院大数据应用的一个典型体现,它是基于一定基数的专家经验,对病情的发展做出预判并将治疗流程做成模板,输入病症就可以准确判断出疾病类型并进入路径开始对症治疗,减少医生的主观判断失误,提高就诊效率。另外,利用数据挖掘技术,还可以对疾病进行有效预测,提醒医生最好及时防范。
患者就医流程分为若干时间节点,如挂号、就诊、缴费、检查、取药等,对患者就医的各个时间节点长度进行分析,就可以发现患者在就诊的过程中哪一环节最消耗时间,医院有针对性的采取相关措施,如增加人力物力、使用技术手段等解决相关问题,提高患者就诊效率的同时也提高了医院的效益。另外,数据挖掘技术也可以对门诊、急诊和住院的患者人数进行分析,通过时间序列建立相应的预测模型,发现患者数量的周期性规律,并对下一周期做出预测,方便医院管理者合理的优化医院的人力资源、药品资源、设备资源等。
在国家发布的医改试点指导意见中,对药占比的控制有了明确要求,即患者治疗费用中药品费用占患者治疗期间所花费的总费用不能超过一个额定值。利用数据挖掘技术,可以对患者费用结构进行全面分析,包括患者的药品费用、检查费用、治疗费用、手术费用等,看药品占比是否符合要求。若不符合要求,则可以通过数据挖掘技术精确的分析到哪位医生或者哪个药品导致的药占比过高,从而指导医生对患者进行合理用药。
医院收入还可以通过横向和纵向等各个方向来进行同期比对,横向比对即对医院或科室在同一时间节点不同种类收入的比对,纵向比对即对医院或科室在不同时间节点的某项收入进行比对,在分析过程中还可以使用关联规则,结合其他因素一起分析,找出收入存在差异的原因并进行改善。
医院工作的核心是医疗质量管理,单病种质量是医疗质量管理的重中之重。首先需对单病种患者的费用结构、费别分析、住院天数等建立多维模型,然后对模型进行切片、旋转等分析操作,并最终形成建模与分析的结果。医生可以根据分析结果及时总结经验,找出最佳的治疗方案,提高单病种的治疗效率,减少医院成本的同时也可以为患者减轻负担。
数据挖掘整理的目的是利用所获取的知识理解事物、预测未来情况、进行积极干预,为下一步的工作或决策提供基础[3]。医疗大数据的应用对于医院的临床研究和科学管理有着重要的意义,医院在利用数据挖掘技术对医疗大数据进行分析的过程中,要把数据安全放在首位,着力建设大数据信息共享平台,尽早实现数据的互联互通,并利用先进的数据挖掘技术,提取出对医院发展有益的信息,促进医院的精准化医疗发展,提高医院经济效益。