齐晨虹 高生鹏
兰州交通大学电子与信息工程学院
近些年来,信息技术快速发展,现代计算机信息应用技术在医疗领域发挥了前所未有的作用,大型医院都已经建立了医院信息系统(Hospital Information System,HIS)随着HIS 的广泛使用,数据库中的医院信息不断累积增加。海量数据急剧增加,往往不能得到有效的应用;若没有办法深入理解数据库里面的信息,则将会失去医院信息的价值。所以,当前在医院信息化的建设过程中需要处理的问题之一就是如何充分地利用HIS 数据库中的宝贵信息资源来为临床科研、医院服务质量、医院领导决策、卫生统计等提供科学的依据。
随着各医院的HIS 大范围使用运行之后,其HIS 数据库中存储的数据不断增加,数据库中历史数据日益增多。在这种背景情况下,把数据挖掘技术和数据可视化技术应用到处理医院医疗数据上是一个大趋势。数据挖掘技术对部分医疗数据进行了处理,但所得结果不便于理解因而无法为专业人员提供更好支持,而针对传统数据挖掘技术所得到的各种模式能够提供集成统一的接口及多种形式、多种角度、多种维度的直观的可视化展现方式,可以为专业人员提供更强有力的支持。
早在2002年IBM 华生研究中心对以色列的耶路撒冷和哈达萨医院的病人病例,开发了Opal 工具包,对大量的骨髓移植数据进行了可视化显示,这是一个在生物信息学领域的信息可视化技术方面的很好的实用性实例。Brant Chee 等人相继于2008年和2009年提出了健康信息药物治疗方案的可视化和医疗卫生信息的社会可视化。进而实现了信息可视化在医疗领域的应用,并从中发现药物和社会团体之间的关联关系和环境对人的健康状况的影响。美国卡内基梅隆大学的Christopher 等人于2009年提出基于初级保健糖尿病风险的分类和评估的可视化方法。本研究与医学证据、统计降维技术和信息可视化相结合建立一个框架,从而开发信息可视化分类器用于糖尿病风险的评估患者群中。日本岛根大学的Shusaku Tsumoto 等人于2011年。他们提出了包括决策树、聚类分析、MDS和三维数据挖掘的时空数据挖掘过程。结果表明,大量存储数据的复用为基于医院临床行为的分类表征时间趋势提供有力的工具。葡萄牙的Pedro Pereira Rodrigues 做了预测基于虚拟病人记录的访问日志的生存分析的医院临床报告的可视化的研究。马来西亚的Muhammad Sheraz Arshad Maik 等人从医生的视角研究了电子病历可视化系统在公立医院的使用,用抽象有效的病人数据直观显示,以获取有效信息进而改善病人的护理。美国NeuroMedical和Vysis 公司利用数据挖掘可视化技术,通过对其趋势分析进行药物筛选,为药品的研发进行蛋白质的分析,对药物副作用进行了探索,发现了药物间的副作用。Marinovm 等人提出通过数据挖掘可视化技术对糖尿病及并发症流行病学进行了研究。
在国内,对于医院信息数据挖掘及数据可视化的发展相对较晚。北京大学袁晓如教授带领的北大可视化研究小组在图可视化、轨迹可视化,微博可视化等领域开展了相关的研究工作。浙江大学在医院信息系统的数据挖掘技术、可视化领域开展了相关的研究工作。清华大学的唐泽圣教授是国内较早进行可视化研究的学者之一,其研究领域涵盖了医学、地质学和气象学可视化分析。中科院软件所的田捷教授等在医学可视化领域取得了一些研究成果。浙江大学、北京大学也建立了可视化的国家重点实验室,并在可视化方面做了很多的工作。近几年我国对HIS 进行数据挖掘的研究相对国外较少,我们在银行、移动通信、证券、联通、保险、电信等相关行业虽然已经成功的应用数据挖掘技术,可是当前在HIS 中的应用还处于初始阶段。据报道对HIS 所产生的数据进行挖掘研究的机构,目前在国内有北京协和医院信息中心、解放军福州总医院信息中心等。
数据挖掘是在1989年提出来的,也称为数据库中的知识发现。挖掘的过程一般由确定挖掘的对象、数据准备、模型建立、数据挖掘、结果分析表述、挖掘应用等阶段组成。
当前的医疗机构的数字化增大了医院数据库医疗数据数量。在疾病的诊断、治疗和医疗研究方面都,这些宝贵的医疗信息提现的非常有价值。因此,怎样自动提升和处理医疗数据库,进而提供全局的、精准的保健措施和诊断决策,已经成为提高医院服务质量和促进医院长远发展而必须解决的新问题。医疗数据挖掘就在这种背景下应运而生。
数据挖掘应用于医疗方面被提出来之后,生物医疗工程领域就将这一领域应用到其中,并取得了相当大的成果。从指定医疗数据中找到医疗模式类是这项技术的主要功能。在文献中指出,在生物工程领域主要有两类典型的研究方向:描述生理规律或现象;预测和诊断疾病发作。可以发现医疗知识模式主要有:孤立点分析、聚类分析、概念/类别描述、关联分析、演变分析、分类和预测等。
数据挖掘所挖掘的知识大致有几种:事物各方面的特征知识、事物各方面的特征知识、反映同类事物共同性质的广义知识、事物间依赖关联的知识、不同事物间属性差异的知识、一些事物中异常偏离知识等。HIS 在使用中,为了满足不同用户和不同层次决策的需要,可以根据类型的不同对针对一些隐藏的住院医疗主题和疾病数据,分别选择不同的挖掘方法。
任何一种数据挖掘的算法,无论是统计分析方法,还是神经网络、遗传算法等,都要针对具体的情况,采用不同的算法解决,即使对于同一个问题,可能有表现不一的多种算法,这时,需要寻找最优的算法。
从数据中发现模式或知识是数据挖掘的主要任务。模式按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。分类为:时间序列模式、分类模式、回归模式、关联模式、聚类模式。以上受监督知识包含时间序列模式、分类模式、回归模式,属于预测型模式,由于在建立模式前数据的结果是已知的,可直接对模式的预测准确性进行检测,模式的产生是在受监督的情况下进行的。非监督知识包含关联模式、聚类模式,属于描述型模式,因为在模式建立之前其结果是未知的,模式产生不受任何监督。
医疗信息系统的数据挖掘的方法与传统的挖掘模式相似,即为数据的采集、预处理、类型转换、挖掘、知识评价、知识利用等。
医疗信息系统所包含的数据既多元化又复杂化,所以根据医学数据的特点使得医学数据挖掘又与通用的数据挖掘之间存在差异。这里的工作主要体现在主要体现在数据预处理的阶段。在这一阶段,由于医学数据的冗余性,需要在重要性和相关性检验的基础上采样以消减数据;又由于医学数据的多样性,须针对各种类型的数据采取相应的数据预处理方法。通过这个步骤的数据准备,将原始数据转换为特定数据挖掘方法所需要的数据形式。这一步骤直接影响挖掘的效果,工作量占整个过程的50%以上。
使用图形和图像来表征数据是可视化的基本思想,以易于领会、相对直观的图形、图像方式将隐藏在大量数据中的信息表达出来,进而加快用户获取知识的速度。数据可视化是数据分析过程中一个必不可少的过程,对大型数据库的数据进行可视化。目前在数据可视化方面的研究方向主要是以不同的抽象层次将维度、属性进行互联之后将关系数据库或数据仓库中的数据,以展现给用户不同的呈现形式,并将数据的各个属性值以多维数据的形式表现出来,并可以以不同的维度观察数据,从而更深层地分析和观察数据。
可视化数据挖掘技术是数据挖掘技术发展的必然,它是数据挖掘技术和可视化技术结合的产物,是一种对挖掘大数据集既高效又新颖的方法。它所涉及的领域较广,如计算机辅助设计,计算机图形图像处理,人机交互技术和计算机视觉等多个领域。由于医疗信息数据量的增加,进而影响医院信息的数据的多元化和复杂化程度的增大,用户就更加难以理解挖掘出来的结果和信息。因此,使相关用户可以交互地查看数据、挖掘的过程等是可视化数据挖掘的最终目的,使得人们对识别不规则事物是一些图形而不是一些数字和表格时的速度会较快,而且也容易接受。所以在对医院信息系统的数据挖掘中,以用户比较容易理解、接受的图像、图表、图形等形式对中间过程结果或者最终的结果直观地表现出来,对相关用户意义重大。
将进行数据挖掘后的数据集导入可视化平台进行可视化呈现。用工具R、Python、D3 等开发工具开发可视化平台,并通过基于图形可视化技术,将数据集中的所用数据属性各种关系使用直观的图形,进而显示出数据中潜在的信息知识及其数据之间的关联关系。在数据显示上,以几何画法或几何投影的方式来表示数据库中的数据,运用基于查询的方法将每一个数据项的数据值对应于一个带颜色的屏幕像素,对于不同的数据属性以不同的窗口分别表示,采用区域分组图、中心爆炸图、中心环图、流图、块茎图、辐状会聚图、比例大小圆形图、分支图等多种可视化图形方式进行数据的展现。另外,为了提高可视化分析的针对性和灵活性,设计者应尽量设计具有互动效果的可视化呈现方式,使用者可以根据自己的需要变换所显示的数据维数、显示方式和色彩等内容。
举例,针对妇幼保健院的医院信息系统,可视化所涉及的数据类型大概可以包括:妇女主要病症(主要是肿瘤类、炎症类和不孕不育类)的可视化,在可视化中需要展现出这些病症与地域、本人身体状况、民族、教育程度、饮食状况等之间的关系;婴幼儿主要病症(主要包括先天缺陷、炎症、腹泻、出血、溶血、黄疸)的可视化,寻找婴幼儿的病症与家庭、父母、营养、地域等因素之间的关系;同一病症用药的变化情况,包括用药品种、用药量、用药周期;不同病症用药之间的关联情况等。进而,以充分地利用HIS 数据库中的宝贵信息资源来为临床科研、医院领导决策、卫生统计等提供科学的依据,将成为当前在医院信息化的建设过程中需要处理的问题。
对事物的变化过程和转折点进行分析和研究,可以把握其将来的发展方向,无论是对自然科学、社会科学还是医学都是永恒的话题。数据可视化的研究机构和学者们也在时空格局可视化方面做研究,这些学者在“把握事物发展脉络、探测转折点”等方面取得了优异的成果,也象征和预示着数据可视化技术对各个科学研究领域的应用价值。
医院信息的数据挖掘和可视化应该积极参考医生和相关工作人员的意见,进而可视化出对未来具有参考价值的信息。目前,国内有若干研究人员对医院信息的数据挖掘的研究具有相当的进展,但是在医院信息可视化方面的研究相对较少。在关注可视化的发展和信息有效利用的同时,也应该考虑对于相关用户的直观性、价值性和可操作性。
在今后的研究工作中,将数据挖掘和可视化工作有机的结合起来是我们工作的重点,并针对医院信息,争取在数据挖掘方面和可视化方面有所突破,进而能够有效利用这些医院的历史数据和时态数据等,为临床科研、医院服务质量、医院领导决策、卫生统计、提高医院服务质量等方面提供科学的依据。