郑秀娟
摘要:随着移动互联网、物联网、云计算等新兴技术的迅猛发展,现代社会活动产生的数据的规模与种类不断增长,对这些数据进行有效管理与应用已成为各行各业的研究重点,其中医疗行业也不例外。目前我国医疗领域的信息化程度不断提高,所有医院需要定期向卫健委资源数据中心上传各自的医疗数据,这些数据的聚集也为数据挖掘技术的应用奠定了基础。基于此,本文将主要针对数据挖掘技术在医疗大数据中的应用展开研究,希望能为相关从业人员提供参考借鉴。
关键词:数据挖掘技术;医疗大数据;应用
中图分类号: TP391 文献标识码:A
文章编号:1009-3044(2020)32-0026-02
早在2015年,国家卫健委通过建设医院监管系统,要求委属医院通过数据采集软件且按照标准规范将数据上传至卫健委资源数据中心,对医疗大数据展开统一化的管理,为数据挖掘提供支撑环境。过去各大医院的医疗大数据均为独自存储与管理,要想查看病历数据则需要进入到各个医院的系统,再加上各医院使用的系统可能不一样,也导致医疗数据收集难度增加[1]。从这一点来看,医疗领域的信息化程度相较于如今日新月异的互联网生活来讲,显得较为落后,所以整个医疗行业急需抓紧信息化建设步伐。
而在医疗行业,每天都会产生大量的数据信息,所以在数据挖掘技术应用上该技术必然会在医疗行业中得到应用。医疗大数据主要在医疗服务中所产生,其来源范围较为广泛,例如有些数据来自制药企业、有些数据信息则来自临床方面的数据,还有的数据信息来自医院与医保费用管理方面。相关数据表明,通常医疗机构每年产生数据存储量为1TB~20TB,在这些海量数据中蕴含着丰富知识与规律,倘若能够从中获取价值性知识,对于推动现代医学研究而言意义重大[2]。随着数据挖掘技術逐渐发展成熟,在医疗大数据中也得到了充分应用,本文便针对此展开深入研究。
1 数据挖掘技术概述
信息化背景下,无论是自然科学、工程技术,还是医疗服务等领域,数据体量呈爆炸式增长,而在这些数据之中,有许多的数据信息非常的关键,非常的具有价值,如果将这些数据转化为知识则有着重要的意义,也正是因为有这种需求,所以才有了数据挖掘理论的出现。数据挖掘,其实就是从海量的信息中、从那些看似无规律的数据中提取隐性价值信息,需要用到基础算法以及人工智能、机器学习、特征提取、统计分析等多学科知识。
通常来讲,完整的数据挖掘过程逐渐分为三个步骤:①数据准备。在该阶段需要将干扰数据精准剔除,所以可分为以下几个任务:第一,数据清理;第二,数据集成;第三,数据选择。先结合数据挖掘目的生成数据集,然后再进行数据降噪,最后再根据任务的目标来找出有用特征去代表数据;②发现规律。该阶段作为数据挖掘过程中发现知识的关键步骤,通过应用各种算法对数据集进行分析,从而提出对决策形成支持的规律;③表示规律。规律发现之后需要用直观可视的手段进行表示,主要是规则与模式的可视化表示。具体流程如图1所示。
2 数据挖掘技术在医疗大数据中的应用
对医疗大数据进行深度挖掘才能体现出数据的价值,通过收集、整理与分析海量数据,探寻蕴含其中的隐性知识,能够为医学研究、临床护理、疾病诊疗等方面的发展形成巨大推动作用。对于病患来讲,通过对医疗大数据的全面分析,能够享受到更加精准且高效的医疗服务,减少不必要的检查,从而控制医疗费用,避免不合理的医疗支出;对于医学研究来讲,医疗大数据的深度挖掘分析能够为药物研制、疾病诊断等工作提供全新途径,从而有利于解决大量过去无法解决的医学难题;对于整个医疗领域来讲,通过对医疗大数据进行挖掘分析,能够为以下几方面提供全新的思路:第一,医疗成本评估;第二,医疗质量管理等[3]。另外,对群众的医疗大数据展开深入挖掘,能够对实现对民众健康状况的密切监测,从中分辨出疾病高危人群,对疾病发展走向有精准预测,从而对制定公共卫生政策提供支持。
对医疗大数据进行分析与利用,数据挖掘技术是其中的关键。而随着科技的不断进步,数据挖掘技术也得到了较大的发展,研究方向有所拓宽,包括以下几方面:第一,关联规则挖掘;第二,异常挖掘等,同时衍生出来多种算法,这些都是分析医疗大数据应用的基础,是建构医疗大数据应用的基础。具体而言,该技术在医疗大数据中的应用主要体现在如下几个方面。
2.1 关联规则挖掘
这种挖掘技术指的是先对不同事件进行分析,然后对其之间有一定关联或依赖的知识进行分析与收集,在数据挖掘技术应用中属于关键性问题。该研究方向一经提出,我国以及国外一些国家便展开了深入研究,并经过不断地研究设计出来众多关联规则挖掘算法。比如,Apriori算法,该算法较为出名,乃是首个有效果的关联规则挖掘算法。还有分块挖掘Patition算法等[4]。在医疗行业内,会产生的大量的数据,而这些数据之间并不是无联系的,而是联系非常的密切,通过对关联规则挖掘算法进行应用,就能够对数据中的具有关联的知识予以提取,进而对疾病诊疗、致病因素总结、公共卫生与健康监测等工作形成推动。比如,借助海量电子病历数据,可以对传统危险因素与心血管病死亡率之间的关联规则进行挖掘,然后在这些数据分析中从中总结出了肥胖与心血管病死亡有着密切关系。又如,通过对优化后的Apriori算法进行应用,可以实现对海量乳腺疾病数据的分析,然后基于SQLServer2005数据挖掘工具,就可以构建起肿瘤复发与其他属性之间的关联规则。
在医学科研工作中,大部分情况下需要对病因学进行分析,比如某种新出现的并发症是不是另一种并发症的诱因,这时便可应用到数据挖掘技术中的关联规则,从大量随机并发个例中去找寻强关联现象。关联规则的优点就在于其单向性,更容易识别因果关系,倘若前后时间互推均有较高可信度,则可说明为双向,换而言之则是互为因果。
2.2 分类挖掘分析
分类模型能够在数据挖掘上能够发挥重要的作用,其可以将数据集中数据对象映射成某一个既定类别,从而便于模型去进行预测,以实现对未知对象的具体类别的预测。上述所提到的训练数据集,乃是由一组数据对象组成。在这组数据中,每个对象都可视作为由多种特性构成的向量,另外训练样本需要带有类别标记。对于不同数据类别与应用背景,现如今已有多种多样的分类挖掘方法,最常见的为神经网络法、机器学习法、统计法等。结合医疗行业来看,分类挖掘分析主要用在以下几方面:第一,应用于医疗事件智能预测方面;第二,应用于疾病的智能预测上,其中智能辅助诊断便是最典型的应用。现如今,在医疗服务中,在对大多数疾病进行诊断时,大多停留在“经验性诊断”方面,之所以存在这一问题,主要是因为不同的病患,其个体之间的差异较大。此外,复合疾病数量较多。并且关系较为复杂,因此,在诊断工作中,对于部分疑难杂症,医生难以给出精准的诊断。而通过对某类疾病的正确诊断病例进行数据搜集,然后对这些大数据进行分析,再结合所有病例中的症状进行分析,深入研究病症与病型之间的关系。在临床诊疗服务中,可以根据患者所提供的症状信息,然后将这些信息输入系统之后,就能即时给出确诊信息,这样一来就实现智能辅助诊断的效果。目前,国内有许多医学专家在大数据与人工智能的技术支持下,通过对医疗大数据的分类挖掘分析,逐渐构建起了以慢性病早期预防为目的的慢性病预控体系。
2.3 聚类分析
聚类是将个体按属性类似规律归总成多个类别,目的在于尽可能缩小同类别个体的距离,以及拉大不同类别个体的距离。现如今,在许多领域之中,该技术都得到了广泛应用,如在人工智能领域中应用广泛。与分类学习相比,聚类分析对象并没有类别标记,其需按照学习算法去自动化确定,但是分类学习的训练集对象则不同,其有类别标记。近些年,聚类分析在大数据挖掘领域属于较为热门的课题,经过不断地研究与分析,使得其研究方向有所拓展,如开发了K均值聚类、DBSCAN、BIRCH等聚类算法[5]。聚类分析,主要针对数据集存在的未知分布规律进行挖掘,还可以针对其代表的事件集之间进行挖掘。通过那些被应用到医疗中的大数据来看,最典型的应用有以下几方面:第一,在医疗费用;第二,疾病的分布分析等。
过去的临床科研一般会以医院病患为研究对象,通过分析病患的基本变量与临床指标展开研究。通常来讲,年龄与性别存在差异的病患存在相异的医学特征,所以要对病患按照年龄与性别进行分组,但采取人工划分的做法(比如以十年的年龄为一组)难以科学反映出研究人群的客观年龄分布规律。而应用聚类分析技术便能实现对研究对象性别与年龄的合理划分,同时也能实现对不同年龄与性别组别下病患临床指标的深度分析。
2.4 异常挖掘分析
部分数据对象在所处的数据集中会显得“格格不入”,与数据集中的一般行为或模型不匹配,这类数据对象为离群点,在数据挖掘分析过程中需要将离群点这种异常数据事先剔除,不过在部分领域的数据挖掘分析中,偶然罕见的实例会比大概率发生的正常案例更具研究意义,这其中针对离群点数据的分析还有另一种说法,其也被称作为异常挖掘。而在异常挖掘领域中,研究人员需要研究清楚以下几个问题:第一,在数据集中,究竟什么样的数据才能被定义为异常;第二,研究人员需要如何确定异常点的挖掘方法。现如今,发展较为成熟的异常挖掘分析方法有以下几种:一种是基于统计的方法,一种是基于距离的方法,还有一种是基于偏差的方法。比如,有国外专家学生针对心电图时间的历史数据展开异常挖掘分析,主要对ECG时间序列数据当中的异常模式进行检测,进而实现疾病诊断效果。另外,在对医保行业进行分析时,为了找出医疗保险中可能存在的欺诈行为,则可将医疗账单作为数据源,通过对数据挖掘技术进行应用,利用其对账单中的异常数据进行挖掘分析。如此,就可以发掘出其中所存在的问题,这一方法在医疗骗保检测与控制方面效果明显。当然,值得注意的是上述几种数据挖掘技术在医疗大数据中的应用方法更倾向于理论,在实践应用中还需结合医院实际情况予以合理调整。
2.5 流行病监测与预报
数据挖掘技术在医疗大数据中的应用同样能够用在对流行病的监测与预报方面。现如今,国家传染病与突发公共卫生事件网络直报系统已投入运行多年,每年会有海量个案信息从各地区上报,范围覆盖到了全国县级以上的疾控机构。对海量数据应用数据挖掘技术进行分析,能够实现对疫情的全面监测,同时借助于集成疾病监测与响应程序,能够对传播途径与传播时间精准预测,从而有效降低流行病的感染概率。在利用数据挖掘技术对流行病的预测方面,谷歌公司有着成功案例,该公司将美国民众检索频率最高的词条与美国疾控中心数据进行比对,能够在流感传播时期精准辨别是否有民众感染流感,因为有感染可能的民众往往会通过谷歌搜索去检索“治疗咳嗽与发烧的药物”等词条,通过对这些检索词条的使用频率进行挖掘分析,能够预测出流感传播路径,为疾控中心的及时响应争取时间。
综上,在当前移动互联网时代,各行各业在发展与运行中产生的数据体量也不断增大,尤其是随着医疗行业信息化程度的不断提高,越来越多的医疗大数据不断聚集,也为数据挖掘技术打下了坚实的基础。在对医疗大数据的分析中,数据挖掘技术是获取其中隐藏性知识的有效渠道。当然,从现状来看医疗大数据应用数据挖掘技术还存在基础性问题,一方面是因为医院数据来源并不复杂,所以数据挖掘技术中的异构数据处理优势并未发挥;另一方面是因为各大医院系统没有形成互联互通,而单个医院的数据量尚未达到大数据入门量级。不过随着社会时代的快速发展与信息技术的高速进步,医疗数据体量一定会呈现跨越式增长,届时数据挖掘技术在医疗大数据中的应用优势将会更加明显,从而带来更大的经济效益与社会效益。
参考文献:
[1] 谌秋香.基于数据挖掘技术的医疗大数据分析方法[J].当代护士(下旬刊),2020(5):184-186.
[2] 陈萌.遗传算法的数据挖掘技术在医疗大数据中的应用研究[J].中国管理信息化,2019,22(8):173-174.
[3] 陈闽韬,匡芳君.数据挖掘技术在医疗大数据中的应用研究[J].电脑与电信,2017(11):34-36,39.
[4] 吕峰,杨宏,普奕,等.遗传算法的数据挖掘技术在医疗大数据中的应用[J].電子技术与软件工程,2017(5):203.
[5] 罗堃,代冕.数据挖掘技术在医疗大数据中的应用研究[J].信息与电脑(理论版),2016(6):45-47.
【通联编辑:唐一东】