童俊
(安徽省芜湖市第一人民医院 安徽省芜湖市 241000)
早在2015年的时候,我国卫健委便已经要求各个医院可以同构对数据采集软件的应用,将各种数据信息上传到卫健委的数据中心当中,旨在完成对医疗大数据的精准化、统一化监督管理,为数据挖掘技术提供良好的环境支撑。在传统的医院的医疗大数据都是通过独自存储和管理的方式来完成的,如果想要确定病历信息,则需要单独地进入到各个医院的系统当中,加之于不同医院所应用的系统存在本质上的差异,因而导致医疗信息的收集工作的难度越发提升。如果从这点来进行审视,可以发现医疗领域的信息化程度与当前日新月异的互联网信息环境相比,还是略显落后,所以医疗行业有必要充分结合新时代的发展进程。
在信息化时代背景下,不管是自然科学、建筑工程还是医疗技术,数据的信息量都呈现出爆炸式增长趋势。在此类数据中仅有部分内容是真实准确的,非常具备价值的,如果能够有效地实现对此类数据的转化处理,是极具意义的,也正是因为存在此种需要,才会出现数据挖掘理论。数据挖掘的本质就是在海量的信息资源以及各种并无规律的数据信息中搜寻各种隐性价值信息,充分应用到人工智能技术、特征提取技术和统计分析技术等。完善的数据挖掘流程主要包含以下几项步骤:首先是数据准备阶段。在此过程中需要完成对各种存在干扰的数据信息的清除处理,所以具体可以分为如下几项任务:其一是数据清理工作;其二是数据集成工作;最后是数据选择工作。首要步骤是根据相应的数据内容生成数据集,而后再实现对数据的降噪处理,最终结合任务的核心目标寻找具备实践应用意义的代表性数据;次要步骤是发现规律,此阶段是应用数据挖掘技术的最重要的环节,通过对各种算法的应用来完成数据集成分析工作,从而提出能够为决策提供支撑的规律。最后步骤则是表示规律,在发现相应的规律以后要结合直观具体的手段来完成表示,主要实现的是对规则和模式的可视化处理。
深度挖掘医疗大数据以后才能够充分展现出数据信息的价值,通过收集、归纳和分析海量数据信息,精准地探寻其中所包含的隐形知识,可以为医学研究、临床护理等提供巨大的推动作用。于病患群体而言,良好的医疗大数据可以帮助其获得更为良好的诊疗体验,有效地避免过多的经济投入;对于现代医学研究发展而言,对其应用可以为今后的医药研发、临床护理以及疾病诊断等提供良好的帮助。与此同时,对于群众的医疗大数据进行深入且明确的挖掘分析可以有效地实现对民众身体健康情况的监督监测,从而在其中分辨出存在高危病症的患者,对于疾病的实际发展走向影响力巨大。
对医疗大数据技术的有效分析和应用绝对无法脱离完整的数据挖掘技术的支撑。而伴随现代科学技术的进步和发展,数据挖掘技术所获得的发展也越发完善具体,研究方向已经出现显著的拓宽,其主要体现在如下几点:首先,关联规则挖掘,其次异常挖掘等,同时还衍生出大量崭新的算法,此类算法将会为此后的医疗大数据的分析应用提供坚实的支撑作用,是打造医疗大数据体系的基础。整体来看,此项技术在现代医疗大数据当中的应用可以归纳为以下几个方向:
关联规则挖掘技术所代指的是对不同事件内容的分析处理,而后收集并归纳存在相应的关联性的知识内容,在现代数据挖掘技术当中,其本身从属于关键问题,此研究方向被提出以后,无论是国内还是国外都开始了对其的深度研究,在此过程中衍生出了诸多有名的关联规则挖掘技术,包括Apriori算法以及Patition算法等。在医疗行业当中,将会出现诸多的数据信息,而此类数据信息存在内在关联的,并且其关联性相当密切,通过对关联规则挖掘的有效利用,可以综合提取各种数据关联知识,实现总结分析,精准地判定疾病的原因以及发展等,进而为公共卫生安全工作的开展奠定坚实的支撑作用。
在现代医学科研工作当中,绝大多数情况下都需要完成对病因学的分析探讨,例如某种新出现的并发症是否为其他某种并发症的诱发原因,此时便可以针对性地应用数据挖掘技术,进行关联选择,从极多的随机当中寻找具备强烈关联性的对象。关联规则的优势在于其具备良好的单向性特征,更加容易完成对因果关系的识别分析,如果前后的时间的可信度都是非常高的,那么便可以判定出二者的因与果是相互关联的,二者表现为双向转化的状态。
分类模型可以在数据挖掘的过程中发挥出极为良好的作用,其能够实现对数据集当中的某个数据对象的映射处理,使其成为既定的类别,这样便能够为此后的模型预测提供良好的支撑作用,用于完成对未知对象的实际类别的预测处理。上述所提到的所有训练数据集的内容均是由单组数据对象构成的,在数据内容当中,所有对象都可以被看做是由大量特性所造成的向量,此外训练样本本身需要带有大量的类别标记,对于不同的数据类型以及应用背景,目前的分类挖掘方法已经显著增加,比较普遍的包含神经网络法、统计法以及机器学习法等。结合目前医疗行业的发展情况来看,分类挖掘分析主要展现在以下几点:首先是对各种医疗事件的预测方面;其次则是在对疾病的预测方面,在此中的辅助诊断技术更是相当典型的应用。在医疗服务当中,在诊断绝大多数的疾病时都普遍停留在传统的经验诊断方面,之所以会存在此种问题,主要是因为病患存在差异性。与此同时,复合疾病的数量是非常多的,并且整体关系非常复杂,所以在开展实际诊断工作的时候,对于部分疑难杂症,医生通常难以给出具体明确的诊断,而通过对某种疾病的精确诊断病理并进行数据收集,最终利用大数据技术完成分析,则能够更为有效地探寻病患以及病理类型存在的关联性。在现代临床医疗服务当中,可以结合患者所给出的症状信息,将此类信息输入到系统当中,这样便能够充分彰显出智能诊断的效果。我国已经有许多学界人士尝试着将大数据技术和人工智能技术进行深度应用,同时完成对医疗大数据的挖掘处理,逐步构建并打造将慢性病预防作为基础目标的疾病防控管理机制。
聚类分析所代指的是将个体按照属性进行划分,使其分类为多个不同的类别,根本目标是实现对同类的个体的距离的缩减处理,或者实现对不同类型的个体的距离的增加的处理。在诸多领域当中,此项技术已经获得大量的应用,比如在人工智能领域当中的应用相当具体完善。和分类学习的方式想对比,聚类分析的对象本身并无类别标记,其需要按照学习算法来进行自动化确定处理,但是分类学习的训练集的对象却存在相应的差异性,其包含有类别标记。在最近几年,聚类分析是人们探讨的热点话题,尤其是在大数据挖掘领域当中,经过深刻的研究和探讨,其研究方向已经获得巨大的拓展,比如开发并打造了包括DBSCAN以及BIRCH等在内的聚类算法模式。聚类分析的核心作用是挖掘数据集当中所存留的未知分布规律,同时还能够针对其表示的事件集并进行深度挖掘。通过对目前已经在医疗领域崭露头角的大数据技术的应用情况,其最为典型和普遍的应用主要在于医疗费用、对疾病的分布和分析。
临床科研的核心对象都是医院和患者,将病患确定为基本变量,并依据于某个指标进行深度研究,如果是年龄和性别存在着相应的差异的患者,其医学特征是存在差异性的,所以需要对患者进行分组处理,分组结合的信息为患者的性别以及年龄。但是在此种划分的过程中,如果仍旧采用人工划分的方法,是难以行之有效地彰显出患者群体的客观年龄分布的,而通过对聚类分析技术的有效应用则能够实现对研究对象的性别以及年龄的科学划分,同时还能够实现对差异化年龄组成以及性别组成下的患者的临床指标的深层次分析。
对于部分数据对象而言,其在自身所处在的数据集当中的表现是格格不入的,和数据集中的部分行为以及模型并不匹配,此类数据对象均是离群点,在数据挖掘分析时有必要将离群点的类似异常数据做删除处理。不过在相应的数据挖掘分析的过程中,偶然罕见实例的研究意义将会比大概率事件更高,在此针对于离群点数据内容的分析还有其他的说法,其也被称之为异常挖掘,而在异常挖掘的领域当中,研究人员需要切实有效地认识如下问题:到底何种数据才能够被判定为是数据集当中的异常;研究人员需要采用何种方法才能够明确异常点的挖掘方法。目前,发展比较成熟的异常挖掘分析方法主要包含以下几种:首先,是将统计技术作为基础支撑的方法,其次则是将距离作为基础支撑的方法,最后,是将偏差作为基础支撑的方法。
例如,国外专家学生针对于心电图的时间历史数据进行了异常挖掘分析,主要针对的是ECG时间序列数据中的各种异常模式的检测监督,进而完成疾病诊断的重要目标。与此同时,在医疗保险行业当中,应用此项技术也具有极为深远的理论意义和实践意义,为充分寻找到医疗保险当中有可能存留的欺诈行为,能够将医疗账单看做是数据的源头,而后针对性地应用数据挖掘技术,这样便可以完成对账单当中存在的各种异常数据的挖掘分析处理。进而行之有效地挖掘当中所留存的各种问题,此种方法在现代医疗骗保的检测与研究方面的成效相当显著。当然需要重点关注的是上述多种数据挖掘技术在现代医疗大数据角度的应用更多的是理论,其在实际当中的运用仍旧需要充分贴合医院的实际发展情况,用于作出针对性的调整处理。
在医疗大数据当中应用的数据挖掘技术同样可以被应用在流行病监测以及预报的角度,就目前我国在建设并打造国家传染病与突发公共卫生事件网络直报系统上的投入已经全面提升,每年都会有大量的信息数据被上报到相应的机关当中,其覆盖范围越发广泛,并且已经逐渐达到我国县级以上的疾控机构。面对极为丰富充实的数据资源,有必要针对性地应用数据挖掘技术,可以有效地实现对疫情的全面监督和管控,与此同时,通过对集成疾病监测程序的有效利用,可以实现对传播时间以及传播路径的精准监督和管控,从而切实有效地减小流行疾病的出现概率。在通过对数据挖掘技术的有效利用以后,可以极大程度地提升监测预算的精准性,这点早在谷歌公司的实际发展中便已有所体现,谷歌公司此前曾尝试着将全美国民众搜索力度最高的词条和疾病防控中心当中的数据内容进行对比处理,可以有效地判定民众当中是否已经出现大规模流感等问题,通过对此类词条检索的情况的判定分析,可以有效地确定疾病的传播途径,此后疾控中心便能够更有针对性地进行管理防控。
总而言之,随着现代互联网信息技术的迅猛发展,医疗行业也随着的发展脚步而逐渐朝向信息化方向行进,大量医疗大数据技术开始不断聚集,这为后续数据挖掘技术的深度应用奠定下了坚实的支撑作用。在分析医疗大数据的过程中,数据挖掘技术可以帮助相关工作者更为有效地发现各种隐藏信息内容。医院所获得的数据来源本身是较为复杂的,所以在数据挖掘的过程中并未充分彰显出异构数据的优势,此外,由于各个医院系统并未形成完整的互联态势,且数据量甚至都没有满足大数据的入门需要。但随着现代社会的飞速建设和发展,医疗数据体量也会飞速增加,届时数据挖掘技术的应用优势将会更为显著,从而创造出更为良好的经济收益和社会效益。