李静 单既桢
北京市卫生健康委信息中心 北京 100034
随着云计算、大数据、互联网+、人工智能等技术的发展,人类社会已逐步迈入大数据时代。大数据将改变以往任何行业管理、分析、利用数据的方式,而医疗保健是大数据应用最有可能带来革命性变革的领域之一。医疗健康大数据是国家重要的基础性战略资源[1],其在医疗、公共卫生、慢病管理、领导决策、科研等方面有巨大的应用价值,对医疗健康的工作模式带来了深刻的影响,为深化医改、医疗服务提升、扩大医疗健康资源供给、满足人民日益多元化的健康服务需求具有重要的意义。
医疗健康大数据数据集分类是医疗健康大数据资源整合、共享和利用的基础,医疗健康大数据信息资源的类目分为新型数态、基础信息、公共卫生、计划生育、医疗服务、医疗保障、药品管理和综合管理等 8 个类型。
医疗健康大数据分析主要涉及医疗健康大数据和大数据分析方法,即将先进的分析技术(大数据分析架构和大数据挖掘分析软件)应用于医疗健康大数据集。数据分析是大数据价值链中的最终和最重要的阶段,目的是提取有价值的信息,为决策者提供技术支撑。大数据分析主要关系两个方面内容:大数据和分析技术,如何把二者有机地结合挖掘数据中潜在的价值加以运用服务于业务部门是智能研究的重要趋势之一[2]。大数据分析方法包括预测分析、聚类分析、统计分析、因子分析、相关分析、回归分析、A/B Testing(水桶测试)、数据挖掘算法等。大数据集可通过不同类型的分析工具(包括基于SQL 查询、数据挖掘、统计分析、事实聚类、数据可视化、自然语言处理、文本分析、人工智能等)实现对大数据的分析发掘[3-4]。
(1)跨域就诊分析。四川省通过动态流向图、热点图等方式展示区域内各市、区或县之间患者流向,以及分析特定疾病特定区域的患者流向情况,从而反映区域各地区医疗资源分配和疾病流行情况。通过分析患者就诊区域分布特征,对不同区域患者进行画像,挖掘不同区域患者就诊特征。通过数据关联分析和聚类分析,精准定位跨域跨级就诊的集中病种和人群特征。
(2)影像数据分析。上海申康以其管辖的34家三级医院的影像检查数据为基础,建立了区域医疗多病种的影像特征库,从中抽取五项符合规则的病例进行样本库制定,后期医生完成影像诊断报告书写的同时将有价值的数据录入对应疾病分类中。运用病种影像特征库进行大数据量分析,用于常见疾病阳性诊断。
(3)数据质量分析。四川省对区域内居民病案首页和新农合数据利用大数据技术关联分析,发现数据异常情况,如患者同一时间重复住院的问题,从而识别虚报业务量或骗保行为。
(1)区域健康管理。从上文案例可推出,国内针对大数据的应用侧重从疾病诊疗、医疗保险、疾病监测分析等方面着手进行研究和分析,但随着大健康理念的不断深入,医疗模式正在由有病治病向无病保健方向发展,形成由单一的药物治疗转为药物治疗与非药物治疗相结合、被动治疗转为被动治疗与主动预防保健相结合,最终形成以预防为主的健康管理模式。如何通过大数据技术实现个体或区域群体全生命周期健康状况的监测、分析和评估[5],例如对引起疾病的诸如遗传、饮食起居习惯、外界环境等因素进行分析及预测,从而改善存在问题形成健康闭环管理,达到疾病预防和控制的目的。
研究区域内亚健康与疾病间的相互关系,分析各种体征参数与理化指标在亚健康辨识中的作用及权重;应用聚类分析、关联分析、时间序列、回归分析等手段研究亚健康指标之间的关联性;通过对亚健康人群的数据进行挖掘,分析导致疾病的影响因素,建立评估和预测模型,预测疾病发生危险度[5]。
(2)建立区域身体健康评估标准。通过大数据技术实现区域健康评估标准,为居民制定有个体针对性的预防、诊治和预后规范;同时,关注精神心理健康,运用大数据技术对居民进行精神防护相关的数据采集、分析。
(3)区域慢性非传染病分析。运用大数据、数据挖掘技术对区域内居民的高血压、糖尿病、心血管疾病等慢性非传染性疾病的个案数据进行汇总、分析,形成区域热力图和趋势分析图,并结合个体的地域特点、人文环境、遗传因素及饮食习惯等因素评分统计,对发病规律、病因进行挖掘,在此基础上,建立慢病预测模型,引导预防慢性病的发生。
(4)区域传染病分析。运用大数据分析、挖掘技术对常见的传染性疾病,如结核病、艾滋病、流感等个案数据开展大数据汇总、分析,生成区域分布图,动态感知传染趋势,协助区域公共卫生管理部门阻断传染源。
随着医疗健康领域需求的不断转变,健康管理理念正在日益渗透,医疗健康大数据的分析和挖掘技术具有巨大的应用前景。纵观国内医疗健康大数据分析业务发展历程,目前主要面临着数据标准难以统一、数据整合及共享困难、大数据技术手段缺乏、数据安全防护不足和数据挖掘分析人才匮乏等方面的问题。
(1)数据整合及共享难度大。医疗健康相关信息系统建设时往往因购置渠道不一、接口设计复杂、没有统一标准等历史原因,形成众多“信息孤岛”,造成各系统的数据字典差异较大,影响了大数据在收集、传输、储存、内部共享和使用中的一致性和准确性,对大数据的挖掘、分析带来了难度。因此行业内应进一步推进建立统一规范的、可互联互通的、可推广应用的数据集和数据元,作为临床诊疗、疾病管理和科学研究的基础,从而更加有利于挖掘数据存在的价值。
同时,医疗、公共卫生、疾控、妇幼等各业务条线数据分散存储,基于带宽和系统性能因素,大量业务数据的传输效率低下,对数据有效的整合共享带来了瓶颈。
(2)大数据技术手段缺乏。随着医疗健康与信息化技术的长期融合,产生了种类繁多、数量众多的医疗健康数据。但医疗健康大数据挖掘和分析技术的引入和应用尚处在初级阶段,究其原因在于大数据深度分析、挖掘技术还在理论研究中,在大数据的查询、快速加载、处理、分析等方面与业务需求尚有差距。
(3)技术人员短缺。与大数据技术手段缺乏类似,我国大数据分析、挖掘技术起步较晚,研究和应用型人才欠缺,且国内高校没有设立专门的大数据挖掘、分析专业,且医疗健康和大数据分析、挖掘复合型人才更是凤毛麟角,相关学者和科研人员大都在摸索国外的先进技术,因此,医疗健康大数据挖掘、分析人才的培养任重而道远。
(4)数据安全和隐私保护薄弱。在健康医疗数据共享与开放的过程中,传统的安全防护手段无法跟上数据量非线性增长的部分,数据安全防护会暴露众多漏洞,容易造成网络攻击、数据泄露、病毒攻击等一系列问题,信息安全将面临更大的挑战。另外,在对个人健康数据进行采集、存储、使用和共享的过程中,个人健康数据会与一些网络行为、社交信息整合在一起,这时常规隐私保护手段会显得比较薄弱,容易造成隐私泄露,从而对个人的生活造成不良影响甚至带来更加严重的危害。
为落实“健康强国”的政策号召,进一步维护区域内居民的健康权益,需加快建设区域医疗健康大数据中心,加强区域医疗健康数据资源管理,建立大数据应用体系,尤其需根据现有数据资源挖掘与健康管理和评估、疾病预防可改变每个居民就医方式和健康维护的方式,从而提高区域整体健康水平,真正实现医疗健康大数据应用的最终目标。为尽快实现终极目标,提高大数据挖掘、分析技术的应用成效,作为区域医疗健康信息化工作者,下一步需致力于研究建设信息共享模式及标准规范、数据安全和隐私保护机制等课题,为区域医疗健康大数据的精准、深入应用夯实基础。