冯嵩,胡建中
(1.中南大学湘雅医院 网络信息中心,湖南 长沙 410008;2.“移动医疗”教育部-中国移动联合实验室,湖南 长沙 410008)
·医工园地·
基于大数据的个性化诊疗系统研究与探索*
冯嵩1,胡建中2
(1.中南大学湘雅医院 网络信息中心,湖南 长沙 410008;2.“移动医疗”教育部-中国移动联合实验室,湖南 长沙 410008)
将医疗大数据的挖掘分析应用于典型疾病的诊断和预测,是实现个性化疾病诊疗的基础。本文在围绕大数据个性化医疗诊断模型研究与实践的基础上,提出在大数据平台上开展个性化诊疗的建设思路、实现方法和研究内容的初步设想,探索一种新的疾病诊断和预测的方法。
大数据;个性化诊疗;诊断模型
随着互联网技术的飞速发展及其与不同领域的融合,信息对全球社会经济发展和科学进步产生了深刻的影响。目前,大数据伴随着物联网、移动互联网等新兴技术的发展,已经渗透到各行各业中。大数据促进了信息和产业跨界融合,成为加快智慧城市建设,促进信息消费,推动经济社会转型发展的新引擎,将对经济社会发展带来深刻变革。近年来,大数据在医药研发、临床诊疗、疾病管理、公共卫生和健康管理等方面逐渐突显出优势。美、英等发达国家已先后投入巨资开展区域医疗健康信息化建设,希望借助更多、更新的信息化技术,使得医疗健康信息化系统能够最大限度地辅助公民医疗质量和安全,以提升整体医疗服务质量,提高医疗服务可及性,降低医疗费用,减少医疗风险[1]。
2012年9月,美国纽约Metalled公司提出以大数据、人工智能以及众多专家为支持打造个性化医疗的想法,通过全方位了解患者的相关信息,为其提供更匹配、康复几率更高的治疗手段[2]。在临床决策支持系统与电子病历相结合的研究层面,Emory大学生物信息学中心的Andrew等人建立了基于电子病历的决策支持平台,该平台可以将电子病历中所有不同形式的数据标准化为统一的模型并实现不同治疗方案的治疗效果对比,提高医疗质量[3];Shah等[4]设计了一套文本自动匹配程序,该程序可以从非结构化的电子病历信息中提取诸如疾病诊断名称和患者死亡原因之类的数量;Siddiqui等[5]则在电子病历的基础上,结合离散小波变换、主成分分析和支持向量机建立了对大脑磁共振扫描图像的结果分类,实现对医疗检验结果的智能区分。2014年1月,我国中南大学启动“湘雅临床大数据建设”项目,以促进智慧医疗、个体化医疗、医院精细化管理、临床科研、转化医学和基础医学的发展[6]。本研究是基于中南大学大数据项目展开。
初步设计的个性化诊疗模型分为五个过程,关系如图1所示:①提取高层次的语义特征 医疗数据往往具有海量、异构等特点,特别是包含了大量的非结构化文本数据和图像数据,首要是如何从这些数据中提取高层次的语义特征,从而建立统一的数据表达。②预测模型的建立 医学中的疾病诊断和预测问题本身极为复杂,同一种病往往具有不同的临床症状,而类似的症状也有可能是不同的病或者是多种病引起的。此外,经过多年的发展,临床医学积累了大量的医学先验知识。如何对这一复杂的实际问题进行建模,并将这些先验知识融入到该模型中,建立并训练准确、快速的多分类与预测模型,是平台能否提供智能服务特别是个性化自动诊疗的关键。③医疗数据的特征提取 根据语义分析技术,对文本数据和影像数据进行结构化处理,提取统一语义特征用于后续的疾病诊断和预测。④分类模型的建 立 从当前医院实际诊断的流程出发,结合各种疾病的先验知识建立疾病诊断的层次分类模型。⑤模型的训练 从数据并行化和模型并行化出发设计快速的优化算法,完成对模型的有效训练。
图1 个性化诊疗模型关系图
基于大数据应用的个性化诊疗平台前端连接各医疗机构、区域医疗数据中心以及第三方检验检查/影像诊断中心等医疗资源,后端为这些医疗机构、健康管理服务人群以及其他各种用户提供服务。
按平台逻辑功能来划分,基于大数据应用的个性化诊疗平台的存储内容分为三个区块,即原始数据区、整合后的数据区以及服务应用区,如图2所示。三个区块对应不同的数据处理要求,在工艺上具有时序的特性,其中服务应用区必须具备大数据运算和处理能力。
图2 个性化诊疗平台存储内容分区示意图
原始数据区对各接入的医疗机构、区域数据中心以及第三方检验检查、影像诊断中心等机构产生的数据进行收集并集中存储。
数据整合区按照国家规范、地方规范、平台要求以及面向领域的应用方向,将数据整合和梳理,成为大数据运算架构的数据源。
服务应用区以互联网技术为基础,利用大数据存储和分析等工具,以互联网应用、领域应用等作为应用方向,分别设计和存储。
总体架构分为接入点与信息平台建设,包含了网络与安全、中心核心数据服务器、应用服务器及接入端的前置服务器等,如图3所示。
3.2.1 接入点 每个接入点由以下几个部分构成:①硬件部分 前置计算机和防火墙,收集原始接入机构的数据,并成为与医疗机构信息交互特定通道的信息转接点。②软件部分 数据采集软件,包含适合该医疗机构信息化特征的接入和采集策略。③网络环境 连接到基于大数据应用的综合健康服务平台的业务专网、因特网、无线网和3G网络等。
3.2.2 平台 硬件部分:数据整合所需的服务器,及基于大数据处理技术的服务器集群。软件部分:数据整合所需的软件,包括数据标准化处理、临床文档架构(clinical document architecture,CDA)、影像缩略图处理、二维/三维影像高级处理、关键词抽取、知识库构建、应用服务、公共服务接入以及大数据处理架构工具等。网络环境:云存储架构。
图3 系统总体架构图
基于医疗大数据应用的疾病诊断和预测是一项全新的疾病诊断方法。由于医疗大数据来源真实、量大、涉及面广,并应用现代机器学习中的数据挖掘技术实现,对于疾病的诊断和预测具有很强的客观性和较高的准确性,是实现个性化治疗的一项关键技术。具体研究路线如图4所示。
现有的临床大数据来源于电子病历、检验数据和影像数据等,具有多种数据类型和存储格式,包含大量文本和影像等非结构化数据,难以量化。为了全面地对这些数据进行分析,首先必须对这些数据建立统一的表达方式。从文本语义分析和图像语义分析出发,研究临床大数据中非结构化数据的结构化方法,从数据中获取所有与疾病相关的特征,为后续的疾病诊断和预测提供数据。
选择典型疾病,对提取的所有特征进行综合分析,基于现有的先验知识和大规模机器学习算法设计和训练合适的分类器,完成对疾病的自动诊断。由于数据来源的多样性,导致所提取出的特征可能同时包含布尔型、离散和连续等多种类型,而且由于对图像和文本的结构化往往会产生高维特征,对于每个具体的患者在数据的收集和处理过程中可能出现的数据不完整性问题,因此疾病诊断模型的设计与训练就变成一个大规模稀疏异构数据的多分类问题甚至是一个多标签的识别问题。
很多疾病是一种终身性疾病,甚至目前的医疗技术不能彻底治愈,如青光眼治疗目的是保留现有的视功能和视神经状态,需要患者定期进行检查。因此临床数据的另一个特点是时序性或者动态性。有经验的医生能跟踪患者的数据来预测疾病的可能性和若干时间后的严重性以及疗效,尝试采样大规模机器学习算法从大量的病例中来自动学习这种预测模型。
图4 研究路线图
将医疗大数据的挖掘分析应用于典型疾病的诊断和预测,是实现个性化疾病诊疗的基础和关键。它通过采集千百万患者的医疗数据建立诊断与预测模型,并以特定患者的个性数据输入到该诊断模型中,可以更准确地诊断患者的疾病,获得更好的治疗方案,提高患者的疾病治愈率。通过大数据建立疾病的预测模型,不仅可以预测流行病爆发的可能性,而且可以提前采取预防措施,防治流行病的爆发。
医疗数据是典型的大数据,数据量大,数据类型多,增长速度极快。为了有效地利用好医疗大数据,设计一种新的数据存储机制,为实现医疗大数据的存取、分析和信息的共享提供良好的支撑。
未来,随着医疗卫生信息化的不断深入,个性化诊疗服务模式将可能完全取代以前的经验医学模式,新医疗服务模式将充分体现“数据驱动、个性化、预约性、流程集成、协同服务、效果驱动”的显著特点,发展基因测序、个性化药物、个人健康管理等多方面医疗个性化服务[7],通过知识系统主动推荐诊疗协议,是推动临床过程规范化的有效手段[8],由于疾病诊断预测中医疗数据的特殊性和复杂性以及在提供分析决策的准确性方面有更高的要求,使得基于医疗大数据的挖掘分析面临更多的挑战性难题。
[1]高炬,刘珉,殷亦超,等.面向心血管及肿瘤疾病的中医临床大数据挖掘与分析[J].中国信息界-e医疗,2014(6):52-53.
[2]创业之家.医疗O2O案例:MetaMed主打个性化医疗[EB/OL].[2015-02-11].http://www.cy211.cn/2015/02/11870.html.
[3]Post AR,Kurc T,Cholleti S,et al.The Analytic Information Warehouse (AIW):a platform for analytics using electronic health record data[J].Journal of Biomedical Informatics,2013,46(3):410- 424.
[4]Shah AD,Martinez C,Hemingway H.The freetext matching algorithm:a computer program to extract diagnoses and causes of death from unstructured text in electronic health records[J].BMC Medical Informatics & Decision Making,2012,12:88.
[5]Siddiqui MF,Reza AW,Kanesan J.An automated and intelligent medical decision support system for brain MRI scans classification[J].Plos One,2015,10(8):e0135875.
[6]俞国培,包小源,黄新霆, 等.医疗健康大数据的种类、性质及有关问题[J].医学信息学杂志,2014,35 (6):9-10.
[7]许德泉,杨慧清.大数据在医疗个性化服务中的应用[J].中国卫生信息管理杂志,2013,10(4):301-304.
[8]Jones JB,Stewart WF,Darer JD,et al.Beyond the threshold:realtime use of evidence in practice[J].BMC Medical Informatics and Decision Making,2013,13(1):47-59.
Personalized diagnosis and treatment system based on big data
FENG Song1,HU Jianzhong2
(1.Network Information Center,Xiangya Hospital of Central South University,Changsha,Hunan 410008,China;2.Mobile Telemedicine Joint Laboratory of Ministry of Education and China Mobile,Changsha,Hunan 410008,China)
The application of medical big data mining and analysis in the diagnosis and prediction of typical diseases is the foundation to realize individualized diagnosis and treatment of diseases.In this paper,based on the research and practice of large data personalized medicine diagnostic model,the preliminary plan of construction ideas,implementation method and research contents of individualized treatment in the big data platform were put forward,and a new method for disease diagnosis and prediction was explored.
big data; personalized treatment; diagnosis model
R319;TP392
B
10.19338/j.issn.1672-2019.2017.09.012
2017-04-08
湖南省科技基础条件平台建设专项项目(2010TP1001)
(李异凡 编辑)