医学大数据应用信息系统策划与设计

2017-03-22 04:02,,,
中华医学图书情报杂志 2017年8期
关键词:组学术语医学

, , ,

近年来,面对我国日益增大的医疗信息需求,各类医学大数据研究平台应运而生,如精准医学大数据处理与利用技术平台、肿瘤大数据处理与分析平台、罕见病队列注册登记网络平台等,这些系统在为疾病的筛查、诊断、治疗提供数据支持的同时,促进了多个行业的发展,为这些行业中挖掘新模式、发现新方法、制造新产品等提供了信息支持,创造出巨大经济效益。与此同时,国内各地医疗机构的医疗大数据研究也在积极开展。

中国医学科学院医学健康科技创新工程在医学大数据信息采集和分析评估方面专门进行了研究部署,以期建设一个覆盖区域内科研单位的,集医疗大数据的采集、集成、分析挖掘及应用示范于一体的,突破医学大数据采集、规范、安全、检索、融合、分析及挖掘等方面的关键壁垒的信息平台,用以提升医疗质量监管、临床辅助诊疗、卫生经济分析、公共卫生政策评价、人才培养、转化医学研究等方面的水平与能力,从而推动医疗科研机构医学大数据应用技术的研发、验证、应用与推广。

1 医学大数据应用信息系统建设内容分析

1.1 构建医学术语本体系统

1.1.1 实现临床医学术语结构化编码和快速映射

当前医学科研所需的基础数据均来源于医疗机构在不同阶段逐步部署的大量异构的临床信息系统,包括HIS、LIS、PACS、RIS、病理、以及科研信息系统。这些系统中使用的临床医学术语以字典表的形式存储于各自数据库中。

在同一医疗机构内,由于系统的用途、数据库的结构等存在差异,针对同一术语,不同临床信息系统(climcal Infoimation system,CIS)在术语字典的结构、术语名称的表达和术语代码的编定方面均存在异构性;对于不同的医疗机构,即便是相同类型的CIS系统,由于各机构在科室设置、设备配置、医疗水平和特色、信息化水平上存在着差异,术语字典间的异构性同样存在。因此,解决医疗数据源之间的术语异构问题,是医学大数据集成、分析和再利用的迫切需求。

1.1.2 建立医学术语本体、术语字典库及同义词库

医学术语本体是一种医学知识体系,通过对医学领域中概念及概念间关系的描述来进行知识的表示和组织;术语字典库涵盖医疗体系专业术语组成的字典库,包括医学系统命名法(Systematized Nomenclature of Medicine Clinical Terms,SNOMED CT),观测指标标识符逻辑命名与编码(Logical Observation Identifiers Names and Codes,LOINC),国际疾病分类(international Classification of diseases,ICD10),HL7 RIM与CDA等概念标准体系;同义词库包含专业标准术语的同义词字典库,能对相同意义信息的不同描述方法进行映射,以达成异构系统间数据的相互识别。

1.1.3 建立医学术语系统

在知识本体引领下,研发满足临床信息化需要的医学术语系统,包括分析标准术语系统的需求,制定术语系统开发的策略、规划和步骤、各专业领域参与及协作的方法,以及不同用途的术语系统之间基于本体的相互映射和参照机制等。

1.2 研发医学大数据信息存储、清洗与质量控制系统

研发医学大数据信息存储、清洗与质量控制系统,对收集到的原始数据进行储存、清洗以及质量控制,实现数据质量的把控以及信息的初步抽取,内容涉及原始数据、清洗规则、质控规则等。

1.3 整合多种生命组学数据并与临床数据结合

整合多种生命组学数据并与临床数据结合,用于临床诊断、药物开发等精准医学应用领域,如开展疾病风险评估与健康指导、整合分析多组学和临床数据确定疾病靶点、精准医学药物研发及用药指导,建设海量搜索引擎与医学大数据展示平台。

其中临床信息包括患者就医过程中产生的表型数据;组学信息包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学和RNA组学等信息。

此外,医学大数据与区域宏观经济、地理信息资源、人口法人等基础信息资源相结合,可促进健康医疗大数据各类应用新业态的蓬勃发展。最终实现基于临床和组学数据的医学大数据分析、共享、应用及展示。

1.4 搭建智能影像诊断系统

建立智能影像诊断系统,支持计算机断层成像(CT)、高级分子影像系统(AMI)、核磁共振影像(MR)、超声(Ultrasound)等多种影像设备,实现对影像后处理的自动预处理;实现远程三维影像互动,客户可通过多种接入渠道,实现与转诊医师或其他同事共享、浏览和处理影像。

2 医学大数据应用信息系统总体技术架构

医学大数据信息平台涵盖医学大数据采集及接口技术、传输技术、存储技术、数据整合技术、质控技术和交换技术,用以支撑医学本体库,临床和组学数据的医学大数据分析、共享、应用及展示系统,标准规范与隐私保护等方面的研发和工程化。

平台架构见图1。

图1 医学大数据应用信息平台技术架构

总体技术架构的核心建设内容可以描述为“一中心”“一支撑”和“N应用”。“一中心”是医学大数据信息资源中心和大数据管理平台,“一支撑”是医学大数据应用技术创新平台,提供应用支撑服务。N应用指的构建在医学大数据应用技术创新平台上的各类示范性应用,涵盖面向患者/家庭大数据服务应用、医疗机构大数据服务应用、科研单位大数据服务应用、企业大数据服务应用等。总体框架可归纳为6个部分,详细描述如下。

2.1 面向用户

医疗大数据主要面向实验室内的个人/家庭、科研单位(研究所/学院,目前北京协和医院、肿瘤医院等协作单位)、医疗服务机构(医院/公卫管理机构)、企业(制药/生物科学)以及外部单位等,同时面对互联网开放的应用建设环境,参与方包括第三方服务提供商、第三方企业、国外科研机构等,另外平台还需与国家相关医保、民政、公安等政府部门和银行等外部机构进行交互。

2.2 示范应用

包括专项领域应用,如医学大数据注册登记系统、医疗大数据检索与展示系统、临床与组学数据共享分析展示系统、智能影像诊断系统、高危人群样本精准诊疗系统,为实验室提供各类医学大数据服务。

2.3 医学大数据应用技术创新平台

定位为软件基础设施,通过服务治理、复用业务应用功能、提供医学大数据分析工具等手段,按照统一标准规范封装服务对外发布,实现松耦合的信息资源共享,实现信息应用对实验室医疗领域业务的快速响应,降低信息化建设成本。主要包括医学大数据分析工具集、内部聚合平台、开放平台、外联平台、医学大数据交换与共享平台、统一运行管控平台、统一服务治理平台,实现创新应用的集成、数据的集成、业务流程的集成、大数据的汇集、服务和数据对外的开放。其中,大数据分析工具提供算法库、基因组测序与分析工具、分布式计算引擎等基础工具集合;内部聚合平台采用基于构件技术的通用技术组件与通用业务组件统一管理功能;基于互联网开放平台,由第三方服务提供商、第三方企业和创建的创新应用,为个人/家庭、医疗服务机构提供第三方的应用;通过外联平台与外部机构及外部系统进行互联互通;通过交换与共享平台实现基于消息的路由及前置桥接管理;通过统一运行管控平台及统一服务治理平台实现基于医学大数据各类业务模块的服务治理及运维监控等基础功能。

2.4 实验室医学大数据信息资源中心

包括组学信息、居民健康档案、电子病历、个人健康体征信息、环境与地理信息、行业与社会信息以及大数据管理平台,为医学大数据资源的存储、清洗、质控、脱敏等操作提供支撑环境。

2.5 硬件基础设施

按需提供给实验室医疗大数据用户的服务是对所有设施的利用,设施包括计算、存储、网络和其他基本的虚拟化资源,用户能够部署和运行任意软件,如操作系统、数据库软件、中间件等程序。所有设施还包括建设国家级实验室所必须的公共基础网络、公共WIFI网络、通讯基础设施、信息采集与感知设施等,共同构建医学大数据应用技术实验室硬件基础设施环境。这部分在云技术中心部分详细介绍。

2.6 安全体系、标准规范和管控体系

建设安全体系、标准规范和管控体系,确保医学大数据利用的可持续发展。在最底层建立运维保障机制,使得信息化软硬平台能够稳定、持续运行。

3 数据清洗与结构化方法

医学大数据是国家大数据战略中较复杂的数据。从范围上看,涉及卫生计生行业所有业务数据,包括临床数据、基础医学数据、公共卫生数据、药物药品数据、医疗器械数据、中医药数据 、医保及新农合数据、妇幼保健数据等;从内容上看,数据有结构化和非结构化,有数据文件和文本文件,也有影像信息、图形信息和基因序列信息等。这些数据的获取、清洗、质控和结构化是实验室信息系统建设的难点与重点。本文仅对各协作医院接入的临床数据清洗与结构化进行设计。来源于不同协作医院的临床数据,包含患者的一些敏感信息,在整合到医学大数据实验室前,需对数据清洗。在清洗过程中,要在信息完整性和敏感信息泄露间寻求平衡。步骤见图2。

图2 多协作机构临床数据清洗方法

首先,设计一般敏感信息的类别关键词,针对某个特定的项目,也可以定制特殊的关键词。参考HIPPA Safe Harbor标准,设计18种一般敏感信息关键词,包含姓名、详细地理信息、可能泄露病人身份的具体时间信息、电话号码、驾照等其他包含身份识别的信息、传真号码、设备标识符、邮件信息、个人网站链接、身份证号码、IP地址、医疗记录信息、指纹等生物识别信息、参加各种计划的编号信息、可以识别身份的照片信息、账户信息、其他可指向唯一身份的编号、证书/许可证信息。

其次,对于已经结构化的字段(如电子病历数据库中的患者基本信息等),直接对相应数据抽取,放入受保护的健康信息 (Protected Health Information,PHI)库保存。针对文本描述型信息(如以附件文件形式存在的医嘱),采用文本挖掘的方法,对其中敏感数进行脱敏后,存入PHI库。对于脱敏之后进入PHI库的数据,需要构建唯一的识别码,确保数据特定情况下,能够进行回溯。PHI库在实验室数据中心隶属于共享库范畴。清洗后进入PHI库的数据经过质控评价与结构化处理后,可对其他协作单位进行数据提供服务,结构化处理的主要流程如下。

根据本地构建的临床中文、英文语义库和语义翻译表,选取和设计合适的自然语言分析工具,对临床数据进行语义提取和定量描述。其中,对结构化的字段,可以直接和语义库相应字段匹配。对文本描述性的信息,可采取语义分析工具。对英文的临床描述文本,可以采用UMLS提供的MetaMap工具和观察健康数据科学和信息学(Observational Health Data Sciences and Informatics,OHDSI)提供的cTAKEs工具;中文的临床描述文本,将自行开发相关工具,参考PheKB的部分算法,采用半监督学习、RNN深度神经网络、反馈学习、增强学习等机器学习模型,处理真实临床病历书写中的不规范表达、错别字、简写等情况。在语义提取之后,需对临床数据进行数据库映射与存储,并对操作日志进行记录。

4 医学大数据实验室云数据中心设计

云数据中心设计采用超融合基础架构(Hyper-Converged Infrastructure,HCI)来实现,HCI是指在同一套单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素,而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out),形成统一的资源池。使用HCI技术可代替传统的服务器加集中存储的架构,使整个架构更清晰简单(图3)。

图3 医学大数据应用技术实验室云数据中心超融合架构

超融合架构在数据中心中承担着计算资源池和分布式存储资源池的作用,利用通过软件定义的计算资源虚拟化和分布式存储架构实现无单点故障、无单点瓶颈、弹性扩展、性能线性增长等能力;在VM(virtual machine)层可以自由选择包括Vmware vSphere、MicroSoft Hyper-v和KVM等众多产品。通过简单、方便的管理界面,实现对数据中心基础架构层的计算、存储、虚拟化等资源进行统一的监控、管理和运维。超融合基础架构形成的计算资源池和存储资源池直接可以被云计算平台进行调配,服务于OpenStack、Cloud Foundry、Docker、Hadoop等平台,并对上层的医学大数据实验室各类应用系统等进行支撑。同时,分布式存储架构简化容灾方式,便于实现同城数据双活和异地容灾。

采用分布式文件系统将一组集群内的节点组成一个统一的分布式存储平台。分布式文件系统对于虚拟化一体机而言就是一个集中的共享式存储,提供更为简单便捷的存储管理,无需像传统集中存储那样再配置LUN、卷、或者Raid组。图4所示为云数据中心的分布式存储架构。

图4 医学大数据应用技术实验室云数据中心分布式存储架构

在每个节点提供两种磁盘,2块以上SSD,4块SATA的HDD为基准配置,可以根据应用系统容量需求灵活调配。采用此架构除了可提供传统的数据存储能力之外,针对于虚拟化方面还可提供快照、克隆等机制。数据层实现本地优先访问、存储分层等性能机制。包括:借助两份以上冗余数据提供存储的可靠性;增加或减少节点,数据分布会自动适配平台;当节点宕机或磁盘损坏后具备数据的自恢复能力等。

医学大数据应用技术工程实验室云数据中心网络结构设计见图5。包括核心交换区、核心业务区、数据交换区、开发测试区、内联区、安管区、互联网应用服务区、互联网WEB服务区、互联网生产接入区、互联网办公接入区,其中,核心业务区包括医学大数据业务区、精准医学科研区、智能影像区。另外,还包括远程灾备中心及外联数据中心机房。

其中,医学大数据业务区部署医学大数据注册登记系统、医学大数据检索与展示系统、医学与组学数据共享分析展示系统等业务应用;精准医学科研区部署精准医学术语本体库、高危人群样本精准诊疗系统等科研应用;智能影像区部署智能影像后、智能影像诊断系统等影像专业系统。

图5 医学大数据应用技术实验室云数据中心网络结构

5 安全体系设计

医学大数据信息资源涉及大量患者隐私信息,安全体系设计遵循医学伦理原则,保证信息安全,保护个人隐私信息。安全防护体系设计从技术、管理和运维三个角度出发,提供防护、检测、响应和恢复等组成的安全服务集。图6为安全体系总体框架。

图6 医学大数据应用技术实验室安全体系总体架构

其中技术防护体系的设计内容主要包含云平台安全防护、传输通道安全防护以及终端安全防护。其中,云平台安全防护包括物理网络安全、主机安全、数据安全与应用安全;传输通道安全防护包括平台与灾备中心之间传输加密以及平台与终端之间加密传输;终端的安全包括用户身份认证、终端健康检查和修复、终端恶意代码防范、终端监控与审计等。信息安全管理体系主要包含信息安全管理制度、人员管理规范、系统建设管理规定、系统运维规范。信息安全运维体系主要包含事前防护、事中监控、事后追溯3部分。

6 结语

通过构建区域级医学大数据信息采集和分析评价平台,将大数据应用于精准临床诊疗、决策支持、疾病监测预警与管理、公众健康服务等领域,并发挥数据价值,是医学研究未来重要发展的方向。本文围绕各地机构在医学大数据应用技术研发、工程化和应用等方面的迫切需求,策划并设计出一个覆盖区域内多个医疗机构的医学大数据采集集成、分析挖掘及应用示范于一体的国际领先的应用技术实验室信息系统,突破医学大数据采集、规范、安全、检索、融合、分析及挖掘等方面的关键技术,对提升区域内医疗质量监管、临床辅助诊疗、卫生经济分析、公共卫生政策评价、精准医学支撑等方面水平与能力,促进科研机构医学大数据应用技术的研发、验证、应用与推广等方面具有重要价值。

猜你喜欢
组学术语医学
本刊可直接使用的医学缩略语(二)
影像组学在肾上腺肿瘤中的研究进展
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
医学的进步
预防新型冠状病毒, 你必须知道的事
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
医学、生命科学类
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势