闫 慈 王 鹏 杨 越 任 劲 吴睿豪 管 音 张 茜
(新疆医科大学附属肿瘤医院 新疆 830000) (神州数码医疗科技股份有限公司 北京 100000) (新疆医科大学附属肿瘤医院新疆 830000) (神州数码医疗科技股份有限公司北京 100000) (新疆医科大学附属肿瘤医院新疆 830000)
肿瘤大数据治理和应用是推进肿瘤防控的一项基础事业[1]。我国人口众多,每年产生大量临床数据,数据已成为医院重要资产,电子病历、医学影像、基因组学等海量数据的有效利用将是开展临床科研和发展医学人工智能的必备基础方法和手段[2-3]。然而恶性肿瘤临床诊疗信息采集等方面缺少规范化操作规程,尚无统一的肿瘤数据采集平台,各医疗单位之间信息数据难以交换、共享和整合,导致无法进行大规模、有代表性的肿瘤诊断、治疗及预后相关信息收集和分析,临床研究资源浪费情况极为严重。医院建立统一的大数据平台将有利于实现数据资产价值转化、诊疗服务模式革新以及创新成果孵化。
不同病种特点导致数据治理流程和需求各不相同,数据平台建设架构也存在差异。对于罕见病,因发病率较低,病例数较少,适合采用病例注册登记和直报系统相结合的数据中心形式[4-5]。在各个区域建立省级数据中心,采用相同一套登记表单和数据接口,再由各省级中心按周期上传至国家中心,避免病例漏报、少报和数据质量把控不严等问题。国家罕见病中心综合全国数据来制定罕见病目录和诊疗指南。对于以提升院内数据科研利用率为需求的医院,通常建设专科疾病数据库,针对一个病种制定标准化字段目录,涵盖门诊、人口学、住院信息以及病程、用药、检查等多种字段,这种仅限院内使用的大数据平台建设方案,由于接口通用,行政调动能力强,构建方式简单,已经广泛地被临床医院或科室所采纳。另外一种是针对突发性传染性疾病,可由政府卫生监管部门主导,建设区域性传染病大数据防控平台,例如洪湖市COVID-19大数据防控平台[6],通过整合个人每日上报、检测机构、临床医院数据,构建人群健康画像,实时监控疫情传播动态,协助疫情资源调配和防控政策制定。对于肿瘤来说,发病率较高,数据量大,院内诊疗流程长,同时包含不同癌种,对于一家医院来说,尚不足以承载如此大量数据治理和转化,因此构建区域性或省级以上数据中心更符合现实国情。
区域肿瘤大数据中心建设是提升我国肿瘤临床诊疗水平的基础步骤。通过设计合理的平台架构和通用数据模型,实现多种类型数据存储、传输和共享;收集肺癌、食管癌、肝癌、胃癌、结直肠癌、乳腺癌、宫颈癌和鼻咽癌等常见肿瘤的病理学、细胞学、检验学和影像医学等多种类型电子病历数据,实现医疗大数据标准化采集和分析处理[7-8];借助病理和影像数据的人工智能分析算法可以极大提升区域肿瘤诊断水平和准确度,降低医疗成本[9-10]。本研究以新疆医科大学附属肿瘤医院肿瘤大数据平台建设为例,探讨临床研究大数据平台建设架构以及面临的技术挑战、应对策略,对于恶性肿瘤防治事业具有重要作用。
肿瘤大数据中心在建立共享机制的情况下,通过肿瘤大数据采集与集成系统与各级医院信息平台(集成平台)或业务系统进行业务层与数据层对接,建立全系统协同与共享机制,总体框架,见图1。通过各级医院集成平台收集不同院内系统数据并进行整合,利用肿瘤大数据采集与集成平台对接各级医院信息平台或临床数据中心实现数据集成,与通用数据模型(Common Data Model,CDM)相映射形成大数据中心。基于肿瘤病例特征、电子病历和HL7等医疗标准,建立包括肿瘤业务区(涵盖肺癌、食管癌、肝癌、胃癌、结直肠癌、乳腺癌、宫颈癌和鼻咽癌等)、共享交换区、基础区、科研区为核心的肿瘤大数据平台中心数据库。基于肿瘤大数据管理平台,实现与国家癌症中心、医院及科研机构、其他第3方机构等的共享协作并提供相应服务。肿瘤大数据中心物理环境采用虚拟化和超融合技术实现,为各机构数据互联互通、开展远程协作和数据采集等工作提供基础支撑环境。
图1 总体框架
图2 数据资源架构
2.2.1 临时数据存储区 存放接入的各机构原始数据,具体包括临床、业务服务、实时监测数据等。
2.2.2 交换缓冲数据区 机构提供的原始数据进入平台核心数据区之前的数据交换缓冲区,出现数据处理错误或丢失时便于溯源追踪。
2.2.3 核心数据区 (1)基础数据区。数据中心的基础,主要存放标准规范、基础数据字典、患者索引信息、平台日志用户管理信息等用来支撑平台元数据区。(2)临床业务区。为临床诊疗业务应用(智能检索、诊疗辅助决策等)提供支撑,主要包含患者就诊活动中产生的医疗服务信息即临床业务数据库,按肿瘤种类进行划分的单病种数据库及业务开展的应用数据库。(3)科研数据区。基于临床业务区建立科研通用数据模型,过滤出适合进行科研研究的人群信息,建设知识库服务与科研分析研究。(4)共享交换数据区。基于临床业务区分离出需要机构之间共享交换的信息单独进行隔离,提高共享协作效率,同时可按不同主题进行划分及记录共享交换的日志。
2.2.4 运营数据区 存放用户、运营管理、运营监控、业务服务数据。支撑大数据中心的运营监控。
肿瘤大数据中心建设是开展临床与科研应用的基础,影响应用效果的核心是数据管理与处理,因此良好的数据管理与治理是重中之重。肿瘤大数据管理平台技术架构,见图3。基于数据管理技术架构,数据处理流程,见图4。
图3 数据管理技术架构
图4 数据处理流程
3.2.1 数据采集 针对各医疗机构所处位置、使用数据库类型不同,数据模态多样性这种复杂异构情况,充分利用政务云资源在云端架设大数据集群环境,在云端以备份数据库、Web Service或视图等多种方式主动获取各机构增量数据,保证数据完整性、准确性及与原生产系统的一致性。另外根据业务类型不同采用实时和定时两种方式获取数据。支持将分析成果返还区内医疗机构进行应用展现。通过中间表视图,医院临床业务系统中的数据以符合通用数据模型需求的格式呈现出来。中间表是指连接通用数据模型和医院临床业务系统数据内容的数据库表。数据库中的视图是一个虚拟表,其内容由查询定义,可以提供与真实表相同的数据内容和字段。中间表视图能够在几乎不增加数据库负担的情况下,实时、准确地将临床、科研、管理所需的临床数据从不同临床业务系统中以满足OMOP通用数据模型需求的方式查询显示出来。Kettle是数据抽取过程中常用的提取-转换-加载(Extract, Transform and Load,ETL)工具。Kettle通过可视化的方式提供便捷、高效的数据提取方式。通过在Kettle中配置输入输出数据库的接口和数据表并设置互相映射的字段,中间表视图中的临床数据被完整地抽取到通用数据模型的数据表中。
3.2.2 数据校验 数据采集过程中由于人工或者医院业务系统自身原因,抽取至数据中心的数据并非完全正确、可用、一致。为解决该问题,提高数据中心存储信息的准确性,本方案特设置数据质量校验平台。该平台通过设置一系列数据检验规则,对采集的数据进行校验,从而提高数据中心的数据质量。通过数据质量校验平台可进行原始数据关联性检查、分布检查以及清洗后数据与原始数据一致性检查,在此过程中引入美国最权威的临床数据质控标准以及14大类超过1 200条的数据检测规则。对数据完整性、一致性、准确性、及时性4个方面进行校验,定期迭代优化数据采集流程。
3.3.1 概述 基于电子病历和信息集成平台系统收集包含病理学、细胞学、检验学和影像医学等多种类型电子病历数据,数据标准化处理是进行数据分析与应用研究的关键,即原始数据进入数据缓冲区后经历结构化处理、通用数据模型映射、术语绑定、数据质控的一系列过程[11]。
3.3.2 数据结构化处理 对于非结构化文本数据,采用先进的自然语言处理(Natural Language Processing, NLP)和语义分析技术,通过文本预处理、人工标注、机器学习、模型构建及模型应用5个步骤进行处理,实现非结构化数据的结构化。
3.3.3 通用数据模型 构建多源异构临床样本与生命组学通用数据模型, 完成从区内不同医院/队列的数据标准向恶性肿瘤临床与科研大数据采集与共享平台数据标准转化与映射。抽取来自区内不同医院/队列数据,构建原始数据存储库。研究基于质量控制数据抽取与筛选和基于角色控制的数据安全与访问方法。数据模型选择上,构建多源异构临床样本与生命组学的国际通用数据模型 OHDSI OMOP,完成从区内不同医院/队列的数据标准向肿瘤大数据中心平台的数据标准转化与映射。OHDSI是一个开放的全球医疗科研协作网络,聚焦于医学数据标准化、医疗产品安全监控、比较有效性研究、个性风险预测、数据特征化、质量改进。目前数据网络包括来自19个国家和地区的12亿条患者记录,超过100个数据库。该模型以人为中心构建生命全息视图,相关数据表的定义及表结构字段的规范均以国际标准为前提,将健康医疗数据转化成研究用的数据模型,便于快速、有效分析医疗大数据。支持多中心、跨区域、跨国家的多中心科研,允许对不同观测数据库进行系统分析,实现数据互联互通。
3.3.4 医学术语绑定 对于术语绑定,采用世界上最复杂、最丰富的一体化中文医学术语本体技术SNOMED CT,该术语库涵盖40 000余条疾病信息、20 000余条药品信息及500余条检查检验项目信息,与ICD10体系相比,疾病或项目的描述与分类更加细化,更适合于后期基于数据中心进行临床科研研究[12-13]。
3.3.5 数据质控流程 数据质控采用自动与人工兼并方式进行,主要聚焦数据完整性、规范性、一致性、准确性、唯一性、及时性方面,通过质控规则设置、数据稽查、质量报告、问题分配管理实现质控过程的闭环管理。
3.4.1 Hadoop分布式与关系型数据库结合 对于庞大的数据资源,采用Hadoop 分布式与关系型数据库相结合方式存储,支持对PB级数据量的快速处理、大规模数据的秒级检索,采用安全套接层(Secure Sockets Layer,SSL)加密,分离密钥和加密数据,使用过滤器和数据备份等方式,构建数据存储安全策略。利用隔离区(Demilitarized Done,DMZ)策略,保证数据传输安全。
3.4.2 数据安全隐私技术 为保护医院数据安全,需要进行数据隐私处理。首先整理原始数据,产生中间表视图。临床数据大致可分为两种类型:结构化和非结构化。结构化数据,首先对个人信息进行脱敏处理,对原始数据进行二次编码,防止其逆向回溯源数据。使用成熟的医学数据脱敏算法识别信息中有关患者隐私的重要信息,如姓名、身份证号、生日等,进行脱敏处理。非结构化数据,首先根据文本类型选择自然语言处理,再根据中文本体库建设和通用数据模型进行数据合并和映射,将数据脱敏后导入数据仓库中。最后对脱敏后的数据使用预定的规范进行标准化。脱敏后的数据可最大限度地方便医学研究,避免用户隐私信息泄漏。
3.4.3 数据安全制度 构建人员管理层面的数据安全管控制度,严格控制数据共享和传输操作。涉及多中心研究情况,需由需求发起方提出数据使用书面申请并签字留存,该书面申请涵盖数据大小、范围、使用目的、使用场景、使用时间等内容,院方管理人员审批通过后,经过技术人员对数据进行脱敏,然后由技术方评估数据需求安全性,达到要求后审批通过才可使用,留存备份申请表和审批表,该数据达到使用时限后需清除院外拷贝,防止超需使用或泄漏风险。该流程从制度层面强化数据安全和共享机制,责任到人。
基于中心交换系统(企业服务总线为核心)与可定制的前置交换软件系统来实现区内各医疗机构间临床及组学数据交换与共享。基于协作网络共享平台,定义临床表型数据共享标准规范,为肿瘤医学数据共享提供完善的标准。通过统一的接口管理方式对接口标准进行封装,对接口申请单位采用统一标准进行流程审核、接口调用、系统监控。最终实现数据共享、统一数据标准,促进各队列业务协同及研究成果共享。
肿瘤临床数据包括电子病历、医学影像、临床检验等多种类型,这些数据多处于归档状态,又分散存储于不同业务系统中,且多为半结构化和非结构化数据,具有多源异构、多模高维的特点,依靠传统数据分析、处理技术无法满足实际需求,数据归档和处理存在难度。研究和分析肿瘤疾病发病模式和影响因素,为早期筛查、诊断和药物研发提供重要依据,为医护人员提供临床指导,为患者提供最佳诊疗方案,为肿瘤精准医疗的实施奠定基础。本研究以新疆医科大学附属肿瘤医院肿瘤大数据科研平台建设为案例,探讨大数据架构、作业流程以及在数据采集、标准化、共享和安全保护等方面的挑战和应对措施,使大数据在肿瘤防治、临床诊断、科学研究、指南制定等方面落地赋能。医疗大数据平台构建面临诸多挑战,需以传统临床经验为基础,以高新技术为依托,制定合理长远的计划,进一步推动大数据在医疗等领域的应用。