舒影岚 陈艳萍* 吉臻宇 赵 凯 王春安
当前,生命科技与信息技术融合突破,驱动健康医疗大数据在临床科研、健康管理、公共卫生等核心领域广泛应用,使之成为创新最活跃、辐射最广泛和融合最深化的经济新引擎[1-3]。临床科研以临床决策支撑为依托,推动药物研发和精准医疗;健康管理在多元化数据监测基础上,提供电子健康管理服务;公共卫生聚焦流行病预警和响应机制,优化医院管理[4-6]。欧美各国深刻认识到健康医疗大数据作为国家基础性战略资源重要性,争相建设国家健康医疗数据库,抢占医学研究、精准诊疗和尖端移动设备前沿阵地[7]。2016年,在原国家卫生和计划生育委员会(卫计委)牵头下,逐步建设国家基因库,落实1个国家数据中心、5个区域数据中心、X个应用发展中心(即“1+5+X”)健康医疗大数据规划,催生新业态、促进新经济。
健康医疗大数据是医疗健康产业发展的必要途径[8-9]。发达国家已搭建较为成熟的健康医疗大数据服务平台,并在有效管理和技术升级上展开激烈竞争。美国拥有完整的医疗健康大数据库,建成覆盖本土的12个区域电子病历数据中心、9个医疗知识中心、8个医学影像与生物信息数据中心。英国斥资55亿英镑建设全国一体化医疗照护信息储存服务系统,收集和储存了超过23000个医疗信息系统数据,覆盖超过5000万居民医疗信息,并已为130万名医务人员提供服务。丹麦成立国家生物银行,集中和管理了超过700万生物样本,样品可经伦理委员会审批使用,供科研人员研究流行病学和疾病图谱。日本实施国立大学医院医疗信息远程传输网络系统计划,福山大学附属医院累计收集超过1700万病历记录和1.43亿件用药处方及300万件病名,可实现处方自动分析和匹配功能。
医院是产生和使用医疗健康大数据的重要终端[10]。在行业信息共享、价值挖掘等方面,美国医疗机构通过统一大数据标准、积累海量病案实现了改善医院运营、提供辅助诊断等功能。美国建立了卫生信息传输健康等级7(health level seven,HL7)标准和健康信息交换协议(health information exchange,HIE),用于多种操作和硬件环境,以规范临床医学和健康信息格式,降低系统互联成本并促进系统间数据共享[11]。在医疗健康大数据应用方面,缅因州的圣约瑟夫医疗健康中心使用数据分析软件,根据患者患病风险和保险分类,建立工作流程表、制定工作计划,将30 d复发率减少了15%。在新泽西州,医院系统应用IBM Watson人工智能(artificial intelligence,AI)分析平台分析特定疾病(硬化症、糖尿病和肺癌),提出规范化临床治疗建议,诊断正确率达75%[12]。
在大数据解决方案领域,经过数十年摸索,产业化应用初显锋芒。Inovalon作为美国最大医疗数据库服务商,通过分析和改进临床治疗结果,为美国国家质量保证委员会、医疗保险等部门提供服务,服务超过85万医务工作者、37万医疗机构及71%的美国公民,并拥有300亿医学案例[13]。然而,受限于较长的市场验证周期、海量繁杂非结构化数据处理、数据使用合规性、定价模式转变等原因,大数据公司经过20年发展方才摸索出针对保险公司、医疗机构、制药及生物技术公司服务的不同商业服务模式,其数据应用领域和商业模式仍有待进一步拓展。
在大数据指导精准诊疗领域,根据基因组大数据可实现个体化治疗,并为靶向用药提供有效的治疗指导。如在非小细胞肺癌药物研发中,经过大量基因数据筛选后,发现只有当患者发生特定突变,而K-RAS基因未突变时,使用特罗凯和易瑞沙进行靶向治疗方有效。如患者携带K-RAS基因,则推荐使用K-RAS靶向抑制剂安卓健。此外,医院和机构充分利用大数据提供精准诊断。美国斯坦福大学建立的数据库Hivdb可在患者测序后,通过比对发现基因的抗药性突变,针对性地提供艾滋病(human immunodeficiency virus,HIV)治疗方案。然而,尽管积累了PB级别组学数据,用于精准诊疗大数据研究却面临动态数据获取难度大、临床症状影响因素多、个体与群体筛选结果因果关系不确定等应用难题。
在健康管理领域,对大数据的精确获取和健康管理功能推动可移动穿戴设备的精细化、专业化。2014年,美国Empatica公司研发出一款通过美国FDA批准的癫痫发作的监测智能手表,可通过机器学习来识别惊厥性癫痫发作,并向护理人员发送警报[14]。2017年,美国Kardia公司推出美国FDA批准的心电图移动设备,通过采集心悸、呼吸短促等问题信号预测心脏及中风的风险[15]。然而,由于各个厂商的算法和标准不统一,缺乏共享开放机制的支撑,这些数据的有效整合利用还存在一定阻碍。未来,数据海量积累、格式化收集存储以及共享机制探索均为医疗健康大数据有效应用的重要环节。
近年来,在相关政策、社会环境和技术创新等影响下,我国大数据产业从无到有,全国各地发展健康医疗大数据积极性较高,行业应用得到快速推广,市场规模明显扩大。2015-2017年,我国健康医疗大数据市场规模分别为10亿元、15亿元及27亿元。2018年,我国健康医疗大数据市场规模预计达到43亿元,并保持未来2-3年市场规模增长率在50%以上。当前,大数据战略已上升为国家战略高度,国家从战略规划、技术能力以及应用与管理三个层面积极落实推进大数据发展政策,加速大数据产业发展从理论研究进入应用。
2015年,由原国家卫计委发布《全国医疗卫生服务体系规划纲要(2015-2020年)》,提出2018年底前建成国家政府数据统一开放平台,率先在医疗、卫生等重要领域实现公共数据资源合理适度向社会开放。2017年7月,国家发展改革委印发《关于促进分享经济发展的指导性意见》,提出充分运用大数据等信息技术手段,多渠道收集相关数据并建立数据库,促进经济发展,改善民生。2017年12月,国家强调推动实施国家大数据战略,加快建设数字中国。2016年,原国家卫计委牵头起草的《关于促进和规范健康医疗大数据应用发展的指导意见》提出,到2020年,建成国家医疗卫生信息分级开放应用平台,基本实现城乡居民拥有规范化的电子健康档案和功能完备的健康卡,适应国情的健康医疗大数据应用发展模式基本建立,健康医疗大数据产业体系初步形成、新业态蓬勃发展。
在医疗健康数据库方面,2006年我国开始建设国家医疗健康数据库,整合区域范围内医院、基层卫生机构及公共卫生机构的各类数据,形成以个人为中心的全生命周期电子健康档案库。2015年,原国家卫计委启动了十省互联互通项目,我国约50%的委属医院,42%的省属医院和38%的市属医院已启动医院信息平台建设。2016年,原国家卫计委启动“1+5+X”健康医疗大数据发展规划,建设江苏省(东)、贵州省(西)、福建省(南)、山东省(北)以及安徽省(中)五大数据中心。2017年,原国家卫计委牵头组建医疗健康数据三大集团,包括中国健康医疗大数据产业发展有限公司、中国健康医疗大数据科技发展集团公司及中国健康医疗大数据股份有限公司,以承担国家健康医疗大数据中心、区域中心、应用发展中心和产业园建设任务。在生物数据库方面,国家基因库2016年正式建成,该基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体。
福建省和江苏省作为国家健康医疗大数据中心的“先行者”,立足自身优势,逐步建立了政策保障体系和数据平台。福州启动了国家健康医疗大数据中心与产业园建设试点工程(福州园区),围绕“一个中心、一个产业园、两个基地、四大应用领域”在全国首发“一个办法、两大平台”,即《福州市健康医疗大数据资源管理暂行办法》、国家健康医疗大数据平台(福州)和国家健康医疗大数据安全服务平台(福州)。通过汇聚公共卫生数据、临床数据、基因组学数据、物联网数据等近百亿条数据,在安全为先、隐私保护的前提下,将对外提供数据、应用、科研、生态和安全五方面服务。“两大平台”已完成全市13家市属医院、24家县级医院和其他医疗机构的健康医疗大数据采集。南京成立国家健康医疗大数据中心与产业园建设试点工程(南京园区),实行“1+3”模式。即“1个中心”将构建统一权威、互联互通的人口健康医疗信息平台,并培育“互联网健康医疗”新业态;“3个基地”分别为医疗养生等方面的综合服务应用基地、生物医药研发应用基地以及尖端医疗科技应用基地。南京存储中心一期工程已于2017年9月底全面完成,其存储容量达52PB,并配置了2340TFLOPS的超算设备,用于统一储存江苏省8000万人的个人健康档案和电子病历,以及全省174家三级医院的影像资料等健康医疗大数据。
随着采集手段革新、规则演算优化及AI的发展,健康医疗大数据领域涌现出一系列新技术、新应用和新产品,开辟了大数据应用新领域。
在医疗解决方案大数据领域,云医疗是在云计算、物联网、3G通信以及多媒体等新技术基础上,结合医疗技术,利用AI和机器学习,快速通过机器判断病理检验结果,实现医疗资源共享,以满足广大人民群众日益提升的健康需求的一项全新的医疗服务[16]。腾讯智慧医学影像解决方案将医学影像大数据与临床应用需求深度整合,利用腾讯的AI技术和云基础设施打造统一化的医疗云平台[17]。云医疗解决方案推进医疗服务信息化,改进医院流程管理,解决数据孤岛问题,为临床科室提供高效、准确的影像介入治疗和手术,同时保障医学诊断数据的私密性和安全性。
在健康服务平台大数据领域,阿里巴巴集团布局医疗健康领域,成为医疗健康行业提供较为全面的互联网解决方案的健康数据机构。腾讯控股的企鹅医院正式开业,采用线上、线下结合的模式,可通过在线注册的43万专科医院医生提供转诊服务。阿里巴巴、腾讯等信息科技巨头依靠数据传输、AI、区块链等新技术的创新与应用,将为医疗大数据在健康服务领域的应用提供更全面有效的应用基础支持[18]。
在医药大数据领域,恒瑞制药、太美医疗、药渡数据信息科技等企业致力于信息技术在医药研发领域的应用,产品和服务涵盖药物开发和临床研究等领域,利用大数据帮助研发人员解密疾病的生物衍生物或某种药物作用原理,将医药研发过程中海量数据变成可读、可试可用的知识,实现跨学科数据连接。对数据进行解读和商业价值判断,通过大数据、机器学习等技术整合医药行业资源优势,打造数据驱动的医药全产业链互联网平台[19]。
在生物信息大数据领域,华大基因等生物信息行业龙头借助于大数据的优势,开展基因组、转录组、蛋白质、疾病表型组、表观遗传组及进化组等生物信息大数据研究,是医疗大数据技术进步的原始动力,通过样本采集、处理及存储,对临床信息进行清洗、标准化以及信息录入,完成组学数据整合及“样本+信息+数据”关联,实现生物样本全周期大数据管理。研究与技术相辅相成,是推动生物信息大数据蓬勃发展的引擎[20]。
在精准诊疗领域,腾讯与医院携手,共建以AI临床应用的“智慧医院”,从诊前优化、数据分析和可视化应用等领域为医疗工作者提供更加快捷有效的诊断工具[21];在移动医疗领域,翰宇药业与腾讯公司签约共同开展糖尿病等慢病全时监控干预,为无创连续血糖监测手环实现数据对接、统计交互提供完整平台;中科院与深圳诺嘉共建健康大数据联合实验室,研发移动医疗系统和智能芯片打造老龄智能科技产品;在健康大数据领域,华大基因联手阿里打造BGI Online beta,碳云智能收购了以色列Imagu Vision人工智能公司,建立iCarbonX-Israel人工智能研发中心,开发数字生命生态系统。
目前,我国已初步建立健康医疗数据库,形成人口健康信息化体系,并在信息技术结合医学研究、健康管理等领域卓有成效。继续保持健康医疗大数据先发优势需要从根本上提高数据长期获取、储存和运算能力,大力推动临床检测和患者信息科学应用,并突破健康信息使用中法律和技术瓶颈。
健康医疗大数据应用发展规划和规章制度将会更加完善,健康信息服务管理规范,信息使用权限明确,各方合法权益得到保护。可出台健康医疗大数据资源管理和开放共享相关法律法规,规范健康医疗大数据开发开放相关管理服务活动;可设立健康医疗大数据法规委员会,开展健康医疗大数据资源集聚和共享的建设。相关主体在健康医疗大数据采集、传输、存储、利用、开放等环节的权利、责任和义务更加明确,实现风险可控原则下最大限度的健康医疗数据开放,建立具有中国特色的健康医疗大数据开放、共享与应用的引导和监管协同发展新模式。
加快组建国家健康医疗大数据研究院、大数据系统计算技术国家工程实验室。通过国家与地方联合共建的方式,建立多模态健康大数据高性能处理平台,实现TB-PB级的多模态健康大数据处理及分析能力,建成具有开放性的健康大数据融合、处理及智能分析平台。建立健康大数据研究中心,开展医疗健康数据的存储、分析、建模、使用等角度研究数字化生命的关键技术研究。建立公共服务平台,推动大数据基础理论、大数据的未来新型计算体系、大数据驱动的智能应用技术等领域技术研发和成果转化。支持高校和科研机构开展基于健康医疗大数据的技术研究,包括临床数据与生物研究数据结构化、AI学习及数据分析、临床诊断输出等。整合大数据研究机构、临床医院与生命健康企业优势力量,成立产学研联盟。完善健康医疗数据资源体系和智库,全面深化医疗健康大数据在临床和科研、公共卫生、教育培训等领域的产业化应用。
全面推动健康医疗信息工程,充分利用大数据、云计算、互联网+、物联网等新技术,建立和完善健康档案、电子病历和全员人口三大基础数据库。推动人口健康信息化建设,建立统筹协调、规范有序的人口健康信息化管理机制,建设和完善标准体系,汇集多方资源,构建人口健康大数据中心。
加快生物样本库建设。依托国家基因库二期工程,建成全球最大的综合性生物资源样本库和最大基因组高性能计算中心,在民族多样性、重大疾病等方面建设6个特色资源库;建立活体库模型,形成长期、连续的观测数据;形成250 Pb/年的基因组数据和30亿碱基/年的合成碱基产出能力。
积极开展医疗大数据多模态、非结构化收集技术、大数据分析和融合关键技术、知识库融合工程技术、个体化健康管理和公共卫生大数据分析及应用技术、数据治理和隐私保护技术等领域的研究。加强健康医疗海量数据存储清洗、分析挖掘、安全隐私保护等关键技术攻关。集中攻克健康医疗大数据高效读取收集标准化、大数据管理容量扩增、软硬件混合高效并行化计算等核心技术。研发基于多源海量临床数据交叉分析面向个体患者的诊治技术,推进基因芯片与测序技术在遗传性疾病诊断、癌症早期诊断和疾病预防检测方面的应用,快速提高健康医疗大数据核心技术水平[22-23]。
设立大数据创新应用专项基金,支持研发健康管理相关的AI技术、3D打印技术、医用机器人、大型医疗设备、健康和康复辅助器械以及可穿戴设备,加快研发成果转化;提高数字医疗设备、物联网设备以及智能健康产品质量,促进健康管理产业升级;建立医疗信息系统、智能健康电子产品、可穿戴设备、健康医疗移动应用等数据资源相互融合双向共享机制,形成中国特色的健康医疗大数据产业新业态。
打造健康医疗大数据全球生命创新中心,从核心工具开发、地贫“清零”、肿瘤精准防控、超级物种研究、地球数字化、深海生物多样性、DNA身份认定、基因与儿童认知等八大专项入手,建立产业创新集聚区,形成跨领域、多层次的生物医疗产业链。大力培育健康医疗大数据研发、应用与延伸产业和相关产品支撑产业,建设包括生物数据收集、测序仪研发生产、精准诊疗研发、可穿戴设备研制等生物医疗数据产业园。
加强健康医疗大数据安全管控。研究制定健康医疗大数据管理办法,完善信息安全管理机制,明确数据采集、传输、存储、使用、开放等各环节的范围边界、责任主体和具体要求。加强病毒防范、漏洞管理、入侵防范、身份认证、访问控制、信息传输和存储加密保护等安全防护措施。加强大数据安全监测和预警,建立安全信息通报和应急处置联动机制,完善风险隐患化解和应对工作措施。
建立健康医疗大数据标准规范,推进健康医疗大数据产业标准体系建设,加快建立针对医疗卫生机构、健康管理机构、大数据企业等数据标准体系,满足健康医疗大数据收集、传输、存储、分析、应用、安全和管理需求;完善涵盖数据采集、资源分类、开放共享、交换交易、数据安全、融合应用等关键共性标准,实现跨部门、跨层级及跨系统的数据交换与共享。完善数据开放共享支撑服务体系,遵照国家有关疾病诊断编码、临床医学术语、检查检验规范、药品应用编码、信息数据接口和传输协议等相关标准进行建设,促进健康医疗大数据产品和服务流程标准化。加快建立健康医疗大数据市场标准,设立第三方公共生物医疗数据服务运营公司,引导企业、行业协会、科研机构、社会组织等按照规范要求开放或交易数据,公司向市场提供内容格式规范化的开放数据平台。
引进国外先进社区健康发展模式和经验,启动百万人次的健康基因身份证试点,打造国际通用健康医疗大数据产业模式。加强国际交流,有序推进健康医疗大数据应用发展人才交流合作。鼓励企业和科研单位开展对国际先进技术学习和创新,搭建中国健康医疗大数据国际论坛。成立国际健康医疗大数据应用和产业联盟,集聚政产学研用资源,共同推进医疗健康大数据相关研究、应用推广、开发合作。
培养专业型人才,支持高校围绕医疗健康大数据研究培养博士、博士后,鼓励高校开设健康医疗大数据相关专业和研究生课程;推动科研机构、医疗机构与国外名校合作,建设掌握大数据研究核心技术人才梯队。引进产业型人才,以大型医疗卫生机构医疗健康大数据领域研发和产业化项目为载体,积极引进医疗健康大数据领军人才和高端人才;鼓励大数据产业创新,通过人才导向基金提升产业人才集聚能力。储备技能型人才,鼓励医疗卫生和科研机构等针对健康医疗数据应用开展临床案例、医疗诊疗结果等科学管理、数据分析、医学诊断等职业技能培训,强化实用型临床医学数据人才支撑作用。