医疗健康大数据应用于老年神经认知功能障碍研究的机会与挑战

2019-01-10 08:27:41许浪赵国光张建宇刘丹曾燕

中国老年学杂志 2019年5期

许浪赵国光张建宇刘丹曾燕

(1武汉科技大学医学院，湖北武汉 430065；2武汉科技大学医学院脑与认知功能研究所)

2011年，第11届美国易安信公司(EMC)世界年度大会，大数据概念被正式提出〔1〕，标志着人类进入大数据时代。目前比较认同的大数据定义有5V特征，即数据容量巨大(Volume)、生成速度极快(Velocity)、模态多样(Variety)、可变性大(Variability)和真伪难辨(Veracity)〔2〕，此定义可能会进一步扩增，比如增加可视化 (Visualisation)和科学价值(Value)〔3〕。在满足大数据基本特征的前提下，与医疗健康服务目的、过程、结果相关的大数据可以称之为医疗健康大数据。 2016年是我国医疗健康大数据元年:3月8日，国家启动精准医学研究重点专项，目标是构建百万人以上自然人群健康队列和重大疾病专病队列〔4〕;6月24日，国务院办公厅印发《关于促进和规范健康医疗大数据应用发展的指导意见》〔5〕;8月26日，中共中央政治局审议通过“健康中国2030”规划纲要;8月29日，中国卫生信息学会健康医疗大数据产业发展与信息安全专业委员会成立大会在南京召开，这是首个聚焦大数据产业与信息安全的全国性专业委员会。与密集出台的政策和指导意见相呼应，复旦大学、北京大学和清华大学等多所高校和科研机构相继成立生物或医疗健康大数据研究中心，由大数据引领的医疗健康领域发展将会深刻影响医疗健康服务模式。

在人口急速老龄化的社会大背景下，与老年相关的神经认知功能障碍(NCD,也叫痴呆疾病)在中国快速蔓延，成为影响国人健康的重大慢性病。本文主要概述痴呆和阿尔茨海默病(AD)研究现状和面对的困难，分析了我国医疗健康大数据资源的来源和基础，探讨了大数据应用于痴呆和AD研究的机会与挑战，提出了大数据应用于痴呆和AD研究未来的发展方向。

1 痴呆和AD流行与研究现状

流行病学研究资料表明中国痴呆患者总数已经超过919万〔6〕，到2030年将达1 200万，2040年将达到2 200万，是所有发达国家痴呆患者人数的总和〔7〕，其中以AD为最高发，占所有痴呆病例的60%～70%〔6〕。据估计，目前全球痴呆疾病所耗费的直接医疗资源有55 289.32亿元人民币(8 200亿美元)，还不包括家庭照顾所造成的人力成本和其他间接费用〔8〕，而以中国为首的低收入和中等收入国家，90%以上的痴呆症患者只能选择家庭照顾〔9〕。虽然中国是世界上老年人口数最多的国家，目前60岁以上人口为2.14亿人〔10〕，并且还是痴呆症患者人数最多的国家〔7〕，但是我国人群痴呆知晓率、就诊率、治疗率及控制率都处在相当低的水平〔11〕。我国目前还没有一家从事老年期痴呆研究的专门机构和医院;痴呆并未被纳入到慢病管理国家基本公共卫生服务项目;相比发达国家和国际组织制定的模型、防治指南和建立的数据库〔8，9〕，我国在该领域的工作尚处于空白阶段，难以与国际接轨。

为了解AD的危险因素、保护因素和疾病进程，国际上一些长期跟踪痴呆和AD的人群队列研究做出了卓越贡献。其中比较著名的队列有 Alzheimer Disease Neuroimaging Initiative (ADNI)〔12〕、10/66 Population-Based Study队列〔13〕、Mayo Clinic Study of Aging〔14〕和Framingham Heart Study Offspring〔15〕。但是，我国的老年人群队列研究才刚刚起步，目前国内从事AD相关危险因素的队列有:(1)2009年由复旦大学华山医院神经内科洪震教授领衔的科研团队在国内建立了第1个老年认知功能障碍研究的社区人群队列，开展了社区AD和帕金森病流行病学调查〔16〕;(2)首都医科大学宣武医院神经内科贾建平教授团队联合北京、上海、广州、长春、贵阳等7个地区城乡临床队列进行过AD轻度认知障碍诊断与干预等研究工作，发表了一批有影响力的论文，但队列的人数有限，只有几百例，主要在AD药物的早期干预研究上;(3)2016年6月同济大学校长裴钢倡导发起的上海老年脑健康队列研究才刚刚启动。

相比于在AD的危险因素研究方面所取得的成果，国际上的AD新药研究却多以失败告终，2002～2012年，99.6%的治疗AD新药的临床试验宣告失败〔17〕。目前仅仅只有3种药物加1种联合治疗方案先后获得美国食品和药品管理局(FDA)批准，更为无奈的是这些上市药物仅仅只能缓解部分症状，并不能减缓、治愈老年痴呆〔8〕。因此，痴呆和AD研究面临的困难特别巨大〔18〕。

2 我国医疗健康大数据基础

2.1我国医疗健康大数据主要来源和特点我国搭上“互联网+”的列车，各级医疗机构正行进在医疗信息数字化的轨道上，海量的医疗健康数据正在产生。临床医疗：电子健康档案，电子病历，电子处方，诊疗数据，医学影像数据，病案管理，医疗设备和仪器数据，医院信息系统 (HIS)数据等；医学研究：全基因组，全外显子组，转录组，蛋白质组，DNA甲基化，微生物组，单细胞水平基因型和表型研究，人类健康相关微生物群落研究，生物医学图像研究肿瘤生物学特性，分子标记，药物靶标的鉴定和特征描述等；制药企业：新药临床试验，药理学，药物化学，新型药物的设计，药品供应等；人口健康信息：运动监测、膳食监测，个体健康教育，儿童青少年心理卫生问题，中国儿童青少年血压，生殖健康，学生体质健康监测，居民健康状况调查等；数字健康医疗设备：实时视频，智能穿戴设备及相关微型传感器件，远程监控系统，数字医疗设备等；公共卫生和流行病学研究：电子健康档案，慢病监测，传染病监测，疾病与死亡登记，公共卫生监测，肿瘤登记，计划生育等；基本公共卫生服务：城乡居民健康档案管理，健康教育，预防接种，0～6岁儿童健康管理，孕产妇健康管理，老年人健康管理，慢性病患者健康管理 (高血压、糖尿病)，重性精神疾病患者管理、结核病患者健康管理，传染病及突发公共卫生事件报告和处理服务，中医药健康管理，卫生监督协管服务等；社会人口学：人口普查，社保，国家、省市级统计决策库，医疗保险，生育保险，经济数据，养老保险等；环境健康：环境质量监测网，污染源监测，企业环境信息，休闲场所等；社会媒体：健康网站，搜索引擎，通讯运营商，微博，微信，论坛，QQ，客服上网话单等；医疗消费：医疗服务费用，医疗设备销售，药店销售，医疗保险，药品消费数据，医疗消费等；个体行为：手机上网行为，社交网络行为，健身记录，体力活动记录，缺勤记录，即时通讯等；健康消费：保健品，健身设施数据，智能健康产品，中医功能状态检测与养生保健仪器设备等。其中不仅包括临床数据和基因组数据，也包括环境暴露、日常生活习惯、地理位置信息、社交媒体及其他多种多样的数据。在这些数据基础上，中国每年或每几年就会产生医学数据分析报告，诸如：中国心血管病报告、中国糖尿病行业发展趋势及预测报告、中国肿瘤登记年报、中国居民营养与慢性病状况报告、中国出生缺陷报告、中国青少年生殖健康可及性调查基础数据报告、中国疾病预防控制中心数据、全国学生体质健康监测报告和中国城市居民健康状况调查白皮书。虽然数据量越来越大，但是数据质量堪忧，大数据基础还比较薄弱。总结起来，我国医疗卫生领域的大数据具有如下特点。①多态性。区别于其他领域数据，医疗大数据有多模态性，比如:纯数据 (如化验、体检结果)、信号(如脑电、心电和肌电信号等)、图像〔如磁共振成像(MRI)、正电子发射型计算机断层成像(PET)、X线、B超等〕、文字(如主诉、现/往病史、过敏史、检测报告等)及动画、视频和语音信息等多种形态的数据。 ②不完整性。因为医疗数据的搜集和处理过程经常相互脱节，使得医疗数据库不可能对任何疾病信息都能全面反映。且有大量数据来源于人工记录，导致数据记录的偏差和残缺，许多数据的表达、记录本身也具有不确定性，病例和病案尤为突出，这些都造成了医疗数据的不完整性。 ③时间性。疾病的发生、发展和患者的就诊有一个过程，在时间上有一个进度，医学检测的波形、图像都是时间函数。患者随访、跟踪也有一个时间跨度，这些都具有一定的时序性。 ④冗余性。每天的日常医疗过程都伴有大量医疗信息产生，导致医学数据量特别庞大，其中可能会包含重复、无关紧要甚至是相互矛盾的记录。 ⑤低透明性。由于我国还没有健全的医疗健康大数据应用准入制度和实名认证等控制系统，一方面难以保护个人隐私和信息安全，另一方面导致数据透明度低。 ⑥沉重性。与其他行业的数据具有时效性及数据很轻、易于解析所不同，医疗健康大数据普遍很“重”、信息量超大、不同的解析策略可能得出丰富的结果。

2.2我国医疗健康大数据相关学科平台医疗健康大数据研究的发展离不开科学平台的支撑，成立医疗健康大数据研究中心成为推动医学大数据研究的重点，在政策利好和现实需求的双重驱动下，中国各大高校在医疗健康大数据领域频频出招，多个健康大数据研究中心成立：中科院深圳先进院成立健康大数据研究中心(2014年)；复旦大学大数据学院和大数据研究院(2015年)；北京大学健康医疗大数据研究中心(2016年)；清华大学数据科学研究院医疗健康大数据研究中心(2016年)；湘雅临床大数据系统建设项目(2014年)；华东理工大学信息学院生物医疗开放大数据研究中心(2016年)；电子科技大学医疗健康大数据研究院(2016年)；哈尔滨工业大学电子健康研究所(2013年)；上海生物信息技术研究中心(2002年)；春雨·中国科学院大学健康大数据联合实验室(2015年)。以大数据研究中心吸引优秀大数据研究团队，形成一个水到渠成的牵引。

2.3我国政府层面已经制定健康大数据近期发展目标根据国务院办公厅6月24日印发《关于促进和规范健康医疗大数据应用发展的指导意见》(下称“意见”)，我国近几年在大数据发展方面将达到如下目标〔5〕：第一步：在2017年年底建立国际级、省级、市、县及社区多层次的人口健康信息平台并与各级药品招标采购业务应用平台互联互通。第二步：在2020年实现建立国家医疗卫生信息分级开放应用平台；100个区域临床医学数据示范中心；城乡居民拥有规范化的电子健康档案和功能完备的健康卡。

3 大数据研究为痴呆和AD领域带来机遇

3.1痴呆和AD研究领域已开始利用大数据一些国际组织和机构正在组织专家，形成一股研究大数据的驱动力〔19〕。如美国国家AD协作研究中心、ADNI、欧洲医学信息学架构、全球老年痴呆症协作互动组织，显性遗传性AD研究组织、AD预防组织和欧洲委员会等正是这股力量的中流砥柱〔20〕。其中，ADNI已经走在AD大数据研究前列，他们有很好的数据共享和发表文章的记录，同时也能从厂家吸引投资和资助，迄今已有共 2 亿美元的投入〔19〕。2014年，来自英美两国的研究员，运用两个世界上最大的科学数据集合ENIGMA联盟的脑扫描数据和小鼠脑库的遗传信息数据，比较小鼠和人类基因，识别出能调节小鼠和人大脑中海马尺寸的新基因微粒体谷胱甘肽S转移酶(MGST)3，而海马的尺寸与神经退行性疾病有关〔21〕。2015年，美国国立健康研究院(NIH)发起“加速医药研究合作者计划”(AMP)，即集合政府和民间力量，利用大数据加速AD药物研究〔22〕。来自于美国FDA、企业界和学术界的科学家们集成各方面来源的医疗健康大数据，加快AD药物研发，寻找新的治疗〔22〕。同年，澳大利亚新南威尔士大学宣布该校启动一项针对痴呆症的大数据研究项目，名为“痴呆症行动计划”〔23〕，目标是联合科研人员与社会各方的力量研究痴呆症发病机制，寻求新的治疗方法。其研究重点是AD，此外也包括其他类型的痴呆症。希望将全球研究资源整合到一起，创建出“大数据集合”，综合痴呆症的多种风险因素，建立更可靠的统计模型、做出更精确的预测〔23〕。

这些机构和组织正在向痴呆和AD大数据梦想挑战〔24〕，建立大型的数据库，开发分析工具以便更有效地利用这些数据，希望实现数据、信息和知识的无缝集成。的确，大数据的优点体现在能将不同水平、不同形式的数据集中到一起，从基因到分子，从影像到认知功能，为痴呆和AD研究提供一个洞悉重点和管中窥豹的机会。

3.2政府作为大数据研究的催化剂健康医疗大数据的发展目前面临一系列障碍，包括技术的限制、成本高昂、处理及分析数据对于多学科知识的要求等。前面提到的政府层面的支持措施密集出台体现了政府作为大数据研究催化剂的作用，增加了大数据公共话语影响面，并且政府在召集人才方面具有更大的优势，能够建立起更加强大的网络，特别是外交网络，为中国的痴呆和AD研究和健康管理提供新机会。

3.3大数据应用于痴呆和AD研究有方法学上的特色大数据正在催生科学研究方法的巨大转变，从假设驱动的方法转向数据驱动的方法。传统科学方法遵循提出假设，分析论证为主的路径，而大数据研究，遵循的是收集数据，再假设，然后发现有价值的数据模式。传统科学研究中，生物医学界倾向于认为“噪音数据”不好，研究人员往往把实验条件限制在可以严格测量的问题上，但强调数据纯度就意味着可供研究的病人或者样本数量减少，也就会导致数据集的规模比较小，从而限制了研究的“功效”〔25〕。大数据技术可能在“噪音数据”分析方面有更强的能力，可以从海量的数据出发，来寻找模式和关联，从而反转医学研究模型〔24〕。

3.4国内生物样本库初具规模国家《“十二五”生物技术发展规划》中，明确要求建设国家生物信息科技基础设施—国家生物信息中心，包括基因组、蛋白质组、代谢组和国家生物技术管理信息库等生物信息库及大型生物样本、标本、病例资源和人类遗传资源库及共享服务体系;建设若干实验动物和模式生物基础设施和生物医学资源基础设施。目前国内主要的生物样本库有:北京市老年病医疗研究中心老年疾病遗传资源样本库、生物芯片上海国家工程研究中心生物样本库分中心、中国医药生物技术协会组织生物样本库分会中医药学组。由国家基因库发起的E-BioBank资源信息共享平台 (简称“E-BioBank平台”)已整合人类、动物、植物、微生物等样本资源55.6万份，共享科研项目信息10余项，分享行业技术性文件400余份〔26〕。另外，中国每一家三甲医院都建立了生物样本库，一些大型肿瘤研究所、疾病控制与预防中心也建立了专攻方向上的样本库。这将大大有助于我国医疗健康大数据技术的发展。

4 大数据技术应用于痴呆和AD研究所面临的挑战

4.1人群大数据面临整合上的问题大数据为导向的人群队列研究成为痴呆和AD研究热点，经过长期随访能够产出大量人群数据〔26〕，如何收集数据是此类研究需要解决的问题。比如:(1)如何整合家庭医疗信息? 诸如母亲健康、怀孕情况、养老保险、医疗保险、失业保险、工伤保险、生育保险和住房公积金。(2)如何使用可穿戴设备和移动智能设备来检测毒物和化学物接触? (3)如何计算研究对象被他人或家庭照顾时间? 蓝牙传感器和智能手机如何用于此项研究? (4)如何计算研究对象的运动时间? 智能手机，健康数据记录App是否可以完成? (5)研究对象使用数字设备时间?

4.2医疗健康大数据应用于痴呆研究面临的方法学问题利用大数据研究痴呆类疾病时，可能会面临一些方法学上的问题〔27〕，比如:(1)样本消耗/样本选择，包括选择性生存，如何选择纵向研究队列、数据库、合作研究网络或其他研究联盟? (2)测量和诊断标准的不确定性，在人工评估神经心理时产生的测量误差，重复检测方法的不一致性;(3)当随访研究对象数月、数年甚至几十年时，如何规范化纵向数据模型;(4)如何监测随时间变化的测量;(5)如何处理高维数据〔27〕? (6)不全面或偏颇的数据会产生歧义性的结果。

4.3合作的问题我国健康医疗行业的海量数据迅速形成，但相对于国外大量开放链接数据集来说，国内的医疗健康行业数据封闭、分散且描述方式不一致，制约了整个行业的发展。痴呆和AD 研究领域急需建立多个国际、国内合作项目，实现数据、信息和知识的无缝集成，建立国际化的数据收集规范和标准。建立健全几个机构牵头，科技管理部门协调，政府、科研院校、企业等管理部门配合的协调机制，做好人员配备和工作保障，建立医疗健康大数据生态体系和深度合作所需要的政策法规。

4.4安全问题与任何技术一样，扬长避短十分重要。医疗健康大数据领域的快速推进已经引发了在各种不同的情况下部署这些系统的安全性问题，需要通过严谨的工程研究找出这些问题的解决方案，以提供大数据分析系统的创作者在解决这些问题时有切实可用的方法和工具，避免数据的缺口。构建安全标准并基于战略互操作性及隐私管理规范进行数据共享是进一步增大医疗健康数据量的重要手段。因此医疗卫生领域的痴呆疾病研究专家们应该带头为医疗健康大数据的安全、运营及其他产品领域的基础设施制定新的规则以及制定特定用途的调控方法。

5 大数据用于痴呆和AD研究的未来发展方向

神经认知功能障碍疾病受遗传和环境因素的影响，种族、生存环境、生活习惯、医疗保障条件等均可一定程度改变神经精神疾患的构成与发生发展。此研究领域的几个重点问题特别需要利用大数据来解决:(1)脑健康的代级传递问题 (例如，母亲的健康和妊娠期脑健康;生命早期母亲与子女互动和早期建立的“认知储备”等对个体神经认知功能的影响)。(2)教育程度、认知刺激和积极的认知活动 (阅读、使用智能手机和互联网接触等)与脑健康和老年期认知能力下降的风险关联问题。(3)主要的心血管危险因素，比如高血压、糖尿病、血管疾病和身体活动不足对老年期认知功能下降的影响。(4)丰富的社交活动与多彩的社会生活与大脑健康和老年期认知能力下降的相关性。 (5)应用中医中药与脑健康和认知功能变化的相关性。中医中药在中国具有广泛的群众基础，有数以亿万计的人使用过诸如针灸、刮痧、推拿按摩、中成药、汤剂、中医养生等中医适宜技术，那么这些措施让使用者获得了哪些健康益处? 与神经认知功能变化的关系? 是如一些文献所说的改善认知功能还是疗效不确定?(6)中国正处于社会转型时期，经济转型、社会转型、人群迁徙、气候变化和环境污染物在个体神经功能变化中占有多大的权重，对脑功能的影响也需要大数据研究来支撑。(7)日常选择与认知功能的关系。人们每天做出各种选择、吃东西、服药、做这样那样的事情——产生所谓的“数据废气”，挖掘这样的大型数据集来找到有用的关联，如何利用购物篮分析，找到有意义的关联。(8)脑库构建问题。人脑组织库建设和对人脑组织的研究是认识人脑疾病的基本条件，在发达国家受到高度重视，其相关学术成果推动了神经疾病病因学和病理学机制认识、为建立和完善对这些疾病的预防和治疗提供了新的理论基础和探索方向。另外，针对痴呆和AD的临床数据库缺乏，如果能有两三个具体的痴呆或AD大数据研究的实操案例，就能给其他的研究者提供思路。

6 结语

痴呆和AD是伴随着人口老年化出现的重大慢性病，病因复杂，需要依靠大数据技术来解决一些传统技术不能解决的问题，而医疗健康大数据为生物学家、临床医生、流行病学家及医疗卫生政策制定专家提供了有效的工具，使得数据驱动的决策制定成为可能，并最终对患者及整个人群产生有益影响，希望能借助于大数据研究突破目前AD和痴呆新药开发所面临的窘境。