方勇 肖和平
纵观医学史,疾病的预防和治疗一直是基于一个普通患者的预期结果。来自同一疾病患者的数据常常被汇集在一起进行统计分析,而从汇总分析中得出的临床指南为广大患者的健康和疾病管理提供了信息。虽然这种方法取得了一些成功,但其忽略了重要的个体差异,这可能导致不同的治疗反应。精准医疗(precision medicine)的目标是针对个别患者量身定制临床治疗方案,目标是在正确的时间向患者提供正确的治疗。10多年来,“大数据(big data)”一词一直被用来描述可用信息的数量、种类和速度的快速增长,它不仅指大数据量,还包含 “数据分析”和“数据科学”;即随着可用信息的数量不断增长,可用于改进数据收集、存储、清理、处理和解释的新方法,这些都无时无刻不体现在医学研究中。组学技术、生物医学数据库和医学数据分析的最新进展为临床医生提供了更完整的患者资料;测序和相关数据存储成本的降低,以及有效数据分析方法的发展,使得以前所未有的规模收集和分析各种人类疾病的大型生物医学数据成为可能。这些进展可以提高对复杂疾病诊断的准确性,确定针对性的治疗方案,并在疾病发生前预测疾病。从人群筛查和电子健康记录挖掘到的个性化治疗经验,以及智能药物治疗方案设计等,说明日益增强的处理大型数据集的能力给生物医学研究带来的机遇和挑战,将推动临床实践发生巨大的变化。
当前,耐药结核病防治任务的紧迫与手段的匮乏之间的矛盾日益突出,对精准诊疗的需求仍然迫切,而医学大数据的重要应用方向包括群体层面的疾病预防和诊疗体系的评价、特定疾病的机制阐释,以及个体患者的疾病诊疗决策支持等。大数据时代的来临可否为我们带来新的契机呢?
评估大规模生物、社会和环境数据对健康的影响是流行病学领域在大数据时代的一个新挑战,临床大数据的主要应用之一是分析某一疾病或表型在不同人群中的患病率及发病趋势,研究显示传染性疾病的监测是医学大数据技术应用最成功的范例之一[1]。基于Google的检索数据每年进行的流行性感冒(简称“流感”)病毒预测,对流感疫苗的研发、高危人群的接种、重症流感风险等全球重大公共卫生问题的预测具有重要的意义[2]。另有研究显示,大数据分析在询问患者电子健康记录以改进临床决策支持方面可能发挥的作用。同时还可以评估在线卫生通信,以及利用这些数据发现公共卫生威胁和控制或遏制流行病的方法[3]。
可见,大数据在流行病学领域的应用已经形成了一个良好的开端。而对于结核病这个重大公共卫生问题近年来也不乏大数据的相关研究。韩国的一项研究使用疾病预防控制中心管理的结核病患者报告数据,分析了2012—2015年新增的13万例结核病患者队列,利用相关数据模型分析了公私混合结核病控制计划对治疗结果的影响,并确定了影响结核病治疗成功的因素[4]。Jokonya[5]建立了一个大数据集成处理框架,将其应用于分析研究矿业和控制艾滋病、结核病和矽肺之间的联系,从而帮助矿业企业预防和控制艾滋病、结核病和矽肺。该大数据框架具有满足预测流行病学需求的潜力,在矿业流行病学预测和疾病控制方面具有重要意义。
大数据在基础医学、临床医学及公共卫生领域的应用正如火如荼。近年来随着分子生物学技术快速发展,二代、三代测序等分子生物学技术的突飞猛进,人类对于基础的分子生物学规律的认识日渐加深;随着对全基因组、全外显子组、转录组、蛋白质组、DNA甲基化、微生物组等一系列组学数据的不断积累和总结,其形成的大数据及其成果即将成为临床诊断的重要依据。而相关技术在结核病领域的迅速运用,也涌现出大量结核分枝杆菌耐药基因检测技术,包括GeneXpert MTB/RIF检测系统、线性探针(LPA)、基因芯片技术、全基因组测序(WGS)、高分辨熔解曲线(HRM)等。
持留是一种现象,反映患者体内一小部分细菌种群能够在高浓度抗生素的治疗下存活很长一段时间,细菌对抗生素抵抗是顽固性和复发性感染的主要原因。持留菌也是结核病复发和耐药结核病产生的主要机制之一。Cabral等[6]则通过研究显示,下一代测序和其他“大数据”工具的开发使研究人员能够检查宿主内的持留性机制,对结核分枝杆菌耐药的机制和诊断有一定的意义。
在我国,温保江等[7]收集所有患者临床资料,包括胸部影像学、结核菌素皮肤试验、血白细胞计数、血清白蛋白、痰涂片、痰培养、痰GeneXpert MTB/RIF、γ-干扰素释放试验等检查结果,以及临床症状体征和相关病史等临床资料数据。拟合临床专家综合诊断思维方式,建立计量化临床肺结核综合诊断数学模型,为缺乏病原学诊断依据的肺结核的诊断另辟蹊径,降低了误诊率。
精准医疗和健康经济希望在整体医疗成本保持可控的情况下,每例患者都能得到尽可能最好的医疗服务。Chen等[8]讨论了健康经济结果研究在卫生部门决策、大数据和预测分析中的当前和未来作用,以及大数据和预测分析可能将传统健康经济结果研究转变为精确健康经济结果研究。显示应该通过帮助和调整医疗资源配置,使精准医疗更容易实现,以适应个体患者水平的健康经济。这样的研究对促进耐药结核病规范治疗水平的提升、避免过度治疗或治疗不到位现象的发生、最大限度地减少医疗资源的浪费和耐药结核病患者的痛苦有着深远的意义。
Adhil等[9]针对如何选择合适的癌症治疗方案的问题提出了一个临床专家系统,使用患者的临床和基因组标记,并结合分布式的、不同的、多样化的大数据创建的知识库。对疾病关联数据的半结构化数据进行挖掘,用于确定最适合相应癌症类型的治疗药物。然后整合患者的基因组标记和临床数据,有针对性地进行治疗选择,增加治疗效果,并将药物毒性降到最低,为精准医疗铺平了道路。这样的研究方法对耐药结核病化疗方案的选择有着借鉴意义。
抗结核药物的开发仍然是昂贵和缓慢的,部分药物往往由于缺乏疗效或存在毒性而失败,很大程度上影响了耐药结核病的治疗成功率。近年来,与电子健康记录(EHR)数据相关的大型研究发展迅速,推动了预测药物作用的新基因变异的发现,药物基因组学研究根据个体的基因组成、合理的药物开发和药物的再利用来确定治疗方法,支持孟德尔随机化实验来显示药物的有效性,并为现有药物提出了新的适应证。新的生物医学信息学和机器学习方法提高了解析临床信息的能力[10]。Ekins等[11]针对结核分枝杆菌,对可以合成化学药物的化合物构建大数据模型,并通过机器学习并分析模型,其结果对进一步的高通量筛选和基于模型预测的集中测试化合物具有指导意义,从而探索机器学习模型在识别新的抗结核化学药物发现方面的应用。未来利用EHR数据和其他信息源进行的研究,将为更快速地推进精准医学在抗结核新药研发上发挥作用。
在结核病患者治疗管理方面,管理方法已经从传统DOTS向网络化方向发展,尤其是在我国,随着短信、微信、手机App等互联网信息交流手段的迅猛发展,医务人员可以更有效地监控患者每次服药情况,更准确地获取患者治疗依从性的信息[12],相关大数据的建立也将提高患者的管理效率,降低管理成本,对减少耐药结核病的发生率和耐药结核病的规范化治疗有着深远意义。
虽然“大数据”对于耐药结核病防治工作意义深远,然而,如何建立好“大数据”仍面临许多挑战。传统的数据存储、数据库管理和计算分析方法对于每年生成的千万亿级生物医学数据是不够的。数据随着时间的推移和临床积累将变得更大、更多样化,需要高级的分布式文件存储和计算方法来解析和利用数据。同时,数据共享政策和数据保护等问题仍然是当前讨论的热点[13]。
针对耐药病结核防治如何建立大数据,笔者认为可以从以下几个方面着手:
1.要实现数据共享:如何将数据共享工作做得最好?国际上有学者指出首先,“大数据”应该是共生的,而不是寄生的。数据分享者应该有新的想法,而不是对既往工作的照搬。其次,以对收集到的数据评估潜在合作者,并提出合作建议。第三,合作各方共同验证新的假设。第四,向相关合作者报告新发现,对提出新想法和收集数据以进行测试的研究人员的工作给予肯定[14]。
具体到我国结核病防治工作上,笔者建议在未来5至10年打造精准诊疗、多方协作的防、治、研、学合作新模式,构建以临床及科研工作为本、惠及耐药结核病防治工作的服务新体系,培育高端智能、新兴繁荣的产业发展新生态。
2.要实现数据集约:大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,在于提高对数据的“加工能力”,通过“加工”来实现数据的“增值”。而大数据的处理需要特殊的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术开始容易被利用起来[15]。
与医学特别相关的一种重要数据类型是来自临床实践的观测数据。与临床研究的实验数据相比,观察性数据提供了更大的样本量和更广泛的患者各类变量的覆盖面。将观察数据与实验数据恰当地结合起来,可以通过检测患者对治疗的反应的异质性,并根据个人的特定需求调整医疗保健,从而促进精准医疗。然而,由于观察性数据是高维的和不受控制的,对其解析需要独特的方法,生产和运营管理领域的建模和分析工具非常适合归纳、提炼并汇总有意义的观察数据,因此相关领域的研究对于实现精准医疗至关重要[16]。
3.要实现数据保护:数据安全是整个医学大数据研究、分析、利用能否顺利进行的前提和基础。国际上,针对大数据安全的研究,涵盖了数据存储与传输安全、大数据安全体系架构等[17]。对于医学大数据,当关于患者的各类数据被集成、融合为一个整体时,其中的关联信息所可能承载的敏感和隐私信息,比单个类型的医学大数据如电子病历、基因组信息等所涉及的安全问题更复杂、更隐蔽,这也是医学大数据的安全研究所面临的极大挑战。因此,我们需要从医学大数据安全体系架构、存储、传输、集成与融合、患者参与下的数据共享等方面着手进行持续不断的研究,逐渐完善医学大数据的安全体系建设。目前,国际上也不乏相关研究,例如:医学大数据医疗保健分析、认证密钥管理系统、双线性配对密码、诱饵技术等方法可以帮助实现私人医疗数据的安全访问和存储,确保医疗数据的安全[18],为医学大数据的保护提供了新的手段。
4.要注重交叉学科的合作与人才培养:从上述几点来看,医学和耐药结核病防治对于大数据的运用迫切需要卫生信息技术领域的知识和人才,在加深合作的同时也要注重交叉学科的人才培养,而且本专业医学研究人员也应加强对共享数据和卫生信息技术专业知识的学习。
医学大数据的广泛应用是实现传统医学模式向精准医学转变的必要前提和核心动力。其为生物学家、临床医生、流行病学及医疗卫生政策制订的专家提供了有效工具,使得数据驱动下决策的制定成为可能。我们期待耐药结核病的防治工作能够合理有效地与“大数据”的应用相结合,迎来新的突破。