迟兆艳
2017年5月,在中国浙江乌镇,谷歌公司旗下的人工智能机器人“阿尔法围棋”(AlphaGo)与当时世界排名第一的围棋世界冠军柯洁对战,以3比0的总比分获胜。这是在2016年AlphaGo与韩国围棋选手李世石对战之后,又一次战胜人类围棋高手,引起了全世界特别是中国人的广泛关注。人们既为技术的进步而欢呼雀跃,也对机器人战胜人类感到隐隐不安,唯恐科幻小说中“机器人统治人类”的情节成为可怕的现实。
实际上,目前的智能机器人要成为高等智能还有很长的一段路要走,在可以预见的未来,并不会发生机器人统治人类的危机,与机器人相关的技术对人类世界的发展有着巨大的推动作用。人工智能、机器学习、大数据这些技术方法在近几年飞速发展,正在广泛而深入地改变着人们的生活。在医疗领域,人工智能、机器学习和大数据应用更是炙手可热,无数医疗领域的公司借助新的技术和方法而冉冉升起,成为业界明星。
人工智能和大数据被应用到临床研发、疾病诊断、医疗辅助服务等多个领域,改变了传统的医疗模式。
罕见病也被称为“孤儿病”,因其单一疾病发病人数低于普通疾病而鲜为人知,被称为 “无声的苦难”。
虽然罕见病中有“罕见”二字,但由于罕见病种类繁多,这些疾病的患者其实并不“罕见”。据统计,全球有4亿人患有罕见病,而中国至少有1000万以上的罕见病患者。国际上目前已经确认的罕见病约有7000种,例如,“瓷娃娃”“渐冻症”等。虽然患者群体庞大,但医生对罕见病的诊断水平并不高。罕见病涉及血液、骨科、呼吸等多个学科,但临床医生普遍缺乏罕见病的专业知识,又因其病例稀少,醫生也无法通过确诊案例获得经验。
由于罕见病发病率低,病例过于分散,医生在临床上无法积累丰富的个案经验,长期以来,罕见病一直存在无法及时确诊的问题。据调查,罕见病患者的平均确诊时间为5年。不过,科技的进步为罕见病的诊断带来了希望,除了基因检测技术,医生还可以利用大数据进行智能诊断。
在美国,许多大型医疗数据公司积累了丰富的、各个层次的医疗数据,拥有上亿病人数十年的诊断、用药、住院及医保记录,甚至还有病人的家族史信息。通过这些数据的积累,公司及政府可以建立起病人的数据库。
人工智能科学家从这些医疗数据中提取出罕见病病人的相关信息,利用机器学习算法,建立起罕见病病人的特征模型。例如,科学家可以将罕见病病人以往的疾病、用药特征与其他病人进行对比,从而建立起罕见病病人的“人物画像”,一旦有新的病人进入数据库,特征模型可以根据该病人的情况来帮助医生进行诊断,提高对罕见病的诊断效率。
特发性肺动脉高压是一种罕见的心血管疾病,每年的发病率为百万分之一,患者平均年龄在30岁左右,女性发病率高于男性,目前是不可治愈的重度慢性疾病。其病因不明,可能与药物、病毒感染和遗传等因素有关。2018年,特发性肺动脉高压被收录进中国的《第一批罕见病目录》。
特发性肺动脉高压早期症状并不明显,常见的初始症状包括:呼吸困难、疲乏、胸痛等,存在一定的诊断难度。为了帮助医生诊断可能存在的特发性肺动脉高压,数据科学家从既有的临床数据库里调取出特发性肺动脉高压病人和普通病人的相关诊断和治疗的信息,比如病人之前是否患有感冒、肺气肿等疾病,这些信息被数据科学家称为“特征”。接下来,数据科学家把这些特征输入到机器学习算法中,算法就会形成一个模型,将特发性肺动脉高压病人和普通病人区分开来。出诊医生借助算法模型可以判断该病人是否患有特发性肺动脉高压。当然,算法所得到的结果不可能百分之百准确,但它却可以为医生提供非常有价值的诊断、治疗信息。
如何利用人类几千年来积累的丰富知识,一直是人工智能的重要研究方向,知识图谱就是一种结构化的人类知识,它的出现受到了学术界和工业界的普遍关注。
知识图谱的概念起源于2012年,当时谷歌推出了一款产品,其功能是搜索内容时提供附加的衍生结果,这款产品名字叫作知识图谱(Knowledge Graph)。知识图谱本质上是基于语义网络的知识库,旨在描述客观世界的概念、实体、事件及其之间的关系。可以简单将其理解为一种较为高级的知识库。
自2012年以来,知识图谱的应用领域越来越广,其在医疗领域也有了长足发展。知识图谱在医疗领域的应用主要体现在两方面:搜索和推荐功能、临床决策服务。
搜索和推荐功能
通过知识图谱,可以建立起海量的数据库,包含疾病、病人和医生等各方面信息,应用场景包括疾病诊断、医生推荐等。相对于传统的搜索,其结果更准确,更深入,更具有针对性。
比如,在传统搜索中,搜索“白血病”将获得零碎的知识分享及大量的广告推广;在基于知识图谱的智能系统中搜索白血病,则可获取白血病病情的准确描述信息、全国治疗白血病的专家医生及其所擅长的领域等。目前,国内利用知识图谱建立搜索和推荐功能的平台有丁香园、百度的灵医智惠、中国平安的平安好医生以及阿里巴巴的阿里健康等。
另外,知识图谱可以建立丰富的医学知识库,可以为医务人员提供可靠的医学知识,比如,拥有可靠来源的权威知识数据和临床指南等。在这个领域,美国一直处于发展的前沿,2013年,美国的IBM公司制定了一项医疗领域的“登月计划”,该计划整合了大量医疗文献和书籍以及各种电子病历,从而获取海量高质量医疗知识,并基于这些知识向医护人员提供辅助临床决策和用药安全等方面的应用。
临床决策服务
知识图谱可以为病人及医务人员提供更加智能的服务,比如,它可以实现智能导诊、智能自诊和病案管理等功能。
医生的问诊一般会遵循一套标准化流程,因此可以通过人工智能的方式来取代人工问诊。智能系统模拟医生问诊的流程和方法被称为智能自诊。智能自诊系统从病人身体最明显的症状开始分析,在经过严谨的医疗问诊后,会为病人分析病因,并提出进一步的诊疗指导,如用药指导、需要检查的项目和注意事项等。例如,如果病人有发烧、咳嗽等症状,智能系统会从这些症状问起,对可能患有的疾病如感冒、肺炎等进行筛选,并最终给出诊疗意见。
对医务人员来说,智能系统还可以提供病例分析。智能系统集合了成千上万的病例,临床医生输入病人的信息,系统便可提供以往所有病史,并提供病例特点、诊疗方法以及治疗效果,从而为医生提供诊疗的思路。
在这种人机互动的过程中,机器扮演了“大脑”的角色,知识图谱可以在更高的层次上整合信息,并提供更准确和有效的服务。例如,病人在完成挂号的时间里,可以在手机或者电脑客户端输入自己的基本信息、症状、既往病史、过敏史等,客户端将通过智能系统形成初步的诊断报告,可以大大缩短问诊的时间。未来,科学家还可以实现更加高级的功能,例如,智能系统可以根据病人的初诊报告,给出需要检查的项目及治疗方案,从而进一步缩短医生问诊的时间,提升临床诊断的效率。
传统的医药研发依托于小样本的临床数据,如今,大数据技术也被应用到医药研发的过程中。
“真实世界研究”是近几年医疗大数据领域较为热门的一个话题。2012年12月,美国食品药品监督管理局(FDA)颁布了《21世纪治疗法案》,要求在医疗产品审批和监管程序中纳入真实世界证据。2018年12月,FDA宣布了《真实世界证据方案框架》,为实现真实世界证据支持药品审批决策的目标提供了一个指导方案,由此引發了真实世界研究在各国的药品审批决策中的广泛应用和发展。
那么,什么是真实世界研究呢?
通俗来讲,真实世界研究建立在真实世界数据的基础上,数据科学家及其他医疗从业人员将收集到的真实数据加以分析,从而提供对诊疗的结论和建议。通常情况下,真实世界研究会围绕病因、诊断、治疗、预后及临床预测等相关问题展开。比如,研究幽门螺旋杆菌感染与十二指肠溃疡的关系,住院新冠肺炎病人的抗病毒治疗效果及治疗引起的不良反应等。
其中,将真实世界研究与新药品研发相结合是真实世界研究的重要应用场景。
为什么要将真实世界研究应用到临床药物研发中呢?因为传统的临床药物研发是在一种区别于真实世界的实验环境中进行的,在这种环境中,病人经过了严格的筛选,研究还控制了各种混杂因素。基于真实世界研究的一些干预性研究,在精确设计的基础上具有更贴近日常诊疗的特性,比如将电子病例数据、医保数据引入研究过程。
真实世界研究的应用场景包含疗效评估、副作用评估等。比如,在癌症治疗或者罕见病治疗的过程中,传统的临床医疗面临成本高昂、缺少样本的问题,具有大量样本的真实世界证据可以作为辅助证据支持新药上市。在肿瘤药物研究中,可以将新药临床1、2、3期的疗效和全球已有药品治疗的疗效进行对比,从而验证新药的治疗效果。
真实世界研究可以避免临床试验等传统方法的样本数小、采样分布有限等问题,它从成千上百万的病人的数据中挖掘到与某种药物相关的不良反应,样本数大、采样分布广,获得的结果更具有说服力。
当然,真实世界证据也存在一定缺陷,例如,一些数据有可能与某些具体研究的相关性不大,所以在使用的时候也需要严格限制可以应用的场景。
除了真实世界研究,医药公司还可以通过大数据技术分析公众对药品需求的趋势,从而提供更好的药品供给服务。在医药副作用的研究上,研究者还可以从社交网络中搜索人们服用某种药物的不良反应记录,通过比对分析和数据挖掘方法,更科学、更全面地获得药物副作用的影响。
发展医疗大数据技术已是全球发展的大趋势,无论是国家层面还是企业层面都在打造更先进、更具个性化的医疗大数据平台。
在国家层面上,美国是大数据技术的先行者,也是医疗领域的领头羊。美国非常重视医疗大数据的收集和使用,拥有完整的医疗健康大数据库,建成了覆盖本土12个区域电子病历的数据中心、9个医疗知识中心、8个医学影像与生物信息数据中心。
同样,英国也有发达的医疗体系和诊疗系统。英国国民医疗服务系统拥有庞大而完备的医疗数据,包括病人的健康记录、疾病数据等,而且英国还有长达210年的全国普查健康记录,这些数据可以用来为公共卫生服务、医学研究等创造更多的价值。基于该系统,研究者及药企研发人员可以进行丰富的临床和市场研究。
在中国,我们已初步建立健康医疗数据库,但还没有一个系统性的、国家层面的医疗大数据平台。目前,相关部门已经出台了一些相应的政策,促进医疗大数据的发展。例如,2016年国务院办公厅发布的《关于促进和规范健康医疗大数据应用发展的指导意见》是针对医疗大数据的首个顶层文件,首次提出医疗大数据是国家级的战略资源,明确医疗大数据发展目标。
在公司层面上,一些国外医疗公司在建设医疗健康大数据方面已经初具规模,他们主要利用人工智能、机器学习为医疗服务提供者搭建平台、提供服务。比如,有的美国大数据公司会收集医疗保险数据,为制药公司或者保险机构提供数据服务。
在国内,由于起步较晚,很多公司还停留在数据采集的层面,需要将收集到的数据统一化、标准化,离数据平台的搭建及数据的挖掘和分析还有一定的距离。
在可预见的未来,随着人工智能和大数据的迅猛发展,医疗设施的使用将更加便捷和人性化;病人将获得更可靠、更具有针对性的诊疗信息;医生将在智能系统的帮助下开展更准确和个性化的诊疗措施。人工智能、大数据、机器学习等高新技术将为我们创造一个高效、便捷、专业以及个性化的医疗环境,而且随着技术的传播,未来将有更多人享受到科技发展带来的健康福祉。