谢俊祥 张琳 李勇 *
1 中国医学科学院北京协和医学院医学信息研究所 (北京 100020)
2 中央团校科研部 (北京 100089)
3 中国科学院大学 (北京 100049)
4 中国科学院文献情报中心 (北京 100190)
内容提要: 为进一步引领人工智能(AI)应用与研发,美国从2016年开始先后发布了一系列战略报告。医疗人工智能作为人工智能应用的一个重要领域,在报告中对其概况、存在问题、关键技术、愿景等都有相关涉及。文章在战略报告的基础上,结合相关研究,对美国医疗人工智能概况、问题及背景等进行分析。
1956年夏,在美国达特茅斯大学举行的首次人工智能研讨会上,McCarthy第一次提出“人工智能”(Artificial Intelligence,AI)的概念,标志着人工智能学科的诞生。而医疗人工智能,则是指人工智能在医疗领域的应用,涉及医疗行业各个环节,其终极目标是人工智能代替人来为患者诊断、治疗,目前主要发展方向包括辅助诊断、医学影像识别、药品研发、健康管理、基因测序等方面。美国作为科技强国,正不断加强对前沿技术的全面研究,提升人工智能在国家战略中的地位。美国白宫发布了一系列相关报告,以期为人工智能的未来发展提供针对性的建议。本文在对这一系列报告进行梳理、深度解读的基础上,对美国医疗人工智能相关战略及政策进行初步研究,以便进一步把握、促进人工智能在疾病诊疗、健康管理、药物研发、精准医学等方面的应用。
最早在医疗领域进行人工智能探索的尝试出现在20世纪70年代,方向为辅助诊断[1]。1974年美国匹兹堡大学研发的INTERNISTI系统主要用于内科复杂疾病的辅助诊断。而1976年美国斯坦福大学研发的MYCIN系统,能对感染性疾病患者进行诊断,并开出抗生素处方。MYCIN系统内部共有500条规则,只要按顺序依次回答其提问,系统就能自动判断出患者所感染细菌的类别,并为其开出相应的处方。此外,辅助诊断人工智能系统还包括CASNET/Glaucoma(罗格斯大学)、PIP/ABEL(MIT)、ONCOCIN(斯坦福大学)等。
20世纪80年代,医疗商业化应用系统开始出现,但是其应用效果却差强人意。这一阶段的QMR(Quick Medical Reference)、哈佛医学院的DXplain系统等,主要是依据临床表现提供诊断方案,但由于医疗的高度复杂性,其系统的表现并未达到预期结果。
近年来,医疗人工智能开始专注于医疗影像识别、健康管理、药品研发等领域。如谷歌的DeepMind与英国国家健康体系(HNS)合作,开展头颈癌患者放疗疗法涉及研究、眼部疾病的发现和治疗、皮肤病诊断等领域。微软的Hanover医疗健康计划,与俄勒冈卫生科学大学Knight癌症研究所合作,共同进行药物研发和个性化治疗。2007年IBM的Watson系统深度聚焦肿瘤领域,为医生提供肿瘤治疗参考方案。苹果公司也加紧了人工智能芯片研究与系统收购。
随着数据的积累及算法的推进,美国的医疗人工智能技术已逐渐从早期的数据整合阶段,即由于医疗数据标准化低、共享机制弱造成的人工智能在医疗行业的应用领域和效果受限阶段,逐渐过渡到数据共享+感知智能阶段,即实现了医疗数据的融合,已出现大量效果较好的辅助性医疗系统。最后进入认知智能+健康大数据阶段,在此阶段,人工智能整体上从感知智能向认知智能发展,健康大数据的获取成本也将降低,该阶段也将出现替代人类医生的人工智能应用。
从技术应用层面分析,近年来美国医疗人工智能领域主要集中于将人工智能的机器学习、计算机视觉、自然语言处理(NLP)以及智能机器人应用到医疗领域[1]。
机器学习在医疗领域的应用主要聚焦于基因组学和生物制药行业。在基因组学方面,主要利用机器学习对庞大的基因数据进行挖掘,帮助解释全基因组测序(WGS),并直接面向消费者,研究预测性基因检测和消费者的基因组学。但未来发展受到高成本和技术瓶颈的限制。在生物制药领域,目前利用机器学习可实现加速药物发现,降低研发成本,简化药物追踪路径等。
计算机视觉在医疗领域的应用主要为医学成像,如基于X射线,实现计算机断层扫描(CT)和乳房X射线检查;使用生物标记在体内成像或进行核/分子成像;进行核磁共振成像以及以更高的频率运行超声成像。比较成熟的系统有IBM Watson医疗成像系统,该系统是由IBM携手领先的卫生系统、医疗学术中心、门诊放射科提供商和医学成像公司共同发起的一个全球性倡议,旨在帮助医生解决包括乳腺癌、肺癌等癌症,糖尿病、眼疾、脑部疾病、心脏病和中风等疾病。由于对该系统预期值过高,其应用和发展并非一帆风顺,但其出现和发展,却掀起了google、微软等公司开发医疗人工智能领域的浪潮。
自然语言处理(NLP)在医疗领域的应用主要是为管理层制定医疗保险计划和护理管理计划时基于以往用户行为提供建议,作为患者/医生顾问,引导用户获得最佳结果,同时还可高效协调护理、生活和健康,为患者带来很好的互动体验。
智能机器人在医疗领域的应用主要是研制出各种功能的机器人,辅助治疗和护理。精密外科手术机器人(达芬奇手术机器人),用于执行重复性任务如采集血样的机器人护士,用于提高随访效率的机器人助手,帮助偏远地区患者获得高质量医疗咨询服务的远程医疗网络,准确处理药物信息的制药机器人等。达芬奇手术系统是由美国Intuitive Surgical公司开发的外科手术机器人系统,该系统在前列腺切除手术上应用最多,但现在也越来越多地应用于心脏瓣膜修复和妇科手术中。Catalia Health助理机器人通过获取日常生活中难以得到的有关治疗、困难和结果的数据及行为心理学原理,为患者提供私人订制的健康指导。
从规模分析,美国目前有106家创业公司正在用AI转变医疗的运作生态,医疗影像和诊断领域的创业数量日益增加,远程患者监护网络开发逐渐细化,智能决策支持系统、药物发现、肿瘤检测等医疗人工智能系统日渐普及。据Fusion Fund预测,到2024年,药物发现程序占据人工智能市场的35%以上,医学影像和诊断行业的收入预计将达到25亿美元,而基因组学和精密医学领域人工智能的应用,将会催生适应个体患者情况的个性化治疗方案以及加速医疗服务的交付速度。
人工智能概念已经出现将近六十年,但近十年才真正得到全社会全层面的重视,已经上升到国家战略层面。作为科技强国的美国,正不断加强对人工智能前沿技术的全面研究,同时为了应对人工智能蓬勃发展的大趋势,着眼长期对社会的影响与变革,保持美国政府对人工智能发展的主动性和预见性,美国政府自2016年起,成立相关委员会,并发布了一系列的战略报告。美国白宫网站(https://www.whitehouse.gov/)的AI版块资源中,对人工智能相关的关键战略文档进行了列举,在此基础上,本文又增加了美国发布的与人工智能密切相关的文档,去除仅提到人工智能但未对其战略进行描述的文档以及未涉及医疗人工智能内容的文档,共得到5条,其详细信息如表1所示。
表1. 美国人工智能关键战略文档
2.2.1 《为人工智能的未来做好准备》内容介绍
2016年10月,美国白宫科技政策办公室下属的“机器学习与人工智能分委员会”在“人工智能、法律和治理”“为社会造福的人工智能”“人工智能的未来:在全球创业峰会的新兴话题和社会福利”“人工智能的技术、安全及控制”“人工智能的社会和充分的经济影响”五场研讨会的基础上,发布题为《为人工智能的未来做好准备》[2]的报告,以期为联邦政府机构和其他相关者在人工智能领域的下一步行动提供具体建议。
该报告从公共事务、联邦政府、监管、研发与从业者培养、自动化与经济、公平安全与治理、全球考量与安全议题等七个方面分析了美国人工智能在各个领域的发展现状、现有及潜在应用,可能引发的问题。
该报告同时还指出,要加速人工智能在医疗领域的发展。美国医学中心、医院利用人工智能对并发症进行预测预防、发展电子化病历、对医疗大数据进行分析挖掘等,加快了疾病治愈的速度和减少了相应的成本。人工智能为医疗带来的社会意义和经济价值使人工智能医疗领域具有非常乐观的前景。
2.2.2 《国家人工智能研发战略规划》内容介绍
图1. 《国家人工智能研发战略规划》7大战略
2016年10月,在机器学习与人工智能分委会的指导下,与其同一级别的网络与信息技术研究发展分委会(NITRD)编写发布《国家人工智能研发战略规划》(以下简称“规划”)[3]。该规划全面搭建了美国推动人工智能研发的实施框架,提出了:①长期推动人工智能软硬件系统演进升级;②探索开发增强人机协作能力的智能系统;③了解和处理人工智能的伦理、法律和社会影响;④确保人工智能系统的安全性;⑤开发用于人工智能训练及测试的共享公共数据集和环境;⑥通过制定标准和相关参照,对人工智能技术进行测试和评估;⑦人工智能人力资源需求。这7大规划可分为以下3个层次(如图1所示)。
该报告中还提出要在医学诊断等领域开发有效的人类与人工智能协作的方法,当人类需要帮助时,人工智能系统能够自动执行决策并进行医疗诊断。
2.2.3 《人工智能、自动化与经济报告》内容介绍
2016年12月,美国总统行政办公室发布《人工智能、自动化与经济报告》[4],该报告深入考察了人工智能驱动的自动化将会给经济带来的影响,以及对劳动力市场带来的机遇和挑战。该报告明确指出,随着人工智能能力的不断提升,可以促进科技进步和生产增长率的提高;同时,对于劳动力市场也将随之做出调整。所以需要政府继续加大力度投资和发展人工智能,培养更多的人工智能劳动力。
2.2.4 《2018年美国工业人工智能白宫峰会摘要》内容介绍
2018年5月,美国白宫科技政策办公室举行了由谷歌、亚马逊、微软等38家公司的代表、政府官员、学术界代表参与的人工智能研讨会,发布《2018年美国工业人工智能白宫峰会摘要》[5]。特朗普总统明确指出,“……我们要大胆地开拓科学、医学和通信领域的前沿技术。”
2.2.5 《加速美国在人工智能领域的领先地位》总统行政命令内容介绍
2019年2月11日,特朗普总统签署一项行政命令,制定一个名为“美国人工智能倡议”的计划[6]。该计划虽然不包括新的资金或特定的人工智能项目,但它命令联邦政府指导现有资金、项目和数据,以支持人工智能研究和商业化。
上述5份报告涉及的内容极为广泛,既涉及到人工智能研究的绝大部分主题,又涉及人工智能应用的各个领域。虽然美国尚未发布关于医疗人工智能的相关战略报告,但是,从上述报告中,仍可发现医疗人工智能的现状、技术、问题及愿景等内容。
在《为人工智能的未来做好准备》报告中,对于医疗人工智能现状描述,主要提到了人机合作识别X射线片诊断的研究,该研究要求参与者对淋巴细胞的图像进行诊断分析,判断细胞是否癌变。基于人工智能的分析方式的错误率为7.5%,人类病理学家的错误率是3.5%,人机合作的错误率仅有0.5%。并以沃尔特里德医学中心、约翰·霍普金斯大学医院为例,阐述了沃尔特里德医学中心退伍军人事务部利用人工智能提高医疗并发症的预测水平,同时改善严重战争创伤的治疗方法;约翰·霍普金斯大学医院则利用人工智能预测并发症,辅助医生采取预防性治疗,从而降低医院感染率。
在《国家人工智能研发战略规划》战略一中,也以人机合作识别淋巴细胞图像为例,提出人工智能辅助专家诊断,可大大降低误诊率。
从人工智能的角度来看,医疗是人工智能的应用领域。因此,人工智能的关键技术是决定医疗人工智能发展的重要因素。战略中提到的人工智能的关键技术,与医疗有关的主要有以下几个方面。
3.2.1 机器学习及深度学习
机器学习作为人工智能研究的一个核心领域,是医疗人工智能关键技术的基础。机器学习是一个始于大量数据的统计学过程,试图通过数据分析导出规则或流程,用于解释数据或者预测未来数据。根据IDC Digital的预测,截至2020年医疗数据量将达到40万亿GB,这些大量的临床治疗、医学影像、药物研发等数据,结构较为固定,便于作为机器学习的素材,具有深度挖掘与研究的价值[7]。
随着机器学习研究的不断深入,逐渐产生深度学习这一新兴方向。深度学习是在机器学习的基础上,模拟人脑分析和学习的神经网络,通过解释数据获得内在规律和理论,进而改进并提升自身能力。在医学领域数据量和计算量的驱动下,卷积神经网络和深度神经网络等深度学习算法已经在图像识别上发生了质的飞跃,远远超过了传统的图像识别算法。
尤其是机器学习以及深度学习与计算机视觉、自然语言处理相结合,在医学影像的自动分析和辅助诊断方面已经取得良好效果。如,利用机器学习和计算机视觉进行医学影像的图像分割、特征提取、定量分析等病灶识别与标注,可大幅提升影像科医生诊断的准确率。在新药研制过程中,机器学习可通过大量数据虚拟筛选合适化合物,预测化合物可能的活性,对比较有可能成为药物的化合物进行有针对性的实体筛选,同时在临床试验阶段,可进行受试者精准挖掘,对疾病数据进行深度研究,大量减少研发时间并降低研发成本。在健康管理方面,机器学习及深度学习技术可对数据进行高效计算和精准决策分析,实现个性化精准健康管理。在疾病预测方面,机器学习以及深度学习技术可精准迅速地进行庞大的基因数据分析,为癌症诊断和治疗提供必要信息。
3.2.2 计算机视觉
计算机视觉技术是指利用计算机对视觉信息进行全程处理,其核心技术包括数字图像处理技术等[8]。数字图像处理技术,是将图像信号转变为数字信号,再用计算机识别处理的技术,对图像进行预处理,在提高图片质量的同时,强化图像中的高频信息,帮助医疗人员精准读取图片信息,并为后续机器学习提供更好的训练数据集。
在医疗领域的应用,主要是在医疗大数据的基础上,实现图像识别。在图像识别方面,主要是帮助医疗人员更加准确地对病理切片进行分析研究,降低医疗人员的诊断错误率。同时,观察腺体的计算机视觉系统,可通过观察其形态,判断癌细胞扩散的严重程度,帮助医疗人员更好地发现以及控制癌症扩散。
3.2.3 自然语言处理
自然语言处理,是人工智能领域与计算机科学领域中的一个重要研究方向,即对人们日常使用的具有各种表示形式的语言进行分析与处理[9]。在医疗领域中,大量的医疗数据都是以非结构化的文本形式存储的,是通过计算机进行处理和分析的。如症状描述部分的数据就是以医生或患者的口头语言进行描述的非结构化数据。因此需要对其进行处理,集合整合基于词典、规则、机器学习、自然语言处理多种方法的关键字、语义关系提取算法,使得医生或患者对症状描述更为标准和统一。
3.3.1 健康医疗数据方面
医疗人工智能的发展,最根本性的基础是健康医疗数据。而目前,健康医疗数据的使用权、安全性、开放性、可交换性、伦理性、可获取性等方面的问题,直接决定了医疗人工智能的发展。
关于医疗数据的归属和使用权限问题,目前尚无明确的规定。因此,各大医疗人工智能公司在技术开发过程中,其数据训练集的获得是首先要考虑的问题。另外,医疗数据涉及大量的个人数据隐私方面的问题,对于个人医疗隐私的保护也颇为棘手。医疗数据开放方面,由于国家及地区对于人类基因及遗传资源管理的规定,以及各大医疗机构之间数据标准不统一,对医疗数据的机构共享、国家共享、以及地区共享形成一定的阻碍。
3.3.2 人工智能算法及系统方面
尽管人工智能的应用范围十分广泛,但是多数结论由经验而来,多数受到算法及系统硬件的限制。虽然许多人工智能算法的最终目标是使用仿人类的方案来解决开放式挑战,但是仿人类的解决方案与人工智能算法一起使用的可行性能达到何种程度,却无法预测。另一方面,人工智能系统对数据和其他系统接口的兼容性、易操作性、对环境的适应性,数据处理的速度及准确性等都是限制医疗人工智能快速发展的瓶颈。
3.3.3 AI医疗器械审批方面
虽然人工智能医疗行业发展速度很快,但是涉及到医疗器械的安全性问题,对器械分类及效果要求较高。从美国AI医疗器械产品的审批情况看,虽然目前已经审批Viz.Ai的Contact应用、IDx-DR设备、以及OsteoDetect软件等,但是FDA对于系统的安全性和准确性要求极为苛刻,以IDx为例,该设备经过21年才通过审批,而FDA评估该系统的安全性和准确性应用就长达7年之久。尤其是在三期临床试验中,FDA要求人工智能判断的准确率需要在99%以上,甚至更为精准,而AI人工智能的研究多为前瞻性研究,所以需要长时间随访,因此仅从三期发展为成熟医疗产品可能就需要2~5年。另外,由于AI人工智能系统软件更新迭代周期较快,虽然FDA针对快速迭代的人工智能软件制定了Pre-Cert计划(Software Precertification Pilot Program),允许公司对系统软件进行微小更改,不必每次提交审核申请,但是也会在一定程度上影响AI人工智能系统的发展。
3.3.4 AI医疗人才方面
虽然美国高校较早地设立了人工智能专业,并且其AI人才数量超过85万,但是人才短缺以及人才成本高昂仍是美国AI医疗的重要问题。据调查,在硅谷做深度学习的人工智能博士生,刚毕业的年薪即为15~25万美元[10]。而该薪资相对于专门从事AI医疗领域的平均薪资水平,仍存在一定差距。
在战略报告中,对医疗人工智能的前景均持乐观态度。并指出,医疗人工智能可促使医疗病历向电子化方向转变,而在精准医学和癌症研究等许多领域,人工智能对健康数据进行预测分析起到至关重要的作用,如期望医疗人工智能支持从大规模基因组研究(如全基因组关联研究、排序研究)中识别出遗传风险的生物信息学系统,并预测新药物的安全性和有效性。同时利用人工智能技术进行多维度数据评估,研究公共卫生问题,为医疗诊断和处方治疗提供决策支持系统。另外,还期望人工智能可以实现个人药物定制,提高医疗效果、患者舒适度并减少浪费。