张婉莹
患病3年、接连看了17位医生都诊断不出来的“怪病”,居然被AI診断出来了。
7岁男孩Alex患有慢性疼痛3年,疼痛让他脾气变得很坏,并且不长个子。母亲Courtney非常着急,带着Alex从儿科、牙科、骨科等科室拜访各路专家,却没有一位医生能真正解决Alex的问题。
绝望的母亲抱着试一试的心态,将儿子的症状与检查报告输入ChatGPT里,居然得到一个此前从未在医生口中听过的疾病—脊髓栓系综合征。而这个不太常见的疾病与儿子的症状高度重合。
AI进入医疗领域不算一个新鲜事,谷歌、微软、腾讯、科大讯飞等企业都早有布局。随着技术的发展,医疗相关的AI大模型也显示出巨大的商业价值。
当AI先于医生查出病症时,它是否真的可以替代医生,让我们不用去医院就可以完成就医?
2020年,4岁美国男孩Alex突然开始牙痛,并且变得喜怒无常、白日里没有精神。
起初,父母以为是换牙导致的问题,带着Alex来到牙科门诊。牙医认为他存在气道阻塞的问题,并认为由于Alex上颚发育不良,在一定程度上导致他呼吸困难,因此影响睡眠。
在为Alex放入上颚扩张器后,孩子的呼吸困难与疼痛问题都有所改善。正当家人们觉得他康复在即时,Alex又出现剧烈头痛与走路困难等新问题,身体无法平衡,右腿拖着左腿走路。
儿科、骨科、耳鼻喉科等医生都各执己见,有人认为是新冠造成的发育问题、也有人认为是鼻窦炎影响睡眠。
无论看了多少医生,专家们只会解决自己专业领域内的问题,没有一位医生能找出病因,给到Alex准确的诊断结果。
三年间寻医无数,却连孩子可能患有什么病的线索都没有。这让母亲Courtney有些沮丧,她觉得孩子的病情像是已经走入死胡同。
直到一天夜里,失落的Courtney将孩子的就诊资料一条条录入ChatGPT里,没想到真的得到一个最接近病状的答案—脊髓栓系综合征(tethered cord syndrome,TCS)。
这是一种罕见的疾病,在新生儿中发病率为 0.005%~0.025%。根据美国疾病控制和预防中心的数据,美国每年约有1400名婴儿出生时患有脊柱裂。英国怀孕咨询服务公司估计,英国每年大约有1000名婴儿出生时患有此症。
脊髓栓系综合征与脊柱裂有关,可以理解为患儿脊髓发育不完全,部分脊髓和神经会暴露出来在体表。多数患儿脊椎的骶尾部存在明显裂口。
较为特殊的是,Alex是隐性脊髓栓系综合征(OTCS)患者,他没有明显体征,甚至骶尾部缺口位置被当作胎记,几乎不被注意到。因此也更加难以被诊断。
治疗Alex的密歇根州资深儿科神经外科医生Holly Gilmer表示,这类疾病包括疼痛、腿拖拽、膀胱失控、便秘、脊柱侧弯、脚或腿部肌肉发育延迟等症状。由于患者年龄普遍较小,很多患儿不能准确表达相关感受也加大了确诊难度。
使得ChatGPT成功诊断出Alex患有隐性脊髓栓系综合征的一个小细节是,Alex无法完成盘腿坐的动作,这在一些医学论文中有所记录。
人并不能像AI一样拥有庞大的知识库,当遇到罕见疾病时,AI便可发挥出其作用。
AI确诊罕见病,这究竟是误打误撞还是确诊率比医生还强?
失落的Cour tney将孩子的就诊资料一条条录入ChatGPT里,没想到真的得到一个最接近病状的答案—脊髓栓系综合征。
波士顿Mass General Brigham的研究人员在8月发表的一项研究发现,ChatGPT可以达到72%的准确率,与住院医生的比例大致相同。研究人员表示,更资深的医生通常准确率为95%。
这也可以说明,在第一时间得到ChatGPT给出的诊断结果时,母亲Courtney并未选择完全信任AI诊断,她先是在社交平台上找相关社群咨询,又带着儿子找到神经外科医生后,才进行了确诊。
哈佛大学流行病学助理教授Andrew Beam博士认为,ChatGPT要比一些普通的诊断软件或是谷歌搜索引擎更好用。但另一方面,目前ChatGPT并不能够取代具备大量专业知识的临床医生。
毕竟对于AI来说,它们确实可能在找不到答案时捏造信息,推测出错误结果。
ChatGPT的制造商OpenAI在一封电子邮件中表示,其模型不应用于医疗诊断、分类或管理危及生命的问题。OpenAI的研究人员承认,使用大语言模型(LLM)诊断或治疗疾病,存在潜在危害。
今年5月,世界卫生组织就在声明中强调:仓促采用未经检验的AI系统可能会导致医务人员出现错误,对患者造成伤害,损害人们对人工智能的信任,进而可能影响(或延迟)AI技术在全球的长期惠益和应用。
面对AI医疗的庞大前景,越来越多的科技巨头涌入赛道。目前,AI在医药领域内多运用于制药与筛药两个部分。
研发一款新药的成本不便宜。据统计,从I期临床到获得FDA(美国食品药品监督管理局)批准上市,创新药的平均成功率仅为7.9%。这意味着药企需要至少布局12款药物,才有1款可能上市成功。
2021年,全球创新药的研发平均成本为20.06亿美元,平均研发的时间周期为6.9年。
AI可以帮助药企节省了时间与金钱。
2023年5月,谷歌云推出了名为Target and Lead Identification Suite的产品。这款产品可以帮助研究人员在药物研发的基础部分,可以更好地识别氨基酸的功能与预测蛋白质的结构。
其实谷歌在AI医疗领域早有涉及。2018年,谷歌支持的人工智能研究实验室DeepMind开发了Alphafold,可以根据基因序列预测对应的蛋白质结构。
得克萨斯大学奥斯汀分校计算机科学教授Swarat Chaudhuri在接受媒体采访时表示,Alphafold现在已经预测了我们已知的几乎所有蛋白质的结构,并从根本上推进了我们对生物学的理解,“Alphafold的发现已经对药物和疫苗开发产生了巨大影响”。
在国内,百度的文心大模型也将生物领域研究对象的特性融入模型。目前正式对外发布的文心生物计算大模型,可以支持小分子的药物设计以及完成多肽与蛋白等设计任务。
AI加入新药研发,能够降低70%的研发成本。
2021年9月华为云推出的盘古药物分子大模型,可以实现针对小分子药物全流程的人工智能辅助药物设计。实验结果表明,盘古药物分子大模型的成药性预测准确率比传统方式高20%,进而提升研发效率,让先导药的研发周期从数年缩短至一个月,同时降低70%的研发成本。
尽管AI可以缩短制药时间,但在临床领域,帮助医生筛药与进行诊断的聊天式医药大模型,被更为广泛地运用。
10月24日,科大讯飞推出讯飞星火医疗大模型。这款医疗大模型上搭载了三款产品和一个人工智能辅助诊疗平台。其中一款产品是面向医生的“智医助理”。在2017国家执业医师资格考试中,其排名超过96.3%的人类考生,能够为基层医院的医生提供帮助。
作为上市公司,京东健康在这片红海中也没落下。7月13日,京东健康在京东言犀通用大模型基础之上,推出京医千询。这是一款可以帮助医生全面了解患者情况、完成诊断和治疗决策的产品,能够为医生提供具有科学依据的医疗诊断与建议。
除此之外,国内还有腾讯混元医疗大模型、商汤“大医”大模型、卫宁健康WiNEX Copilot等大语言模型进入医疗领域。
AI可以运用于医疗中,但并不意味着完全安全且无害。目前在AI医疗领域内,存在隐私、安全、偏见、责任、透明度以及当前缺乏监管有关的问题。
一位不愿具名的相关研究人员告诉南风窗,AI进入临床阶段,还有一定困难。比如AI需要学习病人的片子、血液指标与病例数据等信息,但在国内多数医院中,不同的数据由不同的部门掌握,科室与科室之间的数据并未打通。如让第三方公司去做整合协调,又将涉及病人隐私与数据清理等问题。
医疗数据的缺失,是很多医药大模型在研发时遇到的共同问题。
“当模型学习的数据不够准确时,如何可以应用到现实的临床领域?”
医疗数据的缺失,是很多医药大模型在研发时遇到的共同问题。
除此之外,很多医学文献并不是公开免费,即便使用最先进的互联网检索技术,也无法访问一些付费网站与期刊中的数据。
谷歌健康研究负责人艾伦·卡尔提凯萨林加姆坦言,谷歌的医疗大模型只使用了互联网上公开的数据。在谷歌专门为医疗领域研发的Med-PaLM(PaLM代表Path-way语言模型)大模型中,虽然其语料库由7800亿个“令牌”组成,包括网页、书籍、维基百科文章、源代码、社交媒体对话、新闻文章等,但只利用互联网上公开的数据,一些付费网站与期刊不易获取。
任何由大语言模型做出的医疗诊断都需要科学依据,包括研究文章的引用。目前,这是一个较难解决的问题。
今年9月,AI药物研发公司Insilico Medicine的创始人兼首席执行官亚历克斯·扎沃龙科夫在接受知名医学期刊《Nature Medicine》采访时表示,Insilico Medicine专注于利用人工智能技术进行药物发现和生物标志物开发。“这些系统的培训材料必须包括超高质量的、经过同行评审的全文出版物,而目前情况并非如此。”
如果不能全面接触到高质量的文献资源,AI就不能做出准确的医学诊断。扎沃伦科夫指出,ChatGPT是主要从互联网上抓取的文本中训练出来的,在他看来,这些文本和来源“需要由人类来监管”。
AI只是輔助人类医疗诊断的工具,成为目前业内主流共识。
耶鲁医学院神经学家、耶鲁纽黑文卫生系统临床伦理中心首任主任本杰明·托尔钦认为,当临床医生使用ChatGPT等工具时,必须进行严格的临床监管。
科大讯飞研究院院长贺智阳也向南风窗记者强调,科大讯飞的“智医助理”只是辅助医生进行诊断的一种工具,并不能完全用其做诊断。
AI结合人工经验,可以提升医生的效率。但若AI完全作为医生去为患者做诊断,或许还需要一定的迭代与时间。
(实习生杨纯希、刘思涵对本文亦有贡献)