摘要:生成式人工智能的发展为医疗行业带来颠覆性的变革。本文论述了生成式人工智能在新药研发、诊疗服务和医学教育等领域的研究进展和应用现状,概述了生成式人工智能在医疗领域面临的问题和挑战,包括数据质量和数据安全、算法可解释性和评测标准等,并探讨了生成式人工智能在医疗领域的未来发展方向。
关键词:生成式人工智能;大模型;医疗领域
DOI:10.12433/zgkjtz.20243008
一、生成式人工智能在医疗领域的典型应用场景
(一)新药研发
在全球范围内,新药研发一直面临着平均研发投入高达10亿美元、研发周期长达10年的“双十困境”。近年来,随着人工智能、大数据等数字技术的不断迭代,推动了生物学、化学和临床医学等学科的交叉融合发展,新药研发领域随之发生全方位的变革。相比传统AI,生成式AI能够从海量的知识库中快速提炼出关键信息,并预测和推断出哪些潜在的药物靶点有价值、可能成功的合成路径是什么,能够加速靶点的确立、开发测试化合物的验证分析方法,筛选先导化合物,协助临床前试验以确定有效性,这为新药研发范式带来颠覆性的变化。
国际领先的生物科技公司英矽智能2024年3月在Nature Biotechnology发文,详细介绍了其首款由生成式人工智能发现和设计的潜在全球首创TNIK抑制剂,从靶点识别到2期临床试验的四年研发历程,并对INS018_055药物抗特发性肺纤维化的作用靶点、临床前结果和已有临床试验数据进行了详细披露[1]。Jumper J等2021年设计了基于神经网络的AlphaFold模型,使耗时、困难且复杂的预测蛋白质结果任务缩减到分钟级别,极大加速了癌症、抗生素和靶向药物的研发进程[2]。根据麦肯锡的研究,小分子药物研发中的一个难题是如何识别并且筛选出最有可能成功、值得进一步测试优化的化合物,生成式人工智能通过先进的基础化学模型加速筛选过程,可以提升化合物活性模型性能2.5倍;识别新化合物系列的速度提高4倍以上。谷歌DeepMind和Isomorphic Labs联合发布的预测蛋白质等结构的大模型AlphaFold 3,可通过准确预测蛋白质、DNA、RNA等结构以及它们之间的相互作用,增强对蛋白质的预测准确率和架构解读,进而帮助理解疾病的分子基础,发现疾病的成因和潜在的治疗目标[3]。2021年华为推出的盘古药物分子大模型,主要面向药物研发领域,提供结合预测、属性预测、分子优化与生成能力,帮助国内超级抗菌药Drug X先导药的研发周期获得了数十倍的加速,从数年缩短到数月,研发成本降低了70%。
在临床试验阶段,生成式人工智能可以通过挖掘和分析大量的临床试验资料,优化临床试验设计,提高试验的效率和成功率。例如,在患者招募方面能发挥以下作用:一是强大的数据处理能力,能够处理海量的医疗数据,包括患者的基本信息、病史、检查结果等,并根据招募需求提取关键特征,从而更全面地评估患者的适合性。二是基于深度学习和自然语言处理技术的智能化筛选,能够自动筛选符合招募标准的患者,提高筛选效率和准确性。三是支持个性化推荐,通过分析患者的个体特征和招募标准,能够给患者推荐最匹配的临床实验项目,提高患者的参与意愿和依从性。四是试验策略的管理优化,通过建立患者管理系统,跟踪患者的招募进度、参与情况和反馈机制,提供个性化患者服务建议,并动态优化招募策略。例如,国内领先的第三方患者招募平台翼帆医药参与的某药企全球三期临床研究项目,通过大模型数据结构化和智能算法匹配,在自建的意向患者库中精准找到潜在合适的患者,最终完成89例患者知情、64例患者入组、入组目标达成率128%,有效提升了转化精准度。
(二)诊疗服务
在医疗问答和患者咨询的场景中,生成式人工智能在理解患者需求方面表现优异。医学大语言模型ChatDoctor利用医患对话等数据集对LLaMA大模型进行微调后,大模型的精度、召回率和F1值均超过了ChatGPT[4]。Google研发的Med-PaLM2专家级医疗问答大语言模型,通过整合近期大模型领域的先进技术,如小样本(Few-shot)、思路链(Chain-of-thought,CoT)技术、自一致性(Self-consistency,SC)机制和集成优化(Ensemble Refinement,ER)方法等,在PubMedQA、MedQA等多个测评数据集上取得了最优表现,特别是在多项选择和长形式医疗问答任务场景中表现出色。
从辅助诊断的医疗实践看,生成式人工智能能够通过分析大量临床诊疗数据,深度学习医疗领域知识,在自动分析医疗影像、精准诊断决策和治疗方案选择等方面,为医生提供更准确和可靠的依据,不仅能提高诊断的准确率,还能帮助医生大幅提高效能,也有助于改善医疗资源不平衡的问题。以骨科类疾病为例,其涵盖了系列复杂的病理状态,如骨折、关节病变、脊柱异常和运动损伤等,导致骨科疾病的诊疗决策复杂性较高。生成式人工智能能够迅速分析患者的临床症状、医疗史以及影像学检查结果等非结构化的信息,从而识别出骨折、畸形和其他骨骼疾病,为医生在复杂临床情况下提供高效、实时的决策辅助。从当前应用实践看,生成式人工智能在骨科影像辅助识别和诊断方面作用显著,能够自动识别和分析X光、CT、MRI等医学影像,快速检测和标记异常区域,并且能够整合不同来源和类型的多模态图像,如将CT和MRI图像融合,提供更全面的骨骼和软组织信息,增强诊断的准确性。
Mika等学者在2023年测试了ChatGPT在全髋关节置换术方面的应答情况,在10个患者常见问题中只有1个被评为“不满意”,2个无须更正,大多数需要最小或适度澄清,表明生成式人工智能可成为辅助患者教育和患者沟通的重要临床工具[5]。目前已有研究探讨生成式人工智能大模型在神经障碍性疾病、眼科、肺癌等特定疾病辅助诊断上的使用案例[6]。在垂直领域的大模型实践中,已有自动识别和分析肺部CT影像的医学影像诊断平台、基于基因组学数据为患者提供个性化肿瘤诊疗方案的诊疗大模型等。
在诊后护理或其他日常健康管理场景中,生成式人工智能的作用已得到验证:一是远程监测患者健康,特别是慢性病患者,通过定期分析生理参数、设备数据和健康记录,能够帮助医生有效远程管理疾病。例如,通过大模型技术对糖尿病患者的血糖、血压等健康数据进行实时监测和分析,并提供个性化的管理建议和干预措施。二是分析健康记录、生活方式和基因信息,识别风险因素和早期疾病迹象,实现个体化健康管理和疾病预防,例如,一位50岁女性,近期频繁出现胸闷、心悸、呼吸短促以及肩膀酸痛的症状,尤其是在轻微运动后症状更为明显,她如果向灵医大模型咨询,大模型会高度提示用户可能存在心脏方面的问题,能够帮助用户更早识别潜在的心脏问题,并采取有效的措施进行干预和治疗。三是提供远程医疗建议和护理指导,增强远程护理体验。以“脑卒中”为例,借助讯飞医疗诊后康复管理平台,能够自动生成个性化的患者康复计划,包括用药指导、康复运动、饮食建议、出院随访计划等,并能够根据患者的实时数据,自动或人工动态调整康复计划,确保患者能够按照最优路径进行康复。
(三)医学教育
随着现代医学体系日益复杂,医学知识和文献呈现指数级增长,专业细分程度越来越高,导致不同医学学科的认知壁垒也越来越大,医学从业人员已经难以通过阅读和学习建立较强的认知能力。生成式人工智能通过人机交互的协作方式,有助于提升医学教育水平,补充医学从业人员的认知能力,提高医学教育的可及性和均等性。
一是问答式的交互方式能够加速医学从业人员对知识的获取,通过智能学习辅助系统,可以为基于能力的自主学习提供支持,并深化学者对复杂医学知识的理解。二是能够提供个性化的学习体验,通过调整教学内容和难度,适应不同水平从业人员的需求。三是通过生成式人工智能构建复杂的临床案例,能够为从业人员提供探索不同诊断路径和治疗方案的模拟环境,提升处理复杂临床情景的推理能力,特别是模拟手术训练等外科培训的应用前景被广泛关注。同时,基于大模型的医学智能教育能够使欠发达地区的医生能够及时获取前沿、权威的医学知识,有助于缩小不同地区医疗水平差距,缓解医学发展不平衡问题[7]。
此外,也有学者提出需高度重视生成式人工智能对医学教育和管理范式的冲击,预计将对现有“师—生”教学模式产生巨大的影响,将“师—机—生”的三元结构带入人们的视野[8]。认为大模型智能技术的应用,对未来的医学教育和医疗管理将带来巨大冲击,数字医生理念变得现实且迫切,不可避免地像培养人类医生一样“培养”数字人医生,像管理人类医生一样“管理”数字人医生,将进一步加快推动医生与医院的虚实互动平行化进程[9]。
二、生成式人工智能在医疗领域面临的主要挑战
(一)数据隐私保护和医疗大数据质量问题
医疗数据的特点是具有较高的复杂性、稀缺性和隐私性。一方面,医疗数据通常包含公众的个人敏感信息,需要确保生成式大语言模型在训练和应用时,公众的数据隐私和数据安全得到充分保护,包括采用数据访问控制、审计跟踪、数据脱敏等合规性措施,以防止数据泄露和滥用;另一方面,医疗领域需要多个组织之间共享数据以进行合作研究,但我国医疗行业的“数据孤岛”现象突出,且医学数据模态多元,不同模态间差异显著。目前医疗数据仍以相对碎片化的方式存储保存于各医疗机构,且由于信息系统技术规范、基础信息数据标准的不统一和缺失,医疗数据普遍不能互通互认,导致医疗数据质量低,数据要素价值尚未充分显现。北京市在《北京市加快医药健康协同创新行动计划(2024—2026年)》中提出,要实施医疗大数据共享与应用,建设全市共享的门急诊、住院、体检、科研等电子病历体系,推动标准化、信息化临床研究数据共享,明确数据脱敏标准,打通医院之间数据链接,以上措施有望打破医疗“数据孤岛”现象。如何确保共享数据的隐私和安全性的前提下,推动大量且高度验证的医学知识和医疗数据资源更好结合,从而支撑生成式人工智能医疗产品的研发和应用,将是行业面临的长期课题。
(二)算法可解释性和可靠性
当前生成式大模型是生成式人工智能领域的主流技术,基于深度学习的大模型,由于高维特征的复杂性、缺少直观的输入输出映射、训练过程中的随机性设计等原因,可解释性差的问题至今仍难以解决。生成式大模型本质上是概率模型,幻觉问题是大模型落地垂直应用不可避免的问题。同时,医疗关系到社会公众的生命健康安全,任何在医疗领域的技术应用都需要保证高度的准确性和可靠性,大模型作为一个“黑箱”系统,在疾病诊断等复杂决策领域的应用仍存在一定局限性。
(三)缺少一致性的评测体系
大模型需要经过客观评测才能大规模应用于医学场景,虽然已有在公开数据集上的模型评估、基于ChatGpt4.0的自动评估,以及有专业医生的人工评估,但这些评估均存在规模小、不全面、封闭和难以复制等问题[10]。MedBench医疗大模型测评平台由上海人工智能实验室与上海市数字医学创新中心联合多家机构推出,已为387个医疗大模型提供评测,在开放性问答评估中引入了医学专家人工标注的“给分点”。但目前医疗大模型评测多侧重其掌握知识的程度,对模型能力的评测不足。医疗大模型要在实际应用中发挥价值,必须能够胜任真实医疗场景的复杂任务,如读取病理片、分析检查报告、书写病历等,其评测要兼顾知识和能力两方面。但由于目前缺乏统一的评测数据集、标准指标和方法体系,不同模型的性能难以进行客观全面的比较,不同测评结果难以互相验证,间接降低了医疗大模型的可信度。
三、未来展望
医疗是生成式人工智能落地应用的重点领域之一,医疗行业大模型已在医学影像分析、临床诊断、药物研发等方面发挥了重要作用,为医疗领域带来深刻变革。从当前实践看,尽管以大模型为代表的生成式人工智能技术在医疗领域的大规模落地仍存在一定挑战,但以生成式人工智能驱动行业发展的技术路线势在必行。下一阶段,医疗大模型需立足深度机器学习等底层技术的创新实践,进一步融合多模态数据,提升大模型对医学复杂数据的理解水平、提高各类场景下的推理能力、安全性和可靠性,同时逐步建立面向不同场景医疗大模型的评测标准和监管体系,以“人工智能+”推动医疗健康行业迈向全新的发展阶段。
参考文献:
[1]Ren F, Aliper A, Chen J, et al. A small-molecule TNIK Inhibitor Targets Fibrosis in Preclinical and Clinical Models[J].Nature Biotechnology,2024:1-13.
[2]Jumper J, Evans R, Pritzel A, et al. Highly Accurate Protein Structure Prediction with AlphaFold[J].Nature,2021,596(7873):583-589.
[3]ABRAMSON J,ADLER J,DUNGER J, et al. Accurate Structure Prediction of Biomolecular Interactions with AlphaFold 3[J].Nature,2024:1-3.
[4]LIY, LIZ, ZHANGK,et al. Chatdoctor: a Medical Chat Model Fine-tuned on a Large Language Model Meta-AI (llama) Using Medical Domain Knowledge[J]. Cureus,2023,15(6).
[5]Aleksander P. Mika,J. Ryan Martin,Stephen M.et al. Assessing ChatGPT Responses to Common Patient Questions Regarding Total Hip Arthroplasty[J]. Bone Joint Surg Am,105(19):1519-1526.
[6]刘泓泽,王耀国,唐圣晟,等.医学大语言模型的应用现状与发展趋势研究[J].中国数字医学,2024,19(8):1-7+13.
[7]Khan, R. A., Jawaid, M., amp; Khan, A. R. et al. (2023). ChatGPT-Reshaping Medical Education and Clinical Management[J]. Pakistan Journal of Medical Sciences,39(2):605-607.
[8]杨宗凯,王俊,吴砥,等.ChatGPT/生成式人工智能对教育的影响探析及应对策略[J].华东师范大学学报(教育科学版),2023,41(7):26-35.
[9]王飞跃.平行医生与平行医院:ChatGPT与通用人工智能技术对未来医疗的冲击与展望[J].协和医学杂志,2023,14(4):673-679.
[10]颜见智,何雨鑫,骆子烨,等.生成式大语言模型在医疗领域的潜在典型应用与面临的挑战[J].医学信息学杂志,2023,44(9):23-31.
(作者单位:1.北京水滴科技集团有限公司,
2.北京翼帆风顺医药科技有限公司)