以ChatGPT为代表的大语言模型在临床医学中的应用综述*

2023-02-20 11:09:10马武仁弓孟春王斌斌史文钊

医学信息学杂志 2023年7期

马武仁弓孟春戴辉黄婧王斌斌史文钊

(1神州医疗科技股份有限公司北京 100080 2南方医科大学卫生与健康管理研究所广州 510515 3 南方医科大学南方医院赣州医院赣州 341099 4空军军医大学唐都医院西安 710038 5 南方医科大学南方医院广州 510515)

1 引言

大语言模型(large language models，LLMs)是由具有大量参数(通常为数十亿或更多权重)的神经网络组成的语言模型，由多层神经元组成，第1层将一系列单词作为输入，每个后续层处理前一层输出。最后一层输出是模型对输入最可能的含义或解释的预测。LLMs使用自监督学习对大量未标记文本进行训练，可以根据从海量数据集中吸收的知识，高准确度识别、总结、翻译、预测和生成文本及其他内容。LLMs在2018年左右出现，并在各种任务中表现出色[1]。在人工智能(artificial intelligence，AI)越来越多地应用于临床诊疗的时代背景下，总结阐释LLMs在临床中的应用及其对医患双方的影响极为必要。

2 ChatGPT及其核心技术突破

2.1 ChatGPT

聊天生成预训练转换器(chat generative pre-trained transformer，ChatGPT)是美国开放人工智能(OpenAI)实验室于2022年11月30日发布的一种AI技术驱动的聊天机器人模型，通过使用生成式预训练转换器3.5(generative pre-trained transformer-3.5，GPT-3.5)模型提供流畅、自然的与人类几乎没有差异的响应[2]。

2.2 转换器模型

ChatGPT取得如此效果，核心原因之一是其基于大规模生成式预训练模型GPT-3.5构建，这是当前自然语言理解领域最好的文本生成模型(GPT-3.5比GPT-3使用更多数据和更大模型，具有更好效果)。GPT系列模型的核心是转换器模型，即一种用于序列到序列学习的神经网络结构。转换器中引入多头自注意力机制，通过计算输入序列中各位置之间的相对关系，实现序列中不同位置的信息交互。多个注意力头分别关注句子中多个方面重点，而且通过增加网络层次，能够提取更高级且抽象的语义信息，因而获得更强的理解能力。基于转换器的语言模型除具有强大的语义提取能力外，还能进行无监督学习，具有良好的场景迁移能力。

2.3 强化学习技术

赋能ChatGPT的另一大关键技术是人类反馈的强化学习技术(reinforcement learning from human feedback，RLHF)[3]。由于OpenAI没有公开发表的ChatGPT论文，也没有公开代码[4]，外界普遍认为其与之前公开发表的指令生成预训练转换器(instruct generative pre-trained transformer，InstructGPT)中披露的技术最为相近[5]。InstructGPT的技术步骤如下[6]：第1步，收集用户对同一问题不同答案的偏好；第2步，利用第1步的偏好数据重新训练，基于监督信息精调GPT模型；第3步，根据用户对不同答案的偏好训练打分函数，对ChatGPT的答案打分，分数高低体现出用户对不同答案偏好程度的高低；第4步，利用打分函数作为反馈对学习模型进行训练强化，使ChatGPT最终输出用户更偏好和喜欢的答案。通过上述步骤，ChatGPT针对用户输入，能够输出用户友好的答案。

2.4 上下文学习

上下文学习[7]是目前大语言模型都在全力攻克的重点，对ChatGPT没有处理过的新任务，只需设计任务的语言描述，并给出几个任务实例输入模型，即可让模型从给定的情景中学习新任务并给出满意回答。这种训练方式还能够有效提升模型小样本学习能力。ChatGPT还可以利用思维链(chain-of-thought，CoT)进行复杂推理[8]。对于一些逻辑较复杂的问题，直接向ChatGPT模型提问可能不会得到准确回答，但如果通过提示的方式在输入中给出有逻辑的解题步骤(即将复杂问题拆解为多个子问题)的示例后再提出问题，则能给出正确回答。

3 以ChatGPT为代表的LLMs在临床医学中的应用

目前已公开发布的重要LLMs参数数量差异极大，但在医学任务上测试(以PubMedQA数据集为例)普遍取得了不错的成绩[3，9]。指令提示微调以及增大模型参数量能够显著提升LLMs的理解力、知识召回和推理能力，提示LLMs在临床领域具备发挥关键作用的潜力[10]。

3.1 问诊、临床病史采集及文本撰写

ChatGPT可以与患者进行对话，询问关于症状、疼痛程度、病史等方面的问题，比人类更快地从多个来源收集、分类和整合临床信息[11]，医生可以更全面地了解患者情况，为之后的诊断和治疗提供基础。ChatGPT还可以提供最新的研究、临床指南或医学文献摘要，帮助医生作出准确评估。

临床文本构成占据医生工作很大一部分比例，医生可能需要花费多达35%的工作时间撰写和查看患者诊疗记录[12]。临床文本撰写与医生的过度疲劳[13]、认知负荷增加[14]、焦虑[15]等不良状态相关。实现撰写自动化将极大降低医生负担。结合语音识别技术，ChatGPT有潜力实现诊疗全过程所需所有临床文本的自动化生成[16-17]。

有研究表明，通过传统方式撰写的出院小结往往会遗漏细节[18]，ChatGPT有望改变这一现状[19]。ChatGPT允许医生输入任务简要说明、概念详细说明和指导解释，可在数秒内输出一份正式的出院小结。这一过程的自动化可以减轻初级医生的工作负担，使其有更多时间照护患者。

3.2 临床辅助决策

ChatGPT可以基于循证医学的患者/问题、干预措施、比较措施和结局(patient/problem，intervention，comparison，and outcome，PICO)辅助临床决策[20]。ChatGPT可以获得患者医疗记录和病历数据并据此进行分析。医生将病例关键信息输入ChatGPT，如实验室检查结果、影像学报告和病理学结果。ChatGPT可以帮助解释数据[21-23]，并提供可能的诊断和进一步检查建议[24]。已有研究[25]表明ChatGPT可用于分析可能会在阿尔茨海默病早期阶段发生变化的言语和写作的语言模式，基于此有可能实现痴呆症的早期诊断。Rao A S等[26]通过为乳腺癌筛查和乳房疼痛确定适当的影像学检查项目，评估ChatGPT在放射学临床决策支持方面的能力，结果表明使用ChatGPT进行影像学决策具有可行性，有可能改善临床工作流程，有助于更准确使用影像学服务。

这个国家的命运与其说掌握在当权者手中，不如说掌握在母亲手中。“家庭是儿童接受教育的主要场所。儿童的社交生活技能和礼仪知识始于家庭，因此家庭教育至关重要。父母是孩子的第一任老师，也是孩子的镜子。因此，孩子们应该发挥榜样作用，营造良好的礼仪氛围，纠正他们的生活方式，关注他们自己的形象，练习礼仪规范。父母从小就教他们的孩子礼仪知识，教他们礼貌和理解礼仪，礼貌待人，谦虚和礼让，养成良好的礼仪习惯。一个孩子在家庭环境中接受了良好的礼仪教育，肯定会对他未来的性格和修养产生积极的影响，所以家庭礼仪教育不容忽视。

基于诊断结果，ChatGPT可以提供特定治疗药物信息，包括适应症、剂量、不良反应、药物相互作用以及药物数据库和药物指南，帮助医生选择治疗药物[27]。ChatGPT可以提供常见治疗选项供医生选择[28]，并解释每种干预措施的作用、机制、安全性和效果。此外还可以提供特定疾病预后的信息和统计数据(如治愈率、生存率、并发症风险)等信息，帮助医生与患者共同评估治疗方案预期效果。医生可以与ChatGPT讨论不同治疗方案，包括药物治疗、手术干预[29]、放疗[30]、化疗[31]等，ChatGPT提供不同治疗方案的优势、风险和效果评估，帮助医生与患者共同决定最优方案[32]。

3.3 个性化精准医疗

ChatGPT在临床中的另一个潜在用途是为患者制定个性化治疗方案[33]。ChatGPT可为患者创建虚拟助手，根据患者病史、当前症状和其他相关因素提供个性化建议。例如，虚拟助手可以为普通感冒或流感患者推荐非处方药或家庭疗法。患者可以通过各种平台访问虚拟助手，如网站、移动应用程序、语音助手等。这对居住在偏远地区或医疗资源不发达地区的患者尤其有帮助，其无须去医院就诊即可获得个性化诊疗建议。

通过分析患者相关诊疗数据，基于ChatGPT的系统可以生成满足患者特定需求和偏好的个性化治疗方案。这对需要特殊护理的复杂或罕见疾病患者尤其有帮助。例如，ChatGPT系统可根据患者病史和其他因素推荐最有可能对其有效的药物或疗法的特定组合。这可以帮助降低不良反应或其他并发症风险，并确保患者得到最适合的护理。

3.4 医患沟通、患者教育及心理支持

患者可能有关于病情、治疗方法、药物副作用等方面的疑问，ChatGPT可以回答这些问题[32]，解释对患者来说晦涩难懂的医学术语含义，使其更容易理解医生的诊断和建议[34]。医生在诊疗过程中可能无法详细解释所有细节，ChatGPT可以提供补充信息，例如疾病常见症状、治疗备选方案等，以帮助患者作出更加知情的决策。ChatGPT还可以向患者提供健康教育[35]和康复指导[29]，帮助患者更好地管理康复过程，加速康复进程。医患共同决策对患者满意度和治疗结果非常重要，ChatGPT可以提供有关治疗选项、风险和益处的信息，帮助患者更好地参与决策过程[36]。

患者在疾病治疗过程中可能会感到焦虑、恐惧或沮丧[37]，ChatGPT可以提供情感支持，倾听患者情绪，并提供鼓励和安慰[38]。提供关于不同类型的心理疾病(如抑郁症、焦虑症等)的疏导，分享情绪调节和应对策略[39]，帮助患者和家属应对焦虑、抑郁、情绪波动等困扰。还可以提供关于心理治疗和咨询资源的信息，帮助患者和家属找到适合的支持和治疗。

3.5 临床研究开展

3.5.1 医学文献自动化阅读与知识提取 ChatGPT可以实现医学文献自动化阅读与知识提取[40]，读取医学文献生成简洁的摘要，概括文献主要内容，帮助研究人员快速了解文献要点，节省阅读时间。ChatGPT可以根据用户提出的问题，从医学文献中提取相关知识，并给出答案[41]，帮助研究人员和临床医生快速查找和利用医学文献中的知识[42]。

3.5.2 构建知识图谱或网络 ChatGPT可以分析医学文献中的实体及其关系，构建知识图谱或网络[43]。这种网络分析可以揭示不同实体之间的相互作用和关联，帮助研究人员发现新的关联和趋势。作为交互式文献检索工具，根据用户提供的查询条件，快速检索并筛选出相关医学文献，帮助研究人员快速找到感兴趣的文献，减少信息过载[44]。

3.5.3 其他辅助应用 ChatGPT可以辅助研究人员制定实验设计和数据分析方法[45]，提供关于实验设计、样本量计算、统计方法等方面的建议，帮助研究人员制定合理的实验方案和数据分析策略。帮助解释和解读实验结果，讨论数据的可靠性、显著性和实际意义，并提供数据可视化建议[46]。还可以在科研论文撰写过程中提供多方面辅助[47]，例如提供思路和灵感、优化结构和逻辑、提供语言和表达建议、辅助文献引用和参考文献、检查和改进论文质量等。

3.6 医学教育

AI技术能够极大推动医学教育创新[51]，结合ChatGPT和元宇宙、虚拟现实、增强现实等技术[52]，创造沉浸式医学教育体验。学生可以通过虚拟场景模拟实际医学操作和病例处理，与虚拟患者[53]进行交互，进行实时医学实践训练和决策演练。ChatGPT在这一过程中作为学生的虚拟导师[54]，提供指导、反馈和疑问解答，提升学生的学习效果和实践能力。

3.7 医院管理与卫生系统管理

3.7.1 自动化分析和调配医院资源 ChatGPT通过自动化分析和调配医院资源，实现医疗资源合理配置和优化利用[55]。帮助医院预测患者流量、诊断和治疗需求以及人员和设备需求。通过预测和优化，提高工作效率、减少等候时间，并优化医疗服务质量和成本效益。

3.7.2 传染病监测和预测通过对大数据自动化分析和处理，ChatGPT可以辅助进行传染病监测和预测[56]，帮助监测疾病传播趋势、风险区域，并提供科学依据用于传染病防控决策。挖掘数据中的关联性和规律性，辅助制定具有针对性的干预措施，预测发展趋势，并优化资源分配[57]。

3.7.3 跟踪和改善医疗质量基于医疗质量监测和管理，ChatGPT可以提高医疗服务质量和安全性[32]。分析医疗数据，识别潜在的质量问题和风险因素，并提供决策支持用于改进医疗流程和标准。通过自动化质量监测和反馈，帮助医院和卫生系统实时跟踪和改善医疗质量，提高患者满意度和疾病预后。

3.7.4 监测和管理医保基金使用情况通过监测和管理医保基金使用情况，为医保政策制定提供科学依据，通过分析医疗数据和费用数据，识别异常和风险，帮助发现医疗资源的浪费和滥用情况[58]。通过自动化监测和管理，帮助控制医疗费用、优化医疗服务的效益，并支持医保政策制定和执行。

4 LLMs应用于临床医学面临的困境

4.1 数据可及性差且质量低

AI模型需要大样本训练以提高模型性能[59]，其取得巨大成就的领域往往是那些拥有大量数据集且可以应用更复杂、更精确算法的领域[60]。但是临床数据收集过程涉及多个参与方，数据质量可能存在差异[61]。医生记录方式、术语使用和数据录入的准确性都可能不同，导致数据质量的不一致性。这可能会进一步导致模型在某些数据上表现不佳，或者无法准确预测某些结果。不同医疗机构的数据标准和结构存在差异，临床数据标准化程度较低，导致数据整合复杂，限制LLMs在不同数据集之间迁移和应用。医疗数据包含大量敏感信息，如患者病史和治疗方案等，一旦泄露会给患者精神和心理等造成极大损害[62]。患者知情同意同样值得关注，医疗机构有可能在未获得患者知情同意的情况下将患者数据大规模用于AI模型训练[63]。因此在医疗机构层面，数据共享受到许多因素限制，其中包括隐私和安全考虑、法律和法规要求以及医疗机构间的竞争和合规性问题，导致跨机构数据共享难以实现[62]。AI模型更新迭代获得性能提升往往需要获得数据持续使用权限，增加了数据可及性的实现难度。

4.2 模型外部应用表现差，缺乏可解释性

在临床应用中，LLMs的精度和准确性对医生和患者至关重要。然而，LLMs训练数据可能存在偏见，会在生成结果时产生不准确或有偏倚的信息。这可能源于数据收集过程中的样本偏差、注释错误或模型在训练过程中学到的偏见。在临床医学中，这种偏见可能导致生成的建议或决策具有潜在风险或不准确性。AI模型过拟合[64]同样导致模型在训练时取得优异性能，但在外部应用时的预测结果差强人意。在医疗保健领域，模型解释性非常重要。医生和患者需要理解模型的推理过程和生成结果的依据。LLMs被认为是黑盒模型，难以解释其生成结果的逻辑和依据[65]，这降低了模型生成结果信任度，并影响其在实际应用中的可靠性和可接受性。

4.3 与医疗实际需求和应用场景脱节，落地困难

医疗领域具有高度复杂性和专业性，需要深入的医学知识和专业判断。大语言模型可能在通用的语言理解能力方面表现出色，但对医学领域特定知识和专业性的理解仍然有限。这使大语言模型应用于医疗场景中的决策支持和临床指导变得困难。LLMs辅助诊疗目的在于提升医生工作效率和质量，如何将LLMs整合至医生工作流程中也是一大难点，成功案例较匮乏，更多的AI模型还处于实验阶段[66]。在医疗实践中，决策和行动往往需要考虑多个因素，包括患者的个体差异、病情复杂性、实际可行性等，LLMs在评估实际需求和可行性方面可能面临挑战。

4.4 伦理问题

在临床医学中，公平性是一个重要的伦理原则，需要确保决策不会对某些人群造成不平等对待。因此，需要审查和纠正模型中的偏见，并确保其输出对所有患者都是公平和可信的。临床医学注重个性化治疗和关怀，需要考虑患者的特定情况、价值观和偏好。在使用大语言模型时，应注意避免将模型的推荐视为绝对标准，将其作为辅助工具，结合医生专业判断和患者个体情况进行决策。在医疗领域，错误决策可能导致严重后果，一旦发生必须追责。AI的黑箱问题导致无法找出错误预测或建议来源。LLMs应用带来责任和追溯性问题。当模型产生错误建议或决策时，如何确定责任和进行纠正是尚待解决的问题。医疗机构和开发者应建立机制，监测模型性能和安全性，并及时纠正和更新模型，以减少潜在风险和伦理问题。目前缺乏AI用于医疗领域所产生伦理问题的行业性指南，缺乏统一标准规范AI使用。美国食品药品监督管理局已经开始尝试建立评价AI安全性和有效性的指南[67]，英国国家医疗服务体系开始建立一系列指南用以评价AI驱动的技术产品有效性[68]，这也从侧面印证了AI应用的伦理困境。

5 展望LLMs对临床医学发展的影响

5.1 全方位提高医疗质量及其可及性

从长期来看，LLMs将医生和其他医疗从业人员从撰写报告和执行繁琐行政任务中解脱出来，更多地投入到临床工作中。为医学生和医生提供基于语言交互的教育和培训，帮助医学生更好地掌握医学知识和技能。ChatGPT等LLMs可以协助医生快速和准确地诊断病情、制定治疗方案，从而提供高质量医疗保健，减少患者因为多次就医而产生的费用。LLMs技术可以预测患者可能面临的潜在疾病风险。应用LLMs技术，通过对大量数据的学习和模式识别，帮助医生和患者及早发现潜在的健康问题。根据患者个性化特征和病情特点，提供具有针对性的治疗方案，同时AI还可以对患者健康状况进行追踪和预测，从而避免不必要的复诊和住院。LLMs可被用于医疗水平欠发达地区，帮助提高医生及其助手的能力，协助分诊，促进远程诊疗。通过在互联网上提供在线诊疗和远程医疗服务，LLMs可以帮助缩小城乡医疗差距，为更广大人群提供更好的医疗体验。

5.2 多维度挖掘组学数据为患者提供更多选择

LLMs在医学大数据挖掘方面的应用潜能广泛而多样，可以处理临床病理数据，帮助解读组织切片图像和病理报告，辅助病理学家进行疾病分类和预后评估。在基因组学数据方面，LLMs可以辅助分析基因表达和突变数据，帮助发现新疾病相关基因和生物标志物，并揭示基因调控网络。对转录组学数据的辅助分析可以揭示差异表达基因和通路，预测药物效应和治疗反应。在蛋白组学数据方面，LLMs可以帮助识别蛋白标志物和相互作用，揭示疾病机制。此外，LLMs还能帮助处理代谢组学数据和医学影像数据，帮助研究人员从代谢通路和影像特征中有所发现，并提供个性化医疗支持。LLMs技术可以帮助加速医学研究进程，例如在疾病预测、药物开发和治疗方案制定等方面。LLMs可在大规模化合物数据库中进行搜索和筛选，根据已知药物性质和目标疾病信息，提供潜在药物候选物，或者生成新的分子结构，预测其药理学性质，并评估其在特定疾病治疗中的潜在效果。这将有助于更快地发现新的治疗方法，为患者提供更好的治疗选择。

5.3 新一代AI模型全面颠覆医疗生态圈

以GPT-4、MidJournal等为代表的新一代AI模型，未来有望将医学图像分析和医学视频分析推向新高度。这些模型将结合深度学习、计算机视觉和医学知识，实现对超声、核磁共振、计算机断层扫描、病理图像和核医学影像等医学图像的自动解读和分析。进而自动检测异常区域、提取特征，并与大量医学数据库进行比对，提供更准确的疾病诊断和治疗建议。帮助医生更准确地定位病变、评估病情严重程度，并在早期发现疾病迹象，提供更早、更精准的诊断结果。提高疾病的治疗效果和预后，并为患者提供更个性化的医疗服务。同时，结合医学视频分析，新一代AI模型可以帮助医生解读手术过程、手术视频、诊疗操作视频等，识别关键步骤、评估手术操作的准确性，并提供实时建议和反馈。从而提高手术的安全性、准确性和效果，为医生提供更可靠的诊疗辅助工具，使医疗质量和手术结果得到进一步提升。LLMs等AI模型具有全面的图像和视频分析能力，其应用将推动临床医学诊疗模式和医疗生态圈产生全面变革。此类模型有潜力加速医学诊断和治疗过程，提高医疗资源利用效率，并促进个性化医疗发展。医生可以更专注于更复杂的病例和治疗策略决策，通过应用LLMs可提供更准确、个性化的医疗建议，并为患者提供更全面的关怀和治疗方案。

6 结语

以ChatGPT为代表的LLMs在临床诊疗、随访、护理、医学教育、医院管理等诸多健康相关领域具有应用潜能，具有重塑医疗卫生行业服务模式的能力。虽然面临技术、伦理、法律和社会问题等诸多难题，但ChatGPT的问世已经开启医疗领域重大变革，唯有紧随技术发展趋势，方能乘势而上，有所成就。