生成式人工智能GPT-4驱动的中药处方生成研究Δ

2023-12-13 03:45陈祺焘倪璟雯高晓涵夏丽珍三明市中西医结合医院药学部福建三明365001

中国药房 2023年23期

陈祺焘，倪璟雯，徐君，高晓涵，夏丽珍（三明市中西医结合医院药学部，福建三明 365001）

中医药作为中国传统文化的重要组成部分，在保障人民健康方面发挥着不可替代的作用。随着“健康中国”行动的深入推进，人民群众对健康美好生活需求的提升，中医药被赋予了更高的期望[1]。一方面，中医药在疾病预防、治疗和康复方面独具优势：中医药强调个体化辨证论治，可根据不同病因、病机和个体差异，制定有针对性的治疗方案；中医药还重视整体调理，通过调节人体阴阳、气血等方式来提高机体免疫力，从而达到预防疾病、延缓衰老、提高生活质量的目的。另一方面，中医药产业也面临着巨大的发展机遇：当前，随着人民群众对健康需求的提升，中医药市场需求不断增长；同时，中医药在科技创新、标准化建设、产业升级等方面也取得了重要进展，逐步实现了从传统到现代的转型升级，各种中药饮片被广泛应用于临床的诊疗过程中，受到了广大患者与医生的认可[2]。

西医学习中医（简称“西学中”）是一项为了补充中医从业人员，通过为西医医生提供中医理论基础培训而使西医医生能够开展中医药诊疗的培训制度，发展至今已有60 余年的历史。但由于西医医师对中医知识学习不足，使得中药或中医护理技术滥用的情况非常普遍。有学者通过对2018年上海市某社区卫生服务中心开具的中药门诊处方进行分析发现，不合理处方超过总处方的20%[3]。GPT-4（generative pre-trained transformer 4）是一种基于Transformer 架构的生成式人工智能（AI generated content，AIGC），其强大的逻辑自洽和数据分析能力使其一面世立刻成为各个领域关注的焦点。本研究准备借助GPT-4赋能，拟通过抽取国内公开的常见中药应用案例，采用对话问答的方式由GPT-4进行中药处方生成测试，再由中医药学领域的专家对生成结果进行评分，同时进行图灵测试，评估GPT-4 模型是否具有与人类智能相当的能力，为AIGC 赋能中医药行业提供一种研究思路。

1 案例来源

由研究者随机抽取《2023年春季成人流行性感冒中医药防治专家共识》[4]、《咳嗽中医诊疗专家共识意见（2021）》[5]、《毒蛇咬伤中医诊疗方案专家共识（2016版）》[6]收录的案例，并排除临床表现的中医诊断证型与用药存在较大争议的案例（如同一临床表现被不同专家判断为虚寒、虚热两个相反证型的案例）。

2 研究方法

2.1 研究框架

本研究主要分为3个部分：首先，使用2020年版《中国药典》和中国中医药出版社出版的第5版《中药学》为语料对GPT-4 模型进行训练；然后，使用GPT-4 模型，根据“1.1”项下抽取案例的临床表现进行中药处方生成；最后，以人工盲评的方式对模型生成的中药处方进行评价。

需要注意的是，考虑到GPT-4原生训练数据来自于2021年及之前的互联网数据，为进一步研究GPT-4模型的处方生成能力，本次研究将把基于GPT-4开发的实时联网模型（简称“联网模型”）一同纳入处方生成研究，并将处方生成结果一同参与盲评，最后将GPT-4模型和联网模型生成结果的盲评得分进行对比。

2.2 模型训练

将2020年版《中国药典》和第5 版《中药学》的文字内容发送至GPT-4模型以及联网模型，对模型接受程度进行确认并针对处方的格式进行命令限制，以提升模型对中药饮片和处方的理解分析能力。

2.3 处方生成

考虑到评价涉及用药安全性，本研究采用的专家共识处方应包含每种中药饮片的具体剂量，病种涉及咳嗽、蛇伤等。

随机抽取30个专家共识内的用药案例（均为口服水煎剂），由GPT-4 模型以及联网模型根据案例的临床表现生成处方。

2.4 处方评价及图灵测试

GPT-4 模型、联网模型生成的中药处方和专家共识处方由三明市中西医结合医院3名具有副高级及以上职称的中医师/中药师根据处方安全性、适宜性进行盲评（每张处方的最终得分为3名专家的平均分），并判断每张处方是否为人工生成[7]。考虑到相应法规及医学伦理方面的要求，GPT-4 模型及联网模型生成的中药处方未使用临床试验进行测评。本研究主要根据用药安全性、适宜性（即根据“十八反十九畏”、超剂量使用、“先煎后下”等标注、对症情况）由具有副高级及以上职称的专家对生成处方和共识处方进行评分（评分标准见表1）。为保证评分的准确性，在评分时，专家不知道处方是由模型生成的或是人工生成的（即盲评）。

表1 专家评分标准

专家对处方进行评分时，同时需要判断该处方是否为人工生成的处方（即图灵测试）。如果超过一半的模型生成处方被错误判断或模型生成处方被错误判断的比例高于人工生成处方，则说明自动生成的处方对人类有足够的迷惑性。该测试用于评估GPT-4 模型是否具有与人类智能相当的能力。

2.5 统计学方法

采用SPSS 26.0 软件对数据进行统计分析[8]。对各生成处方盲评所得分数进行正态性检验，并分别将专家共识处方和GPT-4生成处方、联网模型生成处方盲评分数进行配对t检验分析。检验水准α＝0.05。

3 结果

3.1 数据正态性检验分析

本次研究共纳入30个临床案例，各类型处方通过盲评所得分数的正态性检验见表2。

表2 数据正态性检验分析

由表2 可见，Shapiro-Wilk 检验结果显示，专家共识处方、GPT-4生成处方、联网模型生成处方具备正态性分布特质（P＞0.05）。

3.2 专家共识处方和GPT-4生成处方比较

本次研究共使用30个临床案例，专家共识处方的平均分为3.76分，略高于GPT-4生成处方的3.62分。通过配对t检验分析可知，专家共识处方和GPT-4 生成处方的平均分比较，差异无统计学意义（P＞0.05）。结果见表3。

表3 专家共识处方和GPT-4 生成处方的配对t 检验分析结果

3.3 GPT-4生成处方和联网模型生成处方比较

本次研究共使用30个临床案例，GPT-4生成处方的平均分为3.62 分，略高于联网模型生成处方的3.50 分。通过配对t检验分析可得，GPT-4生成处方和联网模型生成处方的平均分比较，差异无统计学意义（P＞0.05）。结果见表4。

表4 GPT-4 生成处方和联网模型生成处方的配对t 检验分析结果

3.4 图灵测试结果

本研究共纳入30 个案例，根据上述案例形成了90个处方（分为专家共识处方、GPT-4 生成处方、联网模型生成处方各30个），由3位专家判断这90个处方是否为人工生成的处方。图灵测试结果（表5）显示，270个处方中，共有138 个模型生成处方被错误判断，占比为51.11%（＞50%），其中GPT-4 生成处方被错误判断的占比达30.37%（＞30%），结合上文“3.2”项下结果发现，GPT-4模型生成处方已经具备一定的专业性。

表5 图灵测试结果

4 讨论

4.1 如何提高GPT-4的学习、完善能力

在使用GPT-4和联网模型进行处方生成的过程中，GPT-4 体现出强烈的原则性和强大的学习能力，主要体现在：（1）要求提供蛇伤处方时，虽然研究者已经发出限制命令，要求GPT-4 模型仅提供中药名称和单次剂量，但GPT-4模型仍会发出警告，要求及时就医；（2）在放开限制命令后，GPT-4 模型不仅会对处方中每个组分进行方解，而且在生成处方的过程中，会逐渐对先煎后下等特殊处理方式进行标注，其生成处方的评分结果已经非常接近专家共识处方。与此同时，已有深度学习模型介入影像学诊断的相关研究，其模型评分结果已经超过了低年资影像科医生的评分结果[9]。随着AIGC 介入医学领域的深度和广度不断扩大，要进一步提高生成式模型医学水平，需要开展以下几项工作：（1）海量病例语料训练。本次测试的病例主要为咳嗽等常规案例，未考虑到患者性别、年龄、人种等因素，对于临床诊断等方面的内容有待进一步探索。（2）算法优化。临床医生年龄分布较广，对于药品名称、临床症状的口语化描述问题较为严重。这一方面需加强规范医生的病历书写，另一方面也需对AIGC算法进行优化，对口语化内容进行识别。

4.2 联网模型质量问题

本次处方评分中，联网模型生成处方的平均分最低。通过对联网模型数据来源进行分析发现，其中混杂了大量非医学类专业的网站数据，对联网模型的处方生成造成了极大的干扰。对互联网医学类语料进行规范标识和整理，一方面能够提高模型的训练质量，另一方面还能够降低群众通过互联网就医的学习成本。对中文医学语料进行标注整理是未来生成式医学模型发展的必经之路，同时此项工作对互联网问诊、分级诊疗、医学科普有着极大推动作用。

4.3 临床方向AIGC研究的进一步探索

本研究考虑到患者权益问题，并未对生成处方进行临床试验，同时为了保护患者隐私，本研究采用的是公开的专家共识所收录的临床案例。如果要进一步发展药事管理方向的AIGC，有以下两点尚待解决：（1）诊疗权责以及医学伦理问题[10]。目前未有相关的法律法规对药事管理方向AIGC所生成的处方进行明确的权责划分。生成式模型算法的程序缺陷，医生、药师对生成处方的审核失误都会对患者造成不可逆的伤害。如何保障患者（特别是妊娠、低龄、残疾等弱势患者群体）权益，患者权益的保障方应该是模型公司还是医院（即责任归属）等，均需要有明确的法律法规进行规范；对于紧急情况下AIGC介入医学研究的程度和范围也需要伦理方面的专家进行研探。（2）公民隐私及遗传学信息保护问题。随着生成式模型的发展，AIGC 进入医院药事管理领域是可预见的，但因算力需求等原因，该技术目前主要基于互联网使用，尚无与GPT-4 具有同等能力的本地化AIGC。欧盟在使用GPT模型的过程中已发现隐私及机密泄露等问题，遂将人工智能纳入安全工作研究[11]。医疗信息涉及公民隐私和我国遗传学信息保护，关系到国家安全，AIGC本地化部署是解决以上问题的唯一途径。另外，与此关联的还有本地化部署的设备费用、运营维护、医疗机构系统适配对接等问题。

综上，本文使用的GPT-4 和基于GPT-4 开发的实时联网模型较好地学习了《中国药典》和《中药学》的内容，其生成的处方在中药处方评分环节取得了较为出色的成绩，与专家共识处方较为接近。临床科室医生在使用中药时，要求医生对各种中药药性有较高的理解能力，目前通过西学中培训的医生对相关知识的储备仍有不足，中药处方质量有待提高。本GPT-4模型在生成处方的过程中自动为处方标注方解及参考来源，减少了医生的学习成本和沟通成本，为临床中药的合理使用提供了技术支撑。实现医院中医药方向生成式模型的落地，还需要做好以下几点：（1）在相关法律法规的框架下收集大量的中医处方和相关病症数据，包括但不限于病历、医生处方和临床诊断。（2）收集到的数据需要进行清洗和标准化处理，以使其能适用于模型训练。（3）部署模型后，需要不断地监督模型的运行，并根据反馈进行调整；若发现模型生成处方有误，需及时对模型进行调整或重新训练。