钟锦佳,李文涛,黄亚芳,吴浩
100069 北京市,首都医科大学全科医学与继续教育学院
近年来,随着以信息技术和人工智能技术为代表的新兴技术的迅速发展,初级保健服务和基本医疗在数字化、智能化、协同化等方面不断发展、完善[1-3]。与专科医疗机构相比,初级保健服务机构常规登记数据、区域健康医疗数据、健康档案数据、患者自行报告的数据及移动设备采集的数据体量更为庞大,基于这些数据的临床研究报告及文献数量呈现逐渐升高趋势。在初级保健研究领域,学者开始尝试借助大数据和人工智能技术,通过机器学习构建预测模型,以辅助医疗决策[4-6]。
广义上的机器学习是指使用计算机系统对非线性关联性和复杂交互作用的假设进行数学模型拟合过程[7]。近年来,随着初级保健领域医疗数据的不断增多、数据采集系统的逐步规范及算法的优化,通过机器学习开发预测模型相关研究迅速发展,并已有经过验证的预测模型应用于基层医疗和管理实践中[8-9]。基于机器学习预测模型研究的设计与方法学质量对医疗实践具有重要的指导意义[10-11],但目前在初级保健领域尚缺少基于机器学习预测模型研究相关设计与方法学质量评价研究。本研究旨在系统总结、分析初级保健领域基于机器学习预测模型研究的设计特征与方法学质量,以期为人工智能技术在基层的科学、合理应用提供参考。
本研究已在国际前瞻性系统评价注册数据库(International Prospective Register of Systematic Reviews,PROSPERO)注册,注册号:CRD42022358128,遵循范围综述报告的PRISMA扩展版清单(PRISMA extension for scoping reviews,PRISMA-ScR)进行报告[12]。
1996年,STARFIELD[13]对初级保健研究做出定义:在基本保健的环境背景中开展的研究即为初级保健研究,本研究参照该定义对拟纳入研究进一步规定如下:数据来源于初级保健/基层医疗卫生机构,或构建的预测模型将应用于初级保健/基本医疗领域。
文献纳入标准:(1)应用机器学习方法进行数据处理或模型构建;(2)有开发、验证或更新预测模型的过程;(3)数据来源于初级保健/基本医疗机构,或构建的预测模型将应用于初级保健/基本医疗领域;(4)语种为中文或英文。文献排除标准:(1)综述、系统评价、会议摘要、研究方案;(2)数据来源于急诊室、ICU或普通住院病房;(3)未报告机器学习方法;(4)动物研究。
采用主题词与自由词结合方式进行检索,通过检索逻辑词“OR”和“AND”进行自由组合,并针对不同数据库进行调整(不同数据库文献检索策略扫描本文首页二维码查看附录1);采用计算机检索PubMed、Embase、中国知网、万方数据知识服务平台建库至2023-02-21发布的相关文献,同时手工检索纳入文献的参考文献。英文检索词包括:primary health care,general practice,family practice,machine learning,deep learning,supervised machine learning,unsupervised machine learning,support vector machine,prediction model,risk model;中文检索词包括:基本医疗、初级保健、全科医生、全科医学、机器学习、随机森林、支持向量机、预测模型、风险评分、风险模型。
文献筛选:将检索到的文献导入EndNote 20软件并使用重复识别工具剔除重复文献。由2名研究人员严格按照文献纳入与排除标准先对文题、摘要进行初步筛选,再根据初步筛选结果进行全文阅读并最终决定是否纳入,如遇分歧则讨论解决或征询第3名研究人员意见。
数据提取:由2名研究人员共同参与设计文献资料提取表并独立提取相关数据,主要包括纳入文献的基本特征、预测模型类型、样本量、缺失值处理方法、机器学习算法类型、模型性能评价指标及预测效能、模型验证方法等。
偏倚风险评估:由2名经过培训的研究人员根据预测模型偏倚风险评分工具(PROBAST)进行偏倚风险评估,如遇分歧则讨论解决或征询第3名研究人员意见。PROBAST共涵盖4个领域(分析、结果、预测因子、研究对象)20个问题,各领域均以“低风险”“高风险”“不清楚”进行评价,如至少1个领域被判定为高风险,则总体评价为高风险;如至少1个领域被判定为不清楚,而其他领域为低风险,则总体判定为不清楚;如全部领域被判定为低风险,但预测模型建立后却没有进行外部验证,则总体仍判定为高风险,而若该预测模型是基于大样本数据建立的并进行了某种内部验证则总体判定为低风险[14]。
本研究采用叙述性总结和描述方法,无定量综合分析,结果以频率、百分比、中位数及四分位数间距(interquartile range,IQR)表示,并通过Wilson评分连续矫正区间计算95%CI。
计算机检索四大数据库共获得6 070篇文献,手工检索纳入文献的参考文献共获得34篇文献,经EndNote 20软件及手工去重共剔除文献732篇,经阅读文题、摘要后排除明显不符合研究主题的文献4 969篇,经阅读全文并结合文献纳入与排除标准排除文献373篇,最终纳入30篇文献(纳入文献扫描本文首页二维码查看附录2)进行范围综述,涉及106个预测模型。本研究文献筛选流程见图1。
图1 文献筛选流程Figure 1 Flowchart of literature screening
纳入的30篇文献发表时间:2021-2023年17篇,2010-2020年13篇,无2010年以前发表文献;地区分布:美国8篇,英国7篇,瑞典、德国各3篇,荷兰2篇,巴基斯坦、比利时、芬兰、韩国、加拿大、罗马尼亚、以色列各1篇;研究主题:呼吸系统疾病6篇,肿瘤4篇,门诊预约3篇,其他17篇(精神疾病、糖尿病、脑卒中、心血管疾病各2篇,退伍军人10年全因死亡率、传染病、儿科疾病、感染性疾病、骨质疏松、声带疾病、脂肪肝、血液系统疾病、运动系统疾病各1篇);预测模型类型(开发和/或验证):开发和内部验证20篇,开发和内、外部验证5篇,仅开发3篇,仅外部验证2篇,详见表1。
表1 纳入文献的基本特征(n=30)Table 1 Basic characteristics of the included literature
样本量:纳入的30篇文献样本量:<1 000者4篇,1 000~2 999者6篇,3 000~9 999者4篇,10 000~29 999者5篇,30 000~300 000者5篇,>300 000例6篇,共26篇文献样本量>1 000(占86.67%,95%CI=68.36%~95.64%)。16篇样本量>10 000的文献中有11篇数据来源于电子健康记录(eletronic health record,EHR)或电子医疗记录(eletronic medical record,EMR)。
缺失值处理方法:纳入的30篇文献中使用机器学习方法处理缺失值者7篇,其中使用梯度提升机(gradient boosting machine,GBM)、极端梯度提升(eXtreme gradient boosting,XGBoost)者各2篇,使用贝叶斯网络、k-近邻算法(K-nearest neighbor,KNN)者各1篇,同时使用XGBoost和轻量梯度提升机(light GMB)者1篇;使用多重插补方法处理缺失值者3篇;2篇文献中涉及的连续变量使用均值表示,分类变量使用“未报告或拒绝报告”替代;2篇文献未报告缺失值处理方法;使用简单插补方法、不处理缺失值、不纳入不完整记录者各1篇;其余13篇文献未报告缺失值。
机器学习算法类型:纳入的30篇文献所涉106个预测模型中65个使用基于树的机器学习算法,其中随机森林使用频率最高、GBM次之;20个使用回归模型,其中最大似然逻辑回归使用频率最高;9个使用神经网络,6个使用支持向量机,使用贝叶斯网络、k-邻近算法者各2个,使用朴素贝叶斯、超级学习者集成者各1个,详见表2。
表2 纳入文献所涉预测模型的机器学习算法类型(n=106)Table 2 Types of machine learning algorithms of the included prediction models
模型评价指标:在区分度方面,纳入的30篇文献所涉106个预测模型中61个使用受试者工作特征(ROC)曲线下面积(AUC)或一致性(C 统计量)作为评价指标(占57.55%,95%CI=47.57%~66.97%);在校准度方面,仅14个报告了校准度指标(占13.21%,95%CI=7.67%~21.50%),其中校准图14个(占13.21%,95%CI=7.67%~21.50%),校准斜率6个(占5.66%,95%CI=2.32%~12.41%),校准截距6个(占5.66%,95%CI=2.32%~12.41%);在综合评价方面,47个使用准确度(占44.33%,95%CI=34.80%~54.29%),36个使用F1分数(占33.96%,95%CI=25.22%~43.88%),7个使用Brier分数(占6.60%,95%CI=2.92%~13.60%)。
模型预测效能:纳入的30篇文献所涉106个预测模型多数区分度良好,AUC中位数为0.79(IQR介于0.74~0.83,全距介于0.63~0.92),其中内部验证的AUC中位数为0.79(IQR介于0.73~0.82,全距介于0.63~0.92),外部验证的AUC中位数为0.83(IQR介于0.78~0.84,全距介于0.71~0.92);在校准度方面,校准斜率的中位数为1.03(IQR介于1.00~1.06,全距介于0.97~1.18),校准截距中位数为0.02(IQR介于0.00~0.03,全距介于-0.01~0.09)。
模型验证方法:在内部验证方面,纳入的30篇文献中19篇(占63.33%,95%CI=43.90%~79.45%)使用了交叉验证,是最常用的模型验证方法;6篇使用了简单随机拆分验证(占20.00%,95%CI=8.40%~39.13%);3篇仅进行模型开发而无内部验证(占10.00%,95%CI=2.62%~27.68%)。在外部验证方面,纳入的30篇文献中仅7篇(占23.33%,95%CI=10.63%~42.70%)使用独立数据库进行了外部验证。
纳入的30篇文献所涉106个预测模型中总体评估为低风险者13个(占12.26%,95%CI=6.95%~20.40%),高风险者92个(占86.79%,95%CI=78.50%~92.33%),不清楚者1个(占0.94%,95%CI=0.05%~5.90%),见图2(纳入文献所涉预测模型的偏倚风险评估结果扫描本文首页二维码查看附录3)。预测模型的高偏倚风险主要来自分析领域,常见于连续型预测因子和分类型预测因子是否被恰当地处理、出现缺失值的研究对象是否被恰当地处理、是否恰当地评估了相应的预测模型效能测量指标、预测模型过度拟合和预测模型效能上的乐观偏差是否被恰当地考量和处理[14]。
图2 基于PROBAST的预测模型偏倚风险评估结果Figure 2 Risk of bias assessment results of prediction models based on PROBAST
本研究通过范围综述与文献计量方法系统分析了初级保健领域基于机器学习预测模型研究的设计特征与方法学质量,结果显示:(1)近3年来初级保健领域基于机器学习预测模型研究逐渐增多,研究主题主要涉及呼吸系统疾病、肿瘤、门诊预约等;(2)106个预测模型在样本量、缺失值处理方法等方面存在较大差异;(3)基于树的机器学习算法在算法类型使用最多,其中随机森林使用频率最高、GBM次之,二者约占全部机器学习算法类型的1/2;(4)多数预测模型区分度良好,对区分度的报告率较高,但对校准度的报告率较低;(4)大部分预测模型未进行外部验证,总体偏倚风险较高。
本研究结果显示,纳入的30篇文献中有26篇文献样本量>1 000,有16篇样本量>10 000,其中11篇数据来源于EHR或EMR,总体上样本量偏大,分析其原因如下:(1)初级保健服务机构常规登记数据、区域健康医疗数据、健康档案数据等体量庞大;(2)基于机器学习预测模型研究需要大量的训练集数据进行拟合等。分析本研究纳入的30篇文献所涉106个预测模型总体偏倚风险较高的原因为:与回归模型类似,基于机器学习预测模型研究在方法学、报告方面也存在缺失值处理方法、模型性能评价指标及预测效能、模型过度拟合报告不充分及未使用独立数据库进行外部验证等问题[15-16]。回归模型常使用均值、众数进行插补以处理缺失值[17-18],基于机器学习预测模型研究缺失值处理方法更为丰富,可以通过GBM、贝叶斯网络、KNN等机器学习算法直接处理缺失值[19-21]。SAVAGE等[22]研究指出,GBM包括一种内置输入缺失数据的方法,可从既有数据中推断缺失数据,并通过学习集成中的每个决策树节点与既有数据推断如何处理缺失数据。
本研究纳入的多数文献数据来源于EHR或EMR,也有一些文献数据来源于区域健康医疗数据库,虽然部分文献来源数据可能并不是为了研究目的而采集或测量的,但本研究设置了较严格的文献纳入与排除标准,因此,其在“研究对象”领域的偏倚风险评估结果为低风险。需要指出的是,在初级保健和社区卫生服务领域,大量真实场景下基于常规医疗服务而获得的数据对于基本医疗和初级保健研究而言既是机遇也是挑战:学者虽然可以较方便地获得大样本量数据,但可能会遭遇数据采集不规范、数据缺失、患者失访、各个数据收集系统协调性能与融合不足等问题[23-24]。机器学习方法利用数据和经验使计算机系统自动学习和改进,可基于庞大的训练集生成越来越可靠的预测结果,且预测结果的可靠性仍主要取决于训练集的数据质量和样本量[25]。随着大数据技术、EMR的迅速发展,医疗数据的记录越来越规范,机器学习方法在处理EMR及提取数据方面潜力巨大,未来初级保健领域可能会出现更多的基于机器学习预测模型研究。因此,今后基于社区卫生服务机构收集医疗数据并开展研究时可进一步完善采集数据的真实性与规范性,并规范数据纳入与排除标准、数据清洗等,而在模型开发及验证过程中需注重样本量、缺失值处理方法、模型性能评价指标及预测效能、模型验证方法等,以进一步降低初级保健领域基于机器学习预测模型研究报告的偏倚风险,促进今后以机器学习为代表的人工智能技术在初级保健的高质量应用。
本研究局限性:(1)提取的数据限于纳入文献的报告,若纳入文献未报告研究所需信息则可能会在一定程度上产生信息偏倚;(2)PROBAST是基于回归模型研究而开发的,而基于机器学习预测模型研究尚缺乏专门的报告条目指引,不利于进行数据提取及方法学质量评价[26];(3)纳入文献语种仅限中文与英文,纳入文献数量有限,并可能会在一定程度上产生选择偏倚。
综上所述,本研究通过范围综述与文献计量方法系统分析了初级保健领域基于机器学习预测模型研究的设计特征与方法学质量,并通过对初级保健研究进行界定、明确研究对象(是基于机器学习预测模型,而非针对人工智能这一较宽泛的概念)等分析了目前初级保健领域基于机器学习预测模型研究的设计特征与方法学质量,结果发现近3年来初级保健领域基于机器学习预测模型研究逐渐增多,研究主题主要涉及呼吸系统疾病、肿瘤、门诊预约等;预测模型在样本量、缺失值处理方法等方面存在较大差异,多数预测模型区分度良好,但大部分预测模型未进行外部验证,总体偏倚风险较高。
作者贡献:钟锦佳负责研究的实施与可行性分析、数据收集与整理、结果分析与解释、撰写论文;李文涛负责研究的构思与设计、数据收集与整理;黄亚芳负责研究的构思与设计、修订论文、文章质量控制及审校,对文章整体负责;吴浩负责研究的构思与设计、研究实施的监督与管理。
本文无利益冲突。