社区老年衰弱风险预测模型系统评价

2023-04-08 03:39:28程俊宁刘金旭庄一渝劳月文

中国现代医生 2023年6期

程俊宁，刘金旭，庄一渝，劳月文

1.浙江中医药大学护理学院，浙江杭州 310053；2.浙江大学医学院附属邵逸夫医院护理部，浙江杭州 310016

衰弱是指个体脆弱性增加及保持自我内在平衡能力下降的临床综合征，其特征是多个系统的生理功能下降，从而导致机体对压力源的敏感性增加[1-7]。衰弱会使老年人群面临更高的不良后果的风险，包括跌倒、住院、残疾和死亡等，严重影响其生活质量，还会导致家庭负担的加重和社会医疗费用的增加[8,10]，但衰弱在一定程度上是可逆的，特别是在早期阶段[1]。

因此，早期识别衰弱高危人群是优化衰弱管理的重点。风险预测模型支持疾病风险的计算，可在不良事件发生之前识别高风险的个体，划分不同的风险层次，进而实现精准预防，提高医疗的质量和效率[11]。目前国内外已有多项研究开发、验证社区老年衰弱预测模型，但文献质量不一。因此，本研究系统地分析、评价社区老年衰弱风险预测模型的研究，以期为公共卫生从业者和卫生保健人员选择合适的风险预测模型预防患者发生衰弱提供参考。

1 资料与方法

1.1 文献纳入和排除标准

①纳入标准：a.研究类型为队列研究、病例-对照研究和横断面研究；b.研究对象为年龄≥60 周岁的社区老年人，其种族、国籍、病程不限；c.研究内容为采用多变量设计的衰弱风险预测模型，但不包括预后和进展模型。②排除标准：a.仅涉及衰弱危险因素，未构建衰弱风险模型的研究；b.会议摘要、综述、述评或基于系统评价、Meta 分析建立模型的研究；c.没有使用经过信效度检验的工具评估结局指标；d.无法获取全文或信息不完整；e.非中英文文献。

1.2 搜索策略

计算机检索PubMed、EMbase、Web of Science、The Cochrane Library、CBM、VIP、WanFang Data和CNKI 数据库，搜索关于社区老年人衰弱风险预测模型的研究。检索时限均为建库至2022 年8 月20日。此外，追溯纳入文献的参考文献，以补充获取相关文献。英文检索词包括：frailty、frailty syndrome、frail elderly、frailty index、asthenia、prediction model、prognostic model、risk stratification model、model、risk factor、predictor、aged、elderly、geriatrics、gerontology、communit、community dwelling、community-based participatory research、community participation、community involvement；中文检索词包括：衰弱、虚弱、衰弱综合征、衰弱指数、预测模型、模型、危险因素、预测因子、老年人、老人、老年、老年医学、社区、社区医学。

1.3 文献筛选和资料提取

由2 名研究人员独立筛选文献、提取资料并交叉核对。如有分歧，则通过讨论或与第三方协商解决。文献筛选时首先阅读文题，在排除明显不相关的文献后，进一步阅读摘要和全文以确定是否纳入研究。确定纳入文献后，本研究基于预测模型研究系统评价的关键评估和数据提取清单（critical appraisal and data extraction for systematic reviews of prediction modelling studies，CHARMS）[12]，制订了标准化表格用于数据提取。资料提取内容包括第一作者、发表年份、研究地区、研究设计类型、研究对象、随访时间、预测结果、候选变量、样本量、缺失数据、建立模型的方法、最终包含的预测因子、模型呈现形式、模型的性能和验证方法等。

1.4 偏倚风险和适用性评价

由2 名研究员独立评价纳入研究的偏倚风险和适用性，并交叉核对结果。偏倚风险和临床适用性使用预测模型研究的偏倚风险评估工具（prediction model risk of bias assessment tool，PROBAST）[13]进行评估。偏倚风险的评估涵盖了4 个领域：研究对象、预测因子、结果和分析，适用性评估涵盖3 个领域：研究对象、预测因子和结果。

2 结果

2.1 文献筛选流程和结果

初筛共获得相关文献篇，经逐层筛选，最终纳入文献10 篇[14-23]，包括8 篇[14-18,21-23]为模型的开发研究，2 篇[19-20]为模型开发及验证研究。文献的筛选流程及结果见图1。纳入文献的基本特征及预测结局见表1。

表1 纳入研究的基本特征

图1 文献筛选流程及结果

2.2 纳入模型的一般情况

共纳入10 个社区老年人衰弱预测模型，其中7个[14-17,19,20,22]为英文研究，3 个[18,21,23]为中文研究。研究设计类型方面，7 个[14,16,18-21,23]研究为前瞻性队列研究，3 个[15,17,22]为横断面研究。最早的模型[14]发表于2012 年，近3 年共发表5 个研究[19-23]。样本总量为373～5076 例，结果事件数为49～1370 例。5个[15,17,18,20,23]研究采用衰弱表型量表（frailty phenotype，FP），2 个[16,21]研究采用衰弱量表，1 个[22]研究采用蒂尔堡衰弱指标，1 个[14]研究采用日文版临床衰弱水平量表，1 个[19]研究采用KY 检查表。

2.3 模型构建情况

10个模型研究中，候选因子数量为15～80个。2个[19-20]研究的结果事件数与协变量个数比（number of events per variable，EPV）超过20，1个[15]研究未报告协变量个数，6个[14,16-18,21,23]研究小于10，还有1个研究[22]介于10～20。10个研究中有8个[15-16,18-23]统计分析时纳入了所有对象，其中仅1个研究[19]报告了缺失数据的样本量及处理方式，1个研究[20]对缺失数据进行了多重插补，但未报告缺失数据的数量，6项研究[15,16,18,21-23]未报告缺失数据。7个[14,16,18-22]研究采用了Logistic回归分析，1个[15]研究未报告建模方法，1个[17]研究应用了Logistic回归模型与神经网络模型，1个[23]研究采用了Logistic回归模型并与随机森林、支持向量机、梯度提升算法4种方法进行比较，见表2。

表2 纳入模型的性能和预测因子

2.4 模型性能与结果

纳入研究主要是通过受试者工作特征曲线下面积（area under the curve，AUC）及Hosmer-Lemeshow检验（P>0.05）对模型性能进行评价，10 个[14-23]研究均报道了模型的区分度（AUC 为0.695～0.940），除了Di Bari 等[15]的研究外，其他模型AUC 均>0.7，预测效能较好。4 个[18-21]研究对模型的校准度进行了评价，其中 3 个[18-19,21]模型均采用了 Hosmer-Lemeshow 检验（H-L），1 个[20]研究应用了校准曲线评价模型的校准度。2 个研究[19,20]进行了模型的内部验证，其中Abe 等[19]采用了5 折交叉验证的方法，得到的AUC 值与之前模型接近；Dong 等[20]应用Bootstrap 方法，重复抽样1000 次，得到的AUC 值与之前模型一致，2 个模型的可重复性较强。在外部验证方面，1 个[20]研究采用了随机拆分验证，外部验证的模型表现出的较好的区分度（AUC=0.853），校准曲线在原先模型和验证模型中显示出良好的一致性。1 个[20]研究报道了临床决策曲线（decision curve analysis，DCA），但文中未展示DCA。6 个[17-22]研究报告了模型的呈现方式，其中2 个[20,22]为列线图，1个[19]为风险分层，3 个[17-18,21]为预测公式。

2.5 纳入研究的偏倚风险与适用性评价

纳入的10 个[14-23]预测模型中，研究对象偏倚风险均处于较低水平，且均对预测因子的测量方法进行了详细描述，偏倚风险较低。9 个[14-20,22,23]模型的结果部分偏倚风险较低。但在分析领域中，除了Dong等[20]的模型外，其余[14-19,21-23]模型均处于高偏倚风险，通常是因为样本量的大小和缺失数据领域偏倚风险较高。大多模型的样本量不足，用于开发模型的数据集中的EPV<10。4 个研究将连续型变量转换为>2 个类别的变量，导致预测模型不够准确，偏倚风险较高。在缺失数据方面，9 个[14-18,20-23]研究均未对缺失数据的数量进行报道，1 个[19]研究报道了缺失值，但并未遵循PROBAST 的建议对缺失值进行多重插补，而是直接删除，另外1 个[20]研究采用了多重插补，但未报告缺失数据的数量。此外，1 个[15]研究未报告变量筛选的统计方法，6 个[14-17,22-23]研究未对校准度进行评价，8 个[14-18,21-23]研究未采用内部验证，9 个[14-19,21-23]研究未采用外部验证，这也是分析领域偏倚风险高的重要原因。在适用性上，所有模型的适用性均较高。从总体来看，9 个[14-19,21-23]研究均不符合PROBAST 标准，1 个[20]研究达到标准。

3 讨论

近年来，关于社区衰弱预测模型逐渐增多，但研究质量有待评估。本研究纳入的10 个[14-23]研究中，除了Dong 等[20]的模型外，其余研究偏倚风险均偏高，主要原因在于分析领域，如样本量较少、缺失数据的报告、对连续和分类变量的处理，以及缺乏内部或外部验证等。

每个自变量的事件数（events per variable，EPV）是用结局变量中较少组的数量除以自变量的个数，即衰弱发生的人数除以自变量，而此变量并非是最终模型包含的预测变量的数值，而是预测模型构建阶段所考虑变量的总数，即候选变量[24]。除了1 个[15]研究未报告候选变量导致无法计算EPV外，只有2 个[19-20]研究EPV>20，其余6 个[14,16-18,21,23]研究均<10，1 个[22]研究介于10～20。EPV 的经验准则是至少为10，低于10 的研究可能存在过度拟合或拟合不足，导致偏倚风险增高，但Van 等[25]研究表明该阈值没有科学依据，建议EPV 至少为20，从而避免模型的过度拟合，与PROBAST 条目类似，而对于采用机器学习技术开发的预测模型通常需要更多的EPV（>200）以最大程度减少过度拟合。刘金炜等[23]研究采用多个机器学习方法，但EPV 仅1.525，导致分析领域高偏倚风险。

许多研究[14-18,21-23]没有描述缺失数据的信息，也没有说明是否对缺失数据进行统计学处理。缺失数据会影响到数据分析的质量和模型的准确性，因而对缺失数据的预处理较为重要。本次纳入的10个研究中，仅Dong 等[20]的研究对缺失数据进行了多重插补。虽然Abe 等[19]研究完整地报告了缺失数据的数量及处理方式，但其采取方法是直接删除缺失值，可能会影响预测变量与结局变量之间的关联，导致构建的模型性能存在偏差。在PROBAST的条目中，强调对于缺失数据不应排除，应进行多重插补[13]。

纳入的10 个模型中，除了Di Bari 等[15]未报告模型的构建方法，其余均采用Logistic 回归分析的方法。Closs 等[17]应用NN 和Logistic 回归分析两种建模方法，并对比预测能力，发现区分度均>0.7，预测效能较好。NN 是指通过计算机模拟人的神经元传递及处理信息的方式而构建的一种数学模型，其建模的优越性已在多个研究中得到证实[26-27]。刘金炜等[23]采用了Logistic 回归分析、随机森林、支持向量机、梯度提升算法4 种方法进行建模，并比较四者之间的预测性能，结果显示Logistic 回归分析模型的预测能力最强，但文中未对其他3 种建模方式进行详细描述，预测能力仅局限于AUC 值比较，未比较模型校准度、内部外部验证之间的差异，尚不能判断四者之间的优劣。

预测模型的常用的评价指标包括区分度和校准度[28]。区分度可通过ROC 曲线计算AUC 或C 指数进行评价，AUC 值越接近于1 说明模型区分度越好；校准度常用的方法是Hosmer-Lemeshow 拟合优度检验或校准图[29]。10 个[14-23]模型均报告AUC 值，除了1 个[15]研究为0.695，其余[14,16-23]均>0.7，说明多数模型均能较准确地预测患者是否发生衰弱，但仅4 个研究对模型的校准度进行评价，6 个模型未评价，将难以判断6 个模型预测的概率与现实概率之间的差异。10 个研究中仅2 个[19-20]模型进行了内部验证，仅Dong 等[20]的模型进行了外部验证。建议学者在后期研究开发或验证预测模型时，参照模型的报告规范——个体预后或诊断的多变量预测模型透明报告[28]，同时参考PROBAST，尽可能减少模型的偏倚风险。

研究者尽可能展示出模型的公式，以便于其他地区或国家的研究人员利用公式对模型进行外部验证、校准模型和实际应用。10 个[14-23]模型的候选变量15～80 个，预测因子5～13 个，出现频率最高的是年龄，应对社区中高龄患者给予高度关注，可考虑定期评估，其余因子差异较大，与许多研究选择的候选变量相关。部分[17,23]研究仅关注身体测量指标，限制了模型的泛用性，可能忽视部分处于衰弱高风险的老年人群。纳入的10 个模型适用性均较强，较易在社区找到研究对象，在社区实践中极易得到应用，预测因子和结果也符合该系统评价的主题。

综上所述，纳入的10 个研究中大部分模型偏倚风险较高，分析领域存在较多问题。Dong 等[20]的研究是目前社区老年衰弱模型中在分析领域中最为完善的模型，样本量适当（EPV＞20）、报告了缺失数据的处理方式、模型的区分度、校准度，采用了内部外部验证，模型的预测能力较好。后续研究根据当地的实际情况，选择适当的模型进行衰弱风险的预测。