高小莲,肖明中,陶军秀,艾亚婷
目前,非酒精性脂肪性肝病(nonalcoholic fatty liver disease,NAFLD)已成为全球最常见的慢性肝病和重要的公共卫生问题[1]。最近的一篇荟萃分析显示中国成年人NAFLD患病率现已高达29.2%[2]。据马尔可夫模型预测,至2030年,中国将成为NAFLD总体患病率和相对患病率增幅最大的国家,届时中国将超过美国成为因肝脏相关并发症而死亡人数最多的国家[3]。目前,超声检查为筛查NAFLD的首选检查方法,但其仅对中重度脂肪肝的灵敏度高,容易遗漏轻度脂肪肝;磁共振成像检查的质谱分析及质子密度脂肪分数对轻度脂肪肝的灵敏度高,但有赖于患者的依从性并存在费用顾虑;肝活检是诊断NAFLD特别是非酒精性脂肪性肝炎(NASH)的“金标准”,但有创伤,可发生并发症和采样误差,临床应用极为谨慎,可重复性差[4]。作为疾病风险评估的量化工具,疾病预测模型可为患者和医务人员提供更直观、科学的信息。借助无创的体检指标或低成本、易采集的实验室检查项目构建灵敏度和特异度高的疾病预测模型对评估高危人群NAFLD发生风险(概率)、促进个体分级分层管理具有重要的卫生经济学意义。本文拟对已追溯到的8种NAFLD预测模型特征进行分析,包括其建模方法、模型的质量表现、模型的表达和应用现状等方面,以期为NAFLD预测模型的选择和进一步研究提供参考依据。
本文采取文献检索法,检索不设定起止时间,限定为学术期刊。在基于专业知识的前提下,以“Nonalcoholic fatty liver disease”“fatty liver disease”“prediction”为英文关键词检索PubMed、Web of Science;以“非酒精性脂肪性肝病”“脂肪肝”“预测模型”为中文关键词检索中国知网、维普网、万方数据知识服务平台。研究人员通过小组讨论和共识会议,制定纳入标准和排除标准。纳入标准:完整的研究性论文且可以在网上找到;论文的研究对象为普通人群;论文中有明确的模型表达式;模型的预测因子必须无创、易收集、低成本。排除标准:排除针对肝纤维化的预测模型。第一批论文是仅通过在标题和摘要中搜索特定的关键字获得,从中筛选出有明确的模型表达式的论文,然后对筛选出的论文进行分析,剔除研究对象为肝病患者的论文,对保留下来的论文进行全文阅读,进一步排除针对肝纤维化的预测模型,如NAFLD纤维化评分(NFS)、FI4、BARD评分、Pohl评分等。
按照上述纳入及排除标准,共查找到8种预测模型[5-12],表1归纳了8种预测模型名称、第一作者、首发时间、期刊名称、研究地点及研究内容。
表1 8种预测模型文献的基本情况Table 1 General data of studies of eight NAFLD prediction models
2.1 建模方法 除Mika Aizawa模型[12]使用蒙特卡洛法(又称随机模拟方法或统计模拟方法)建模外,其余7种预测模型均为Logistic回归建模。Logistic回归分析在医学研究中的应用非常广泛,是研究二分类或多分类反应变量与多个影响因素之间关系的多重回归分析方法,主要用于探索疾病发生的危险因素,利用回归模型计算结局的发生率,对结局做出概率性的预测[13]。
然而,随着人工智能的兴盛,机器学习(machine learning,ML)[14]因其方法学优势而已经成为大数据时代统计学的方向,如基于人工神经网络(artificial neural network,ANN)等的建模方法正逐渐变成分析数据的流行工具[15]。ANN具有并行处理方式、自组织、自学习、联想记忆和容错等能力,尤其在疾病的早期预防、诊断和预后评估等方面可起到专家系统的作用[16]。至今,研究小组未能检索到基于机器学习算法的NAFLD预测模型,分析其原因可能在于:NAFLD的危险因素及诊断标准尚处于探讨阶段,研究者在权重系数的假设检验、计算权重系数的可信区间及隐含层权重系数的医学解释等方面尚有争议。
2.2 模型的质量表现 预测模型的评价指标常从区分度和校准度两个方面衡量[17]。衡量区分度的最常用的指标是C统计量,当终点事件是二分类变量时,受试者工作特征曲线下面积(AUC)即为C值,C值越接近1,表示模型区分度越好[17]。校准度则考察预测结果和实际状况的吻合程度,常用Hosmer-Lemeshow卡方(H-L χ2)检验进行评价。H-L χ2检验中P≥0.05代表模型效准度较好;P<0.05代表模型效准度较差[18]。本文最终纳入的8种NAFLD预测模型预测NAFLD的AUC为0.797~0.870,灵敏度为71.7%~93.1%,特异度为71.0%~93.4%,说明模型区分度较好。但是,除了AUC,其他指标鲜见报道,究其原因,首先在于AUC简单直观、易于理解,其次是绝大多数研究系内部验证(先建模后验证),仅用AUC即可说明问题。8种NAFLD预测模型的预测因子、截断值及质量表现详见表2。
表2 8种NAFLD预测模型的预测因子、截断值及质量表现Table 2 Predictors,cutoff values and performance accuracy of eight NAFLD prediction models
2.3 模型的表达及应用现状
2.3.1 脂肪肝指数(FLI)[5]根据原始研究,FLI对肝脂肪变性的预测准确性良好,AUC为0.840;预测因子包括腰围、体质指数(BMI)、三酰甘油(TG)和谷氨酰转肽酶(GGT)。FLI临床意义为:FLI取值范围为0~100,FLI<30排除肝脂肪变性,灵敏度为87.0%;FLI≥60判定为肝脂肪变性,特异度为 86.0%。FLI计算公式如下:
目前已有众多学者将FLI引用到NAFDL的筛查。KOEHLER等[19]报道FLI能准确识别NAFLD,在2 652名〔平均年龄(76.3±6.0)岁〕老年白种人中,FLI诊断NAFLD的AUC为0.813。伊朗学者MOTAMED等[20]根据其队列研究第一阶段(2009—2010年)的数据运用FLI进行计算,评估FLI对NAFLD的预测能力,结果显示,在相关数据存在的情况下,男性和女性FLI的AUC分别为0.712和0.721,FLI显示出较好的预测NAFLD新发病例的能力。韩国学者KIM等[21]在成年人中进行FLI的验证,结论为FLI是预测NALFD的一个有用的指标,但其并不优于腰围和BMI。CHEN等[22]研究认为男性和女性受试者FLI的截断值可分别设置为20和10,以增加在该地区人群中预测NAFLD的敏感性。HUANG等[23]证实FLI可准确识别NAFLD,其AUC为0.834,最佳截断值为30,灵敏度为79.89%,特异度为71.51%。经FLI诊断的NAFLD患者的代谢特征(腰围、BMI、血压、血脂、转氨酶)较超声诊断的NAFLD患者更差(均P<0.05),提示FLI可早预警,有助于NAFLD的早干预。
2.3.2 肝脂肪变性指数(HSI)[6]原始研究显示HSI预测NAFLD的准确性良好且操作简单。HSI临床意义为:HSI<30时,可排除NAFLD,灵敏度为93.1%;HSI>36时,可判定为NAFLD,特异度为92.4%。验证队列中HSI<30或>36的2 692名受试者中2 305名(85.6%)被正确分类。HSI计算公式:HSI=8×丙氨酸氨基转移酶(ALT)/天冬氨酸氨基转移酶(AST)+BMI(+2,如果女性;+2,如果糖尿病)。
郭芸蕾等[24]研究认为HSI结合超声的实时剪切波弹性成像(SWE)技术更有利于准确检出中重度NAFLD,AUC为(0.904±0.028)、灵敏度为88.3%、特异度为87.0%。CHEN等[25]在成年阻塞型睡眠呼吸暂停低通气综合征(OSAHS)患者中进行了FLI和HSI筛查NAFLD的准确性验证,结果显示,FLI和HSI预测NAFLD的AUC分别为0.802〔95%CI(0.762,0.839)〕 和 0.753〔95%CI(0.710,0.793)〕,FLI的 AUC显著高于HSI(P=0.038 3),FLI和HSI的最佳截断值分别为60(灵敏度66%、特异度80%)和35(灵敏度81%、特异度60%),因此FLI和HSI均可作为成年OSAHS患者NAFLD的筛查工具,但FLI优于HSI。
2.3.3 肝脂肪百分比[7]肝脂肪百分比
肝脂肪百分比是利用代谢和遗传因素预测NAFLD和肝脏脂肪化。原始研究结果表明代谢综合征和2型糖尿病、空腹血清胰岛素水平、AST、AST/ALT是NAFLD的独立预测因子。模型预测组AUC为0.870,验证组AUC为0.860,最佳截断值为-0.640,高于此值预示NAFLD的存在,灵敏度为86%,特异度为71%[7]。遗传信息的加入仅使肝脂肪百分比预测精度提高了不到1%,说明遗传仅作为内因存在,后天环境因素在NAFLD发病方面具有更重要的作用。
2.3.4 Framingham脂肪变性指数(FSI)[8]FSI以年龄、性别、BMI、TG、高血压、糖尿病、ALT/AST作为预测因子。FSI=7.981+0.011×年龄(years)-0.146×性别(女性=1;男性 =0)+0.173×BMI(kg/m2)+0.007×TG(mg/dl)+0.593× 高血压(是=1;不是=0)+0.789×糖尿病(是=1;不是=0)+1.1×ALT/AST(≥1.33,是=1;不是=0)。
总体上,FSI预测NAFLD的AUC为0.830。当模型中加入ALT/AST≥1.33这一预测因子时,AUC整体提高到0.845。在23的截断值上,FSI推导队列中识别NAFLD的灵敏度为79%,特异度为71%。模型的外部验证显示,FSI对非西班牙裔白人的AUC为0.775(n=1 714),整个验证队列的AUC为0.760(n=4 489),模型拟合度较好。在23的截断值上,FSI验证队列对NAFLD的灵敏度较低,特异度较高。研究者认为,FSI可用于NAFLD的流行病学研究,但还需要在临床实践中评估FSI的准确性和成本效益[8]。
2.3.5 ZJU指数[9]ZJU指数以BMI、空腹血糖(FPG)、TG、ALT/AST为预测因子。ZJU指数<32时,排除NAFLD,灵敏度为92.4%;ZJU指数>38时,判定为NAFLD,特异度为93.3%。ZJU指数=BMI(kg/m2)+FPG(mmol/L)+TG(mmol/L)+3×ALT(U/L)/AST(U/L)(+2,如果女性)。
ZJU指数已得到国内学者的验证。刘捷等[26]验证了ZJU指数对健康体检人群NAFLD患病风险的预测价值,结果显示,30 826名体检者基于ZJU指数所得NAFLD的患病率为34.83%,其中男性人群为40.53%,女性人群为29.26%,且患病趋势随着年龄的增长而升高。LI等[27]通过一项横断面研究评估了ZJU指数在中国人群中预测NAFLD的准确性,结果显示ZJU指数预测NAFLD的AUC为0.925〔95%CI(0.919,0.931)〕,显著高于脂肪肝指数、肝脂肪变性指数、脂肪累积产物、内脏脂肪指数四种模型(P<0.001)。
2.3.6 NAFLD筛查评分(NSS)[10]NSS也是面向中国人群的简易评分模型,是由年龄、FPG、BMI、TG、ALT/AST、尿酸(UA)组成的基本评分(表3)。NSS预测男性和女性NAFLD的截断值有差异,其中男性截断值为32,AUC为0.825,灵敏度为79.86%,特异度为66.13%;女性截断值为29,AUC为0.861,灵敏度和特异度分别为89.39%和68.98%。研究者开发NSS的目的在于识别NAFLD高危人群,但NSS的外部验证尚未见文献报道。
表3 NSS评分(分)Table 3 Scoring of the NSS
2.3.7 Young Jin Park模型[11]Young Jin Park模型用来筛选需要行腹部超声检查的NAFLD患者。研究者利用多因素Logistic回归分析确定了ALT/AST、γ-谷氨酰转肽酶(γ-GTP)、TG、BMI四个独立的危险因素。通过将1个临床评分点与0.7个Logistic回归系数进行比较,确定指数系统分值为0~6分(表4)。Young Jin Park模型预测NAFLD的AUC为0.797,以3分作为截断值,灵敏度为71.7%,特异度为75.9%;以4分作为截断值,灵敏度降低至46.9%,特异度升高至92.3%。
表4 Young Jin Park模型评分(分)Table 4 Scoring of the Young-Jin Park model
2.3.8 Mika Aizawa模 型[12]Mika Aizawa模 型 针 对 的 是NAFLD的预防与管理,其以生活方式相关风险因素为基础,应用蒙特卡洛法建立脂肪肝的自然史模型,探讨影响脂肪肝发病过程的主要因素,结果显示,BMI和低密度脂蛋白胆固醇/高密度脂蛋白胆固醇(LDL-C/HDL-C)显著升高有助于预测脂肪肝的发生。利用30~39岁的受试者的数据模拟脂肪肝的自然史时,患病率从40~59岁时的20%上升到32%,然后下降到70~79岁时的24%。当BMI和LDL-C/HDL-C每年更新降低/增加1%时,脂肪肝的最高患病率(32%)分别降低/增加-8.0%/10.7%和-1.6%/1.4%。研究者认为BMI和LDL-C/HDL-C对预测脂肪肝的发生具有重要作用,而个体BMI的年度变化对脂肪肝的自然史影响更大,持续控制个人BMI可能是减少脂肪肝发生、预防NAFLD最有效的选择[12]。
2.4 模型的优缺点 综上所述,8种NAFLD预测模型均是借助无创、低廉、易采集的预测因子预测NAFLD发生风险,拟合的数学模型简易、精炼,这既有助于评估普通人群在当前的健康状态下未来患NAFLD的情况,也为健康管理工作者实施健康教育和行为干预提供了便捷、有说服力的工具。同时,相较于目前临床常用的肝脏瞬时弹性检测(FiborTouch)技术,疾病预测模型还具有不受操作员手法及患者性别、体位、皮下组织等因素影响的优势。不过,疾病的发生并不能通过建立一个数学公式就足以判定。从统计建模的角度来说,上述模型的结局多为是否发生,属于二分类变量,所以,在模型的技术层面上还是存在待解决的问题,如预测因子的选择、模型的外部验证等环节分歧较大,也限制了模型的推广。
NAFLD预测模型研究正处于起始阶段,尤其是建模方法还有优化的空间。ML与NAFLD大数据结合,有望为我国NAFLD的一级预防提供更为准确的预测模型。随着卫生信息技术的快速发展,人们多通过电子病历、医疗检查和监护设备、可穿戴健康设备、手机健康应用程序(APP)等进行大数据的收集。ML属于人工智能模型的一个分支,是基于计算机系统对大数据的训练,能实现高精度的预测和决策[28]。当今ML程序框架发展迅速,极大地简化了训练过程,为慢性病精准管理提供了可能性。基于NAFLD大数据与ML融合进行展望,肝病研究者可从以下入手:第一,强化和提高数据管理能力。大数据包含结构化、半结构化或非结构化信息,具有复杂的相互关系和组织网络。数据管理过程的某些不确定性可影响ML的质量,导致决策的偏倚,如数据损坏、数据输入错误、重复或丢失记录、不完整记录等。因此,研究团队必须从数据标准化、存储和传输等方面强化和提高数据管理能力。第二,加强学科协同、交叉、融合,科学地使用ML算法。支持向量机、神经网络、决策树等ML算法的精准度、灵敏度和适应性各有不同[29],医学研究者只有与计算机工程师进行优势互补、熟悉不同算法的适用条件及优缺点和方法学特征、根据大数据来源选择合适的算法才有可能创造出具有最佳效果的NAFLD预测模型。
作者贡献:高小莲进行文章的构思及论文撰写;肖明中负责文章的质量控制及审校,对文章整体负责,监督管理;陶军秀、艾亚婷进行文献收集及整理。
本文无利益冲突。