陈磊,陈蓉,张红星,华木星,王芳
随着我国人民生活水平不断提升和老龄化问题日趋严重,心血管疾病发病率和死亡率逐年上升,尤其是农村和贫困地区[1]。低密度脂蛋白胆固醇(LDL-C)浓度增高是动脉粥样硬化发生发展的重要危险因素[2],但是我国的血脂异常管理不容乐观,且患病率持续增高[3],普及LDL-C 浓度测定对预防以动脉粥样硬化为主的心血管疾病有积极意义。测量LDL-C 浓度的方法包括直接测定法和公式法。直接测定法结果较为准确,但会增加一定医疗开支。公式法计算LDL-C 浓度不受血清状态影响,适合非空腹或高脂血症人群估计LDL-C 浓度,且能节约一定医疗资源,但传统公式法计算LDL-C 浓度尤其在高甘油三酯(TG)和低LDL-C 水平时计算值与实测值差异较大[4],并且国际上常用的传统公式都是基于欧美人群数据,在我国应用有一定局限性。人工智能是以高等数学为基础、利用计算机的优势解决此类用一个或几个复杂公式尚不能完全概括其结论的问题,其预测结果往往优于单纯经验或单一数学公式推导的结论。本研究选用人工智能中的极限树回归(ETR)模型推导LDL-C 浓度,与指南推荐方法进行比较,旨在寻找适合预测LDL-C 浓度的最佳方法。
研究对象:收集云南省阜外心血管病医院自2017 年9 月至2021 年11 月期间,测定过血清总胆固醇(TC)、TG、LDL-C、高密度脂蛋白胆固醇(HDL-C)的118 449 例样本。样本由住院和体检患者组成,男性居多,包含各型高脂血症患者和表观健康人。删除有缺失值数据条目。因TC 呈正态分布,以TC 为基准,计算TC 均数和标准差后随机抽取均数±1×标准差范围内2/3 的数据、重复采集均数±2×标准差至均数±3×标准差内数据4 遍、重复采集均数±3×标准差以外的数据6 遍用以调整数据权重,最后获得106 989 例样本。本研究采用的试验符合国家制定的涉及人的生物医学研究伦理标准和世界医学协会最新修订的《赫尔辛基宣言》的要求。
血脂测定:所有样本均严格按照说明书要求和标准操作规程采用生化分析仪(贝克曼库尔特AU680,美国)和配套原装试剂进行测定。TC 用酶法,HDL-C 用直接法,LDL-C 用直接法,TG 用甘油磷酸氧化酶-过氧化物酶法。获取数据期间所有试剂未更换品牌。
LDL-C 浓度计算公式:将血脂由mmol/L 转换为mg/dl(TC、HDL-C 和LDL-C:1 mmol/L=38.66 mg/dl;TG:1 mmol/L=88.60 mg/dl)进行分析,计算结果采用单精度浮点数;分别用Friedewald 公式(LDL-F公式)[5]、Martin/Hopkins 公式(LDL-M 公式)[6]、Sampson 公式(LDL-S 公式)[7]计算LDL-C 浓度,计算方法见表1。
表1 LDL-C 浓度计算公式
模型构建:用Python 3.9 语言,调用sklearn 库。将最后获得的106 989 例样本,以80%(85 591 例样本)随机数据集作为训练集构建预测LDL-C 浓度的ETR 模型(LDL-ETR 模型),剩下20%(21 398例样本)数据作为测试集测试模型性能,并用于与其他公式进行对比。输入模型的参数包括:年龄、性别及上述试剂实际测定的TG、TC 和HDL-C 浓度值;输出参数为实际测定的LDL-C 浓度值。用网格搜索寻找最佳超参数(交叉验证5 次,用拟合优度作为评分标准),为避免过拟合,尽量控制极限树数目小于100;最后获得拟合优度得分较高的、较好的超参数组合为:最大特征数=0.99,最大叶子节点数=32 767.00,极限树子树数量=96.00。结果中的比较数据均来源于测试集(共计21 398 例数据)。
统计学方法:采用SPSS 26.0 软件进行统计分析。正态分布的定量资料用均数±标准差表示,非正态分布的定量资料用中位数(P25,P75)表示,定性资料用率表示。LDL-ETR 模型或LDL-M、LDL-S、LDL-F 公式的计算值与LDL-C 实测值的相关性用Pearson 相关性分析评估。按TG 浓度分层,LDL-ETR模型与LDL-M、LDL-S、LDL-F 公式之间的逻辑错误比较和一致性比较用卡方检验,模型或公式的计算值与LDL-C 实测值的差值比较用随机区组设计的方差分析,两两比较用t检验。P<0.05为差异有统计学意义。
共入选118 449 例样本,所有样本对应患者中位年龄为48.25(36.00,61.00)岁,男性66 582 例(56.21%),TG、TC、HDL-C 及LDL-C 浓度见表2。
表2 样本临床资料(n=118 449)
用拟合优度来表示拟合好坏,不确定度用标准差表示预测值与实测值相比变异的大小,结果显示LDL-ETR 模型的拟合优度和不确定度均优于3 个公式法(表3)。
表3 LDL-ETR 模型与3 个公式法的拟合优度和不确定度比较
对LDL-ETR 模型预测值和实测值进行相关性分析,同时与3 个公式法进行比较,结果显示LDL-ETR 模型和3 个公式法计算值与实测值均有良好的相关性,相关性由高到低依次为LDL-ETR 模型(r=0.9970)、LDL-M 公式(r=0.9907)、LDL-S 公式(r=0.9776)、LDL-F 公式(r=0.9615),P均<0.001(图1)。
图1 LDL-ETR 模型预测值及3 个公式法计算值与LDL-C 浓度实测值的相关性
LDL-ETR 模型回归曲线与原始样本回归曲线高度重合,相关度最高,能较好地预测LDL-C 浓度;LDL-M 公式仅次于LDL-ETR 模型,在LDL-C浓度约小于189.30 mg/dl 时,LDL-C 残留风险较大;LDL-S 公式和LDL-F 公式在LDL-C 浓度分别小于210.77 mg/dl 和288.30 mg/dl 时,低估了LDL-C 浓度,且估计值精度较差。
按不同TG 浓度分层(TG 浓度范围0.89~885.11 mg/dl),对LDL-ETR 模型预测值和LDL-C 实测值的相关性做了比较。结果显示,当TG <400 mg/dl 时,LDL-ETR 模型预测值和实测值相关性较优,具体见图2。
图2 不同TG 浓度下LDL-ETR 模型预测值与LDL-C 浓度实测值的相关性
LDL-ETR 模型预测值与LDL-C 浓度实测值的差值为(-0.00±3.50)mg/dl,优于LDL-M 公式[(-5.41±7.43)mg/dl]、LDL-S 公式[(-6.80±10.91)mg/dl]和LDL-F 公式[(-10.06±13.90)mg/dl],F>4.67、P均<0.001。
按不同TG 浓度分层(TG 浓度范围0.89~885.11 mg/dl),比较LDL-ETR 模型预测值及3 个公式法计算值与LDL-C 浓度实测值差值大小:无论在TG≥50 mg/dl 时 或TG<50 mg/dl 时,LDL-ETR 模型的差值均是优于3 个公式。3 个公式间比较,当TG<50 mg/dl 时,LDL-F 公式最优,当TG≥50 mg/dl时,LDL-M 公式最优。具体见表4。
表4 不同TG 浓度下LDL-ETR 模型预测值及3 个公式法计算值与LDL-C 浓度实测值差值的比较
为观察不同TG 浓度对模型或公式的干扰情况,绘制模型或公式的差值分布图(图3)。通过对图3比较,可以发现TG 对LDL-ETR 模型基本无干扰;高TG 浓度对LDL-S 公式,尤其是LDL-F 公式计算产生负干扰。
图3 不同TG 浓度下LDL-ETR 模型预测值及3 个公式法计算值与LDL-C 浓度实测值差值分布图
将LDL-C 浓度实测值正负6.8%(基于生物学变异的总允许误差的最佳限)范围内的计算值标记为“一致”,超过该范围标记为“高估”,低于该范围标记为“低估”。
按不同TG 浓度分层(TG 浓度范围0.89~885.11 mg/dl),比较LDL-ETR 模型预测值及3 个公式法计算值与LDL-C 浓度实测值的一致性。相同TG 浓度分层下模型与公式之间一致性两两比较差异均有统计学意义(χ2>17.08,P<0.001,α=0.0083),具体见表5。
表5 不同TG 浓度下LDL-ETR 模型预测值及3 个公式法计算值与LDL-C 浓度实测值的一致性比较[例(%)]
在测试集总体21 398 例样本中,LDL-ETR 模型中有20 101 例样本(93.94%)与实测值一致,459例样本(2.15%)被低估,838 例样本(3.92%)被高估;LDL-M 公式、LDL-S 公式和LDL-F 公式低估了近一半的样本(43.02%、46.85%和54.42%),具体见图4。
图4 LDL-ETR 模型预测值及3 个公式法计算值与LDL-C浓度实测值的一致性比较
表6 LDL-ETR 模型与3 个公式法预测LDL-C 浓度的逻辑错误率比较[例(%)]
如果(HDL-C 浓度+LDL-C 浓度)>TC 浓度,称之为逻辑错误,是计算LDL-C 中不可避免的错误。我们对LDL-ETR 模型和三种公式法LDL-C 浓度预测值的逻辑错误进行了比较,结果显示LDL-ETR模型逻辑错误率较低,为0.04%,仅次于LDL-M公式的0.02%,二者差异无统计学意义(χ2=1.92,P=0.17,α=0.0083);LDL-F 公式逻辑错误率最高。
为了进一步评价LDL-ETR 模型的预测效果,我们通过绘制学习曲线(图5),观察不同训练集大小下拟合优度得分情况,发现测试集曲线和训练集曲线随数据量增加逐渐收敛,二者拟合优度得分均较高,训练集曲线相对稳定;因此,LDL-ETR 模型预测结果适用于相同检验系统的其他样本。
图5 学习曲线
本研究通过一种基于人工智能的建模方法成功建立了一种全新的推导LDL-C 浓度的方法(LDLETR 模型),结果显示,相比传统的公式法,LDLETR 模型能更好地预测LDL-C 浓度,几乎不受TG干扰,与LDL-C 浓度实测值一致性较好,逻辑错误率较低;通过学习曲线绘图,证明该模型对除建模数据外的其它患者LDL-C 浓度也具有相似的预测能力,模型适用性强。
ETR 模型是基于人工智能技术的建模方法之一。自1966 年Hunt 等[8]提出了决策树算法后,该算法不断完善,进而产生了随机森林树和ETR 等模型。ETR 模型的特点在于使用全样本随机分配权重随机分割,采用信息熵寻找最优划分;此模型依赖于计算机和计算机程序。而诸如LDL-F 的公式法,公式组成相对较为简单;LDL-M 公式在LDL-F 公式基础上进行了相对较为复杂的分类讨论,但是相对于计算机模型而言,复杂度有限。本研究在模型构建过程中共纳入118 449 例样本,建模前调整高TC和低TC 的权重,建模过程中以TC 作为重要分类变量,HDL-C、TG、年龄、性别依次作为次要分类变量,通过预测LDL-C 浓度的概率,对可能的LDL-C 浓度求均值,实现对LDL-C 的浓度预测;该方法为国内外首次报道使用。Singh 等[9]用随机森林树建立Weill Cornell 模型预测LDL-C,也证明了人工智能技术在预测LDL-C 方面的优势,但与Singh 等研究不同的是,本研究纳入了性别和年龄,而且,训练样本量(106 989 例;初始样本量:118 449 例)远大于Weill Cornell 模型初始样本量(17 500 例)。此外,数据集调整权重后才导入模型进行训练,使得预测结果与LDL-C 实测值拟合程度更佳,这也正是本研究所用LDL-ETR 模型的优势。
LDL-F 公式自1972 年Friedewald 推导后,至今仍在国外广泛应用,国内部分医院也以该方法作为参考或直接出具报告,但因高TG 对该公式影响较为明显,限制了其在非空腹和高脂血症人群中的应用。此后,我国的吴秀茹等[10]、张林等[11]和胡柏成 等[12]及国外的Martin 等[6]、Sampson 等[7]和Singh 等[9]先后提出了新的修正公式或模型计算LDL-C 浓度。《欧洲心脏病学会临床实践中心血管疾病预防指南》[13]推荐:在TG ≥50 mg/dl 且TG<400 mg/dl 时使用LDL-F 公式来计算LDL-C,而该范围之外的LDL-C 应该采用LDL-M 公式或LDL-S 公式。但是,这类公式在我国应用较为局限:一方面,以我国学者为代表的LDL-C 计算公式未经大量样本验证(研究样本不超过200 例),且修正公式建立时间较久远,而以LDL-S 公式为代表的公式较新,缺乏公式性能评价;另一方面,以LDL-M 公式为代表的公式需要单独写程序调用调整因子表;最重要的是,目前国内外许多公式尚不能较好地避免高TG 对LDL-C 计算结果的影响。本研究建立的LDL-ETR 模型直接用Python 编写,准备好环境可以直接调用,与实验室信息系统通信方便;当TG 为0.89~885.11 mg/dl 浓度范围内,模型对LDL-C 浓度的预测效果都优于目前的公式法,致LDL-C 残留风险最低;训练模型样本量大于除LDL-M 公式以外的其它公式。
此外,我们也对常用公式法在本研究中的表现与现有研究进行比较,结果显示LDL-M 公式低估LDL-C 浓度的风险较低(共计43.02%的样本被低估),在TG ≥50 mg/dl 和TG<400 mg/dl 优于其他公式,与Sajja 等[14]、Kang 等[15]和蔡红军等[16]的研究一致,而且在TG ≥400 mg/dl 时,仍然是仅次于LDL-ETR 的最佳公式,该结果与Rees 等[17]的研究一致。而当TG<50 mg/dl 时,本研究显示LDL-F 公式优于其他公式,但LDL-F 公式预测LDL-C 相关性较低、不确定度较高,LDL-C 残留风险较大,与Gaško[18]的研究、欧洲指南基本一致。
本研究的不足之处在于,样本数据主要来自云南地区且为单中心研究,不同中心可能因民族、海拔和仪器、试剂品牌不同导致该模型预测结果与实测结果有差异。将来,如能进一步扩大血脂数据集进行多中心研究,将会进一步提高LDL-ETR 模型的可靠性,扩大LDL-ETR 模型的适用范围,为临床应用提供可能。
综上所述,本研究基于云南地区人群建立了一种以人工智能技术推导LDL-C 浓度的新方法,该模型的应用可以节约LDL-C 浓度检测费用;当然,对于有疑问的LDL-C 浓度实测值结果,例如LDL-C浓度测定受仪器、试剂、标本状态影响时,通过与该模型预测值进行对照,可以提醒检验人员注意对异常结果进行解释或重测。本研究建立的模型能节约一定医疗资源,同时不影响动脉硬化性心血管疾病的诊断,适合较为广泛地应用。
利益冲突:所有作者均声明不存在利益冲突