岳益兵,于 颖,沈 磊,王 燕,王莹莹,詹秀秀,吕伟波
(1. 杭州师范大学阿里巴巴复杂科学研究中心,浙江 杭州 311121; 2. 上海中医药大学护理学院,上海 201203; 3. 上海市浦东新区唐镇社区卫生服务中心,上海 201210; 4. 安徽医科大学公共卫生学院,安徽 合肥 230032)
目前,全球老年人口激增,随着年龄增加,人体的肌肉骨骼肌系统出现了定量和定性的下降[1].肌少症作为老年人常发疾病,给个人、社会和国家带来巨大的经济负担[2].2000年,美国归因于肌少症的直接医疗费用估计为185亿美元(即医疗总开支的1.5%)[3].虽然最近的一篇综述显示,不同的肌少症卫生费用的相关研究有着异质性,但是总体显示出了肌少症人群医疗费用增加的趋势[4].2018年最新的欧洲老年人肌少症工作组2(EWGSOP2)共识,将肌少症定义为一种进行性和全身性的骨骼肌疾病,与包括跌倒、骨折、身体残疾和死亡等不良后果的可能性增加有关[5].
评估肌少症的方法和工具较多,但都有其局限性.SARC-F量表是基于肌少症的基本特征和后果开发的简单的五项问卷[6],但其过于依靠患者的主观感受.成像技术可以较为精准地测量肌肉量,通常采用的成像技术有计算机断层扫描(CT)和磁共振成像(MRI),但其设备成本高,操作难度较大.本文利用体检信息建立肌少症预测模型,通过体检指标或者部分体检项目直接预测肌少症患病风险,以更低廉的手段进行更广泛的肌少症筛选,节省医疗资源.
机器学习是计算机科学的一个领域,使用计算机算法来识别大数据中的模式,基于数据预测各种结果[7].机器学习方法在医学辅助诊断、疾病预防、疾病亚型分类和异常用药检测等方面得到良好的应用效果[8-9].建立机器学习预测模型,有助于诊察疾病并做出及时有效的临床决策,同时,可在早期识别具有不同疾病风险的患者,以优化医疗资源配置.
数据来源于2019年上海某医院的真实体检数据,体检人群主要针对老年群体,并已获取用于本研究的知情同意.研究数据结合了InBody270(体成分分析仪270)数据.肌少症的定义基于亚洲人肌少症工作小组(Asian Working Group for Sarcopenia,AWGS)的诊断标准,包括低肌肉质量、低肌肉力量或较差的身体表现[10].低肌肉质量即男性骨骼肌指数(skeletal muscle mass index,SMI)低于7.0 kg/m2,女性骨骼肌指数低于5.7 kg/m2[11].本文主要利用骨骼肌指数来识别肌少症患者.
本文部分特征做了医学意义的拓展,如根据BMI值的范围划分为健康体重、轻体重、超重和肥胖,目的是探查肌少症与某些间接特征的关系.使用K近邻的方法填充缺失值,K近邻的填充能利用不同样本之间的相似性更好地还原缺失数据,与均值和众数等只看总体分布特点的填充方法相比,K近邻更好地利用了类似个体之间的特性,可以根据变量的信息保留原始数据的分布结构.
在训练机器学习模型时,采用Borderline SMOTE(Borderline Synthetic Minority Oversampling Technique)方法对正样本(肌少症组)进行过采样,Borderline SMOTE是在SMOTE基础上改进的过采样算法,该算法仅使用边界上的少数类样本来合成新样本,合成的新样本更利于分类器形成区分原始正负样本的分界,从而改善样本的类别分布.为增加预测模型的泛化能力,本研究对采样后的样本添加了符合高斯分布的随机扰动.采样后正负样本量比例为1∶1.
LightGBM(Light Gradient Boosting Machine)算法是由微软提出的一种高效的梯度提升决策树算法,LightGBM解决了评估每一个特征都需要扫描所有数据实例来估计所有可能分裂点的信息增益,便于处理大量数据实例和数据特征.鉴于LightGBM算法的优越表现,LightGBM在工业界和学术界的数据研究中得到广泛应用.
决策树(decision tree,DT)算法是一个树状分类器,使用信息熵、信息增益或基尼系数等来评估哪个特征作为非叶子节点的分类特征[12],决策树有着非常清晰的规则,易于理解和应用于临床实践.
K近邻(k-nearest neighbor, KNN)算法是一种较为简单的分类算法,对于每个预分类点,寻找其最接近的k个邻居点,并以多数票标记预分类点[13].
随机森林(random forest,RF)算法是由Leo Breiman和Adele Culter开发由多棵决策树组成的一种集成分类算法[14],最终结果由所有决策树投票决定,随机森林算法在疾病预测等各个领域已经被证明是一种高精确的算法.
支持向量机(support vector machines,SVM)算法是1992年由Boser等提出的分类算法,它通过构造一个高维的最优大边缘分离超平面来完成分类,通过选择不同的核函数,将原始数据映射到一个较高的维度,解决非线性分类问题[15].
朴素贝叶斯(Naive Bayesian,NB)算法被认为是一个简单的概率分类器,通过特征概率来预测分类,其基于贝叶斯定理,假设独立变量的条件概率在统计上是独立的,以降低高纬度的复杂性[16].
人工神经网络(artificial neural network,ANN)算法是一个强大的非线性模型,这个模型由许多被称为“感知器”的人工神经单元组成[17],通过模拟人类神经系统高度连接的处理单元,确定输入特征与输出结果的相关性.
逻辑回归(logistic regression,LR)算法是机器学习领域最为常见的建模方法之一,其利用Sigmoid函数引入非线性关系,便于解决二分类问题.
本文属于预测被试者是否患有肌少症的二分类预测,主要采用AUC值作为预测性能的评价指标.AUC(Area Under Curve)是衡量二分类模型优劣的一种评价指标,即ROC(Receiver Operating Characteristic)曲线与x轴所围面积.
本研究采用5折交叉验证法,将数据集均分为5份,其中1份作为测试集,4份作为训练集进行5折交叉训练,每种机器学习方法训练模型的训练集和测试集都相同,将测试集的平均AUC值作为最终评价指标.
研究样本中,肌少症患者875(15.5%)例,正常者4 766例.研究特征分为连续变量和分类变量,并分别做统计学分析.连续变量中,年龄、体质量、身高、BMI、腰围、臀围等21个特征在是否患肌少症群体之间的差异具有统计学意义(P<0.05);分类变量中,性别、肥胖程度、中心性肥胖等12个特征在是否患肌少症群体之间的差异具有统计学意义.详见表1、表2,特征各类别患病比例见图1.
表1 样本群体连续变量基本特征Tab.1 Basic characteristics of continuous variables in sample population
续表1
表2 样本群体分类变量基本特征Tab.2 Basic characteristics of the categorical variables in sample population
续表2
图2 8种机器学习算法ROC曲线及其AUC值Fig.2 ROC curves of eight machine learning algorithms and their AUC values
预测模型所用特征过多,会使模型复杂度增加,且易造成过拟合.本文利用假设检验方法对原始体检数据特征进行初步特征筛选,作为预测模型的输入变量,是否患有肌少症的二分类结果作为预测变量.经采样后,将两组差异具有统计学意义的33个特征作为输入变量进行机器学习方法模型训练,8种机器学习方法经过5折交叉验证训练后,测试集的AUC值以及相应的ROC曲线见图2.其中,LightGBM算法预测效果最优(AUC=0.979,其相应训练集AUC=0.995),其次是RF算法(AUC=0.970)和LR算法(AUC=0.936),其后分别是ANN算法(AUC=0.892)、SVM算法(AUC=0.868)、KNN算法(AUC=0.867)、DT算法(AUC=0.831)和NB算法(AUC=0.735).
本研究通过单个特征在预测模型中的AUC值,寻找预测肌少症的重要因素.从8种模型预测结果的AUC值可知,针对本研究数据,预测性能最好的前3种算法为LightGBM算法、RF算法和LR算法,且3种方法应用较为广泛,可以探查特征重要性,因此,本研究把所有特征分别放入前3种机器学习方法中训练,得到单个特征在这3种算法中的AUC值,如图3所示.可见,对于不同算法建立的预测模型,较为重要的特征可以得到较好的AUC值,以此筛选预测肌少症的重要因素.将前3种预测模型预测的单个特征评分按AUC值从高到低排序,先取每种算法的评分前20项分别构成一个特征集合,再取3个集合共有的特征,作为预测肌少症的重要因素集,分别为年龄、体质量、身高、BMI、腰围、臀围、舒张压、平均红细胞血红蛋白量、高密度脂蛋白、平均红细胞体积、红细胞、甘油三酯.
注:纵坐标为单个特征在预测算法中的评分;横坐标为特征,BMI为身体质量指数、HGB为血红蛋白浓度、MCH为平均红细胞血红蛋白含量、MCHC为平均红细胞血红蛋白浓度、MCV为平均红细胞体积、HDL为高密度脂蛋白、LDL为低密度脂蛋白.
为探究不同体检项目对预测肌少症的影响,本文将所有特征分类为不同的特征集合,作为不同体检项目,查看这些体检项目的预测效果.所有的体检项目同样通过3种算法训练,得到不同体检项目在3种机器学习方法下的AUC值,结果见图4.利用相同方法,找出3种预测方法评分前10的体检项目中共有的体检项目,将其作为预测肌少症的重要体检项目,包括体格检查、血检指标、血常规、肝肾功能、生活习惯和一般信息.
注:横坐标为不同特征集合组成的体检项目,纵坐标为体检项目在预测算法中对应的AUC值.
由于医疗数据的特殊性,在预测方法上并没有某种机器学习算法可以很好地预测某一种类型的医疗数据,因此本文利用8种机器学习算法进行实验,寻找适合本文数据的机器学习算法,以建立具有较好预测性能的肌少症患病风险预测模型.对于本文的预测模型,LightGBM算法、RF算法和LR算法都体现了很好的预测效果.LightGBM算法和RF算法都是基于树结构的算法,可见树结构的算法对于此数据预测效果较好.在本文中,LightGBM是比较适合利用体检数据进行肌少症预测的算法.
本文探查的预测肌少症的重要因素有体质量、臀围、BMI、腰围、年龄、身高、舒张压、平均红细胞血红蛋白量、高密度脂蛋白、平均红细胞体积、红细胞和甘油三酯.结合表1中肌少症组的值范围可见,与正常群体相比,肌少症群体在体质量、臀围、BMI、腰围、身高、舒张压、红细胞和甘油三酯上的值较低,而在年龄、平均红细胞血红蛋白量、高密度脂蛋白和平均红细胞体积上的值较高,其中部分因素也在其他研究中提及.BMI是众多研究得到的肌少症重要的影响因素[18-19].肌少症与衰弱密切相关[20],体质量、腰围、臀围以及身高变化在体质衰弱的老年群体中都较为常见.研究表明,甘油三酯与肌少症发生率呈负相关,高密度脂蛋白与肌少症发生率呈正相关[21],这支持了甘油三酯和高密度脂蛋白可以作为预测肌少症的重要因素.Kang等[19]研究显示红细胞计数、高密度脂蛋白和舒张压是肌少症的风险因素.平均红细胞血红蛋白量、高密度脂蛋白、平均红细胞体积和甘油三酯对肌少症的内在影响机制需要进一步确认.
本文探查的预测肌少症重要体检项目有体格检查、血检指标、血常规、肝肾功能、生活习惯和一般信息,其中体格检查、血检指标和血常规在LightGBM和RF算法的预测模型中AUC评分都在0.9以上.具体来说,体格检查包括身高、体质量、腰围、臀围、心率、收缩压和舒张压.血常规包括红细胞平均血红蛋白量、红细胞平均血红蛋白浓度、红细胞平均体积、血红蛋白、红细胞、白细胞和血小板.肝肾功能主要包含尿素氮、肌酐、尿酸、谷丙转氨酶和总胆红素.血检指标包含血常规和肝肾功能的子项以及甘油三酯、胆固醇、高密度脂蛋白和低密度脂蛋白.生活习惯包含运动、吸烟、饮酒和饮食情况.一般信息包括性别、年龄和教育水平.可见,血检指标、肝肾功能以及生活习惯的改变,可能预示着肌少症风险的不同.有研究指出肾功能与老年男性慢性肾脏病患者肌少症发生相关[22].以上所述体检项目,在社区、医院的体检或其他门诊疾病的辅助检查中较易获得,可对肌少症进行初步预测.
很多生活方式因素被认为易导致肌少症,由图1中G可知,偏爱肉类(标签:0)人群患肌少症比例更高,这可能是老年人体内蛋白质含量不仅仅取决于肉类的摄入量,且肉类中蛋白质的吸收利用亦为重要因素之一,本研究提示老年人需荤素均衡饮食(标签:2).运动干预可以有效降低肌少症的患病风险[23].运动频率在本实验中的差异不显著,运动强度不是肌少症的影响因素,这可能和运动的方式有关,例如要进行有氧运动和抵抗运动[24]的形式来进行有效的肌少症预防和干预.由图1中K可知,每次1~2 h运动训练的人群,患肌少症的概率更低.一项meta分析的结果表明,酒精摄入并不是肌少症的危险因素[25],证实了饮酒不是预测肌少症的重要因素.同时,体检项目中吸烟、饮酒和饮食的预测效果不佳,但是将这些项目结合,可以较好地预测肌少症,这说明,肌少症的预防和干预应该注重在日常生活中培养良好的生活习惯,饮食、作息和运动等方面都需要保持良好的状态.
本文的优势在于,首先使用较为基础的8种机器学习方法进行肌少症患病风险预测,可以广泛探查适合本研究数据的基本机器学习方法.其次,本研究基于常规体检数据以及不同体检项目进行的肌少症患病风险预测,数据易获得,成本低,并可基于医院和社区已有的数据对更广泛的人群进行筛查,确定潜在肌少症群体.本文的研究局限性在于:1)只采用了一种过采样方法,过采样后得到的数据并不是原始的真实数据,对预测结果会有一定的影响;2)建立的预测模型在现实中很难应用,医疗行业有其特殊性,数据分析工具要求更高的准确性和安全性.
综上所述,本文基于LightGBM方法建立了肌少症患病风险预测模型,AUC值达0.979,结合预测模型确定了预测肌少症的重要因素有体质量、臀围、BMI、腰围、年龄、身高、舒张压、平均红细胞血红蛋白量、高密度脂蛋白、平均红细胞体积、红细胞和甘油三酯,重要体检项目有体格检查、血检指标、血常规、肝肾功能、生活习惯和一般信息,有利于肌少症的进一步理论研究和实践管理.