旷小羿,徐巧玲,徐伟,张海峰,耿新玲,侯惠如
1.中国人民解放军医学院,北京 100853;2.中央军委联合参谋部警卫局卫生保健处;3.中国人民解放军第三〇五医院药局;4.首都医科大学生物医学工程学院;5.中国人民解放军总医院第二医学中心护理部
我国糖尿病患者人数庞大,已成为主要的公共卫生负担[1],其中2型糖尿病(T2DM)占90%以上[2-3]。生活方式的自我管理(饮食摄入、体力活动、用药情况、血糖监控等)是优化血糖的关键[4-6]。对于患者而言,坚持持续有效的自我管理比较困难[7-8]。建立血糖趋势预测模型[9]可实现血糖水平的短期预测(15、30、45、60 min),利于患者积极采取干预措施,达到优化血糖的目的。动态血糖监测(CGM)设备能提供较为完整的血糖图谱[10],促进了人工智能模型的构建[11]。支持向量回归(SVR)是使用较早且较为普及的模型构建方法[12],而基于长短期记忆(LSTM)单元的递归神经网络(RNN)是目前较为前沿且使用最多的人工智能算法[13]。因此,本研究采用SVR与LSTM-RNN这2种方式构建老年T2DM患者血糖趋势预测模型,并对比模型表现。
1.1 研究对象 选择2020年11月至2021年5月于中央军委联合参谋部警卫局保健处门诊部就诊且符合纳入标准的T2DM患者12例。2例因无法坚持记录生活数据而退出,1例因记录的数据质量不合格而剔除,最终获得9例数据(回收率75%)。其中女5例,男4例,年龄(68.4±6.7)岁,糖尿病病程1~21(7.0±2.2)年,体重指数(BMI)21.89~26.35(23.85±1.82)kg/m2。8例口服降糖药,1例接受胰岛素治疗,糖化血红蛋白(HbA1c) 4.8%~9.8%(6.77%±1.76%),CGM值为(7.17±2.05)mmol/L。纳入标准:①具有一定的阅读能力,自愿参与并签署知情同意书;②符合2020年版《中国2型糖尿病防治指南》[1]诊断;③年龄≥60且<80岁;④交流无障碍;⑤具有基本运动能力者;⑥未患有精神疾病,具备学习能力者;⑦能按时提交连续血糖监测期间的个人饮食、运动等数据;⑧能做到遵医嘱按时服药。排除标准:①合并严重心、脑、肾、眼、足及其他限制活动的致残性疾病;②基本运动能力差,生活不能自理者;③未能按时服药者;④课题组认为不适合入组的其他情形。
1.2 研究方法
1.2.1 数据收集 使用9例各14 d的数据组成数据库。包括个人血糖数据及生活数据。血糖数据的收集采用雅培辅理善瞬感(Abbott Free Style Libre),每名患者连续监测14 d,设备以15 min的时间间隔自行记录血糖值。血糖监测期间的生活数据由患者根据课题组发放的数据采集表自行记录,分为:饮食、运动、用药及睡眠。饮食数据根据《中国食物成分表标准版(第6版)》,依照食物种类及量,采用各供能营养素(蛋白质、脂肪、碳水化合物)克重量乘以相应的能量转换系数,再求和而得,能量单位为kJ。运动数据根据薄荷健康运动卡路里计算器,将受试对象记录的运动内容转换为消耗的热量值(kJ)。睡眠数据根据睡眠时长,转换为时间数据(单位:s)。用药数据为时间点的有或无(1或0)。运用python软件构建数据转换程序,将血糖与生活数据转为可用于机器学习的,以15 min为时间戳的五维数据。数据不做平滑处理,均为原始数据纳入模型。
1.2.2 模型构建 采用LSTM-RNN与SVR两种方法构建模型。模型的数据纳入中,CGM结合饮食简写为CGM+D,CGM结合饮食、运动简写为CGM+D+E。在此次模型构建中,为减少数据类型的复杂度及噪声,睡眠及用药数据仅作为患者个体的特征体现,不进行相应的纳入对比。LSTM-RNN中,采用迁移学习(TL)策略[14],以缩减时间,并提高预测患者的准确性,即先使用所有患者的数据创建迁移学习数据集,用于预训练全局LSTM 模型。然后根据每个患者的个人记录,对全局模型进行个性化处理。模型均采用过去60 min的数据来预测未来血糖水平,预测范围(PH)为15、30、45、60 min。
2.1 数据基本情况描述 数据总量为15 678条,其中CGM数据12 382条(占比79%),饮食记录数据2 521条(占比16%),药物数据359条(占比2.4%),运动数据290条(占比1.8%),睡眠数据126条(占比0.8%)。
2.2 模型表现
2.2.1 模型预测评价 SVR构建血糖预测模型,在相同数据输入下,模型表现随着PH的延长而下降,差异有统计学意义(P<0.05)。在相同PH下,PH=30 min时,3种数据输入模式其RMSE值差异有统计学意义(P<0.05),其中CGM+D的RMSE值最低(见表1);组间比较显示饮食与运动数据的加入提升模型表现,差异有统计学意义(P<0.05);而饮食与运动数据之间的比较,差异无统计学意义(见表2)。
表1 SVR模型不同组别及PH的血糖预测结果比较
表2 SVR模型PH=30 min时不同数据输入的结果比较
神经网络技术复杂,结构层次多,对数据量的要求更大,因此本研究LSTM-RNN模型在预测60 min时无法收敛,只预测到未来45 min。该算法的模型呈现更具复杂性,整体而言,随着PH的延长,模型表现差异无统计学意义(见表3)。
表3 LSTM-RNN模型不同组别及PH的血糖预测结果比较
在相同PH下,PH=45 min时,饮食数据的加入提升了模型表现,差异有统计学意义(P<0.05),而运动数据的加入对模型的影响差异无统计学意义(见表4)。
表4 LSTM-RNN模型PH=45 min时不同数据输入的结果比较
比较这两种模型,PH=15 min时,SVR优于LSTM-RNN,差异有统计学意义(P<0.05);PH=30 min时,模型表现差异无统计学意义;而随着PH的延长,到SVR(45/60 min)与LSTM-RNN(45 min)时,LSTM-RNN的模型表现提升,差异有统计学意义(P<0.05)(见表5)。
表5 SVR与LSTM-RNN模型性能比较
2.2.2 Clarke误差网络分析结果(EGA) 两种模型均表现出个体化的高度匹配,以血糖波动最大的4号患者为例。在SVR模型下,PH=60 min时的CGM+D+E数据输入EGA表现为:A(91.12%),B(7.23%);PH=15 min时,LSTM-RNN模型下的CGM+D+E数据输入EGA表现为:A(93.82%),B(6.18%),模型预测结果均达到临床可接受度(见图1)。
图1 4号患者2种构建模型下的Clarke-EGA表现图
我国糖尿病患者血糖控制达标率仅45.8%~58.4%,且年龄越大达标率越低[15-16],与2025年糖尿病患者规范管理率需达到70%[17]的国家目标相比,还有不小的差距。血糖预测模型的构建能提升医护人员血糖管理效率并帮助患者更直观地理解生活方式如何影响血糖水平,并以此促进生活方式的持续有效管理[18],减少因血糖不良波动而导致的危害[19]。血糖预测模型的研究中,绝大多数是针对T1DM患者[13],与其对胰岛素的绝对依赖、人工胰腺的使用和使用CGM设备的普及性有关。而目前针对老年T2DM患者的个体化血糖趋势预测模型的研究仍鲜有报道。因此本课题组根据保健工作实际需要,研究针对老年T2DM患者的血糖预测模型。
本研究构建的血糖预测模型能反映出不同个体基于个体特征,对热量值(摄入为正值,运动消耗为负值)的不同反应。该模型能解决两个问题:一是在当前时刻(t0)预测未来一定时间内的血糖值,二是预测摄入一定热量值时,个体后续时段(t0+n)的血糖反应。这两个功能,将有利于医护人员对患者血糖趋势的预判及热量相关措施的选择,使得精准化保健工作成为一种可能。模型表现RMSE及Clarke误差分析证实了模型的可实用性。
从模型表现来看,在当前研究人群中,饮食是血糖的主要影响因素。2种模型在加入饮食数据后,模型表现均提升,且优于运动数据。这与运动方式效率不够,对血糖的影响小,在模型里影响轻微,甚至拉低了部分模型表现。回看患者的运动记录,大部分为散步,该方式效率低,既耗时又能量消耗小。对于老年人而言,该运动方式较为和缓且单一,对血糖调控力差,在后续的生活方式指导中,应该调整该类人群安全、有效的运动方式。SVR模型短时表现优于LSTM-RNN,但LSTM-RNN表现出更为复杂的特性,随着PH的延长,模型表现提升且优于SVR算法,这与神经网络算法擅长处理各输入数据与血糖水平之间的高度异质且非线性关系有关[13]。随着患者记录的数据越来越多,该模型将变得更加个体化,从而在预测血糖方面达到更高的准确性[20]。在此次研究中,SVR的60 min/CGM+D+E与LSTM-RNN的45 min/CGM+D+E,其模型表现均是临床可接受。
综上所述,饮食是该类人群主要的影响因素,运动方式有待改善。模型可对患者进行有效的热量相关指导。课题组会在数据的深度(延长CGM设备佩戴周期)和广度(增加受试对象)2个方面进行扩充,进一步提升血糖趋势预测模型性能,达到有效辅助医护人员管理老年T2DM患者血糖,促进其健康、有效的生活方式,优化血糖水平的目的。