郑 瑞, 石苗苗, 蒲新明
(1新疆医科大学公共卫生学院, 乌鲁木齐 830017; 2新疆维吾尔自治区第二济困医院(新疆维吾尔自治区第五人民医院), 乌鲁木齐 830013)
心血管疾病(Cardiovascular disease,CVD)是全球人群死亡的首位死因,血脂异常作为心血管疾病的主要危险因素之一,控制血脂水平可有效降低心血管疾病的患病风险[1]。流行病学调查结果显示,我国成年人总体血脂异常率约为40%,其中高胆固醇血症率约为28%,高甘油三脂血症率约为15%[2]。血脂异常随着年龄的增长而逐渐增多,男性多于女性。同时,血脂异常也与肥胖、高血压等慢性病密切相关,这些风险因素可能相互影响,进一步加重血脂异常的风险[3]。因此,通过健康体检筛查,预防和控制血脂异常已成为公共卫生中的重要问题[4]。随着生物数学、统计学、大数据科学的发展,越来越多的研究人员尝试将数学模型应用于疾病的描述[5-7]。本研究通过分析2016-2020年乌鲁木齐新市区年龄≥18岁以上全民健康体检人群的血脂异常检出率与年龄、性别、吸烟状况、饮酒频次、文化程度及体质指数的相关性,采用ARIMA(Autoregressive intergrated moving average)乘积季节模型对新市区血脂异常月检出率进行预测,从而为血脂异常的防治提供一定的数据支持。
1.1 资料来源从乌鲁木齐市卫生健康委员会获取2016-2020年新市区年龄≥18岁全民健康体检人群血脂异常的相关数据及报表。
1.2 血脂异常诊断标准以血脂异常防治指南制订联合委员会《中国成人血脂异常防治指南》(2016修订版)为依据,总胆固醇(TC)≥6.2 mmol/L;甘油三脂(TG)≥2.3 mmol/L;高密度脂蛋白胆固醇(HDL-C)<1.0 mmol/L;低密度脂蛋白胆固醇(LDL-C)≥4.1 mmol/L,存在以上情形之一为血脂异常。
1.3 吸烟及饮酒分组标准吸烟者[8]:每天至少吸烟1支且持续1年以上,或者1年累积吸烟>18包者;已戒烟者[8]:目前不吸烟且持续在半年以上,但曾经经常或每天吸烟。饮酒频次[9]:不论是白酒、啤酒、葡萄酒或者黄酒等,只要平均每周一次即定义为偶尔饮酒;每周大于3次即定义为经常饮酒;逢年过节饮酒一次者定义为不饮酒。
1.4 ARIMA模型的构建(1)时间序列的增项DF单位根检验(Augmented dickey-fuller test,ADF)检验,确保序列的稳定性;画出乌鲁木齐市新市区血脂异常检出率序列图并判断其稳定性;若不稳定,对原始数据差分。(2)选定一个(或几个)合理的模型(即选定可能的p值和q值):做出序列的自相关(Autocorrelation function,ACF)和偏自相关(Partial autocorrelation function PACF)图。(3)通过比较赤池信息量准则(Akaike information criterion,AIC)值和贝叶斯信息准则(Bayesian information criterion,BIC)来得到最合理的模型,AIC值和BIC值越小来得到最合理的模型。(4)从统计假设和预测准确性等角度评估模型:模型合适,模型的残差应该满足均值为0的正态分布,并且对于任意的滞后阶数,模型的残差都应该满足正态分布。(5)预测:如果残差不满足正态性假设或零自相关系数假设,需要调整模型、增加参数或改变差分次数。选定模型后,短期预测血脂异常检出率(包含预测点和95%的置信区间)。
1.5 统计学分析采用SPSS25.0和R4.0软件处理数据。不符合正态分布的计量资料以M(P25,P75)表示,计数资料以例(%)表示,采用χ2检验,以P<0.05为差异具有统计学意义。
2.1 基本情况2016-2020年新市区参加全民健康体检者共有89 196人,2016-2020年依次为:16 269人、14 342人、15 031人、20 488人和23 034人。其中,女性多于男性,男女性别比依次为:1∶1.22、1∶1.25、1∶1.16、1∶1.15、1∶1.10。2016-2020年健康体检人群的平均年龄为:50(36,62)岁、49(36,62)岁、52(35,64)岁、53(38,66)岁、53(38,66)岁。
2.2 血脂异常检出率及单因素分析年龄、性别(除2016年)、吸烟情况(除2019年)、饮酒频次(除2019年)、文化程度和体质指数是乌鲁木齐市新市区健康体检人群血脂异常的影响因素(P均<0.05)。在18~69岁年龄区间,血脂异常检出率随着年龄的增大而升高;除2016年外,男性的血脂异常检出率高于女性;有吸烟史者的血脂异常检出率较不吸烟者高;每天饮酒者的血脂异常检出率较高;文化程度大专及以上者的血脂异常检出率较低;超重和肥胖者的血脂异常检出率升高,见表1。
表1 2016-2020年乌鲁木齐市新市区体检人群血脂异常检出情况/例(%)
2.3 ARIMA时间序列模型
2.3.1 2016-2020年血脂异常检出率时序图及平稳性检验 本研究采用月度检出率构建ARIMA模型。图1绘制2016年1月-2019年12月的乌鲁木齐市新市区全民健康体检人群的血脂异常检出率时序图。使用ADF检验原始序列的平稳性,结果显示血脂异常检出率的时间序列为非平稳序列(P>0.05)。季节效应分解图(图2)表明新市区的血脂异常检出率具有季节性趋势,故需对原始序列进行一阶季节差分来消除季节性影响。
图1 2016年1月-2019年12月新市区全民健康体检人群的血脂异常检出率时序图
图2 2016年1月-2019年12月血脂异常检出率季节效应分解
2.3.2 模型的识别与参数确定 原始的数据进行一阶差分和一阶季节差分处理之后,数据达到平稳序列,故模型中d=1,D=1。图3展示了平稳时间序列ACF和PACF图,两图均为1阶截尾。考虑到模型阶数过高将造成过拟合,因此,参数取值范围为0~2,对p和q由低到高阶进行拟合尝试,设置临界值,排除AIC大于-57的模型,最终列举9个模型的AIC、BIC值(表2)。通过最小信息量准则,比较AIC值和BIC值越小来得到最合理的模型,确定最优模型为ARIMA (1,1,1) (0,1,1)12,其中AIC=-59.255 71,BIC=-53.034 31。
图3 平稳序列的自相关图和偏自相关图
表2 模型的AIC、BIC比较
2.3.3 模型诊断 对模型残差进行白噪声检验,经杨-博克斯检验(Ljung-Box) Q检验,结果显示P=0.485(P>0.05),可认为该残差序列为白噪声,模型基本满足要求。
2.3.4 模型预测 采用ARIMA(1,1,1)(0,1,1)12模型对乌鲁木齐市新市区2020年的血脂异常检出率进行预测,见图4。各个月份真实值和预测值情况如表3所示,模型预测2020年1-12月份的平均绝对百分比误差(MAPE)为72.25%,具有较大的误差,由于2020年2-4月和8月未能进行全民健康体检,除外上述月份,模型的MAPE为15.84%,拟合值和真实值总体趋势一致,其余各月份的实际检出率均在95%的置信区间。此时模型处于较高精度,表明该模型能短期预测血脂异常的检出情况。
图4 ARIMA(1,1,1)(0,1,1)12模型拟合和预测
表3 ARIMA(1,1,1)(0,1,1)12模型预测新市区2020年1-12月血脂异常检出情况
本研究中,新市区2016-2020年全民健康体检人群血脂异常检出率随年龄增长逐渐增高,这与衡阳市、安徽省14个县(区)、宜兴市、天津市某区、哈密市、新源县对居民健康体检的结果一致[10-15],可能由于随着年龄增长,运动量减少,身体素质降低所致。本研究中,有吸烟史者的血脂异常检出率较不吸烟者高,吸烟不仅使胆固醇、甘油三酯水平升高,还可以增加交感神经输出量,使血管受到破坏,加速了血小板的凝聚能力,增加高血压和血脂异常的患病率[16]。每天饮酒者的血脂异常检出率较高,这与孙惠昕等[17]对1990年与2019年我国归因于饮酒的疾病负担的分析结果一致,饮酒成为了仅次于饮食习惯和吸烟的第三大危险行为因素。本研究中,文化程度大专及以上者的血脂异常检出率较低,与张港澳等[18]的研究结果一致,可能由于文化程度越高,健康管理意识越强,较为注重身体锻炼及营养饮食。超重和肥胖者的血脂异常检出率升高,与孙锋等[19]的研究结果一致。随着体质指数的增加,体内的激素水平和血糖水平不稳定,导致血脂水平异常。
在公共卫生领域,利用时间序列模型预测某种疾病在未来时间的发展趋势,能够更好地做好疾病的预防,尤其是季节性时间序列ARIMA模型,此模型考虑疾病的季节性、周期性、随机性等可能影响序列平稳性的因素,同时借助模型的参数进行量化表达,多适用在传染病预测。曹新西等[20]基于1990-2017年全球疾病负担高发慢性病患病率和疾病负担数据也对我国高发的慢性疾病建立了时间序列模型,很好地反映了疾病变化趋势和特点,有助于社区卫生服务机构更好地控制与加强慢性病的监督和管理工作。本研究针对血脂异常检出率建立ARIMA(1,1,1)(0,1,1)12模型,此模型拟合值与2020年的数据波动有较大的关联,在排除2-4月和8月的疫情影响后,乌鲁木齐市新市区2020年其他月份的血脂异常检出率真实值与预测值走势一致,且实际检出率均在95%的置信区间,说明拟合的模型能短期预测血脂异常的检出情况,可以为疾病预防措施的改进和实施提供一定的参考依据。
本次研究存在一定的局限性:在人群的选择上,仅研究乌鲁木齐市的一个区,人群的范围较小,只能作为小范围地区的参考,不能代表整个乌鲁木齐市体检人群的健康水平,将在今后的研究中扩大研究范围或者使用外部数据检测模型的精度。