魏 戌,谢雁鸣,田 峰,申 浩,姜俊杰,孙帅玲,章轶立
(1.中国中医科学院望京医院,北京 100102;2.中国中医科学院中医临床基础医学研究所,北京 100700)
【实验研究】
病证结合构建慢病风险预测模型的思路与方法❋
魏 戌1,谢雁鸣2△,田 峰2,申 浩2,姜俊杰2,孙帅玲2,章轶立2
(1.中国中医科学院望京医院,北京 100102;2.中国中医科学院中医临床基础医学研究所,北京 100700)
风险预测模型研究是慢性非传染性疾病(简称慢病)防治的重要手段,但目前的疾病风险预测模型中缺乏中医证候学和症状学等方面内容。病证结合构建慢病风险预测模型的研究思路首先是以疾病发生或疾病终点指标作为目标结局变量,其次确定并采集与目标结局相关的关键信息,然后运用数理方法筛选中西医危险因素构建风险预测模型,最后评价风险预测模型的预测性能。常用的数学模型包括Logistic回归模型、Cox比例风险模型、人工神经网络、决策树模型、Markov模型、随机森林。此外在构建风险预测模型时需注意各种模型的适用条件、结局变量特征和影响因素的数据特点。
病证结合;风险预测模型;危险因素;中医证候;数学模型
西医辨病与中医辨证论治相结合,是目前中医药界和中西医结合界最为普遍应用的临床诊疗模式[1]。现代危险因素(如长期吸烟、过量饮酒)、西医理化检查、明确诊断的疾病(如高血压病、糖尿病)等可归为西医“病”的范畴,中医证候、证候要素、症状、四诊信息等可归为中医“证”的范畴。《中国居民营养与慢性病状况报告(2015年)》明确提出防治结合、中西医并重的慢病防治体系,广泛开展健康宣传教育,积极推进中医“治未病”健康工程[2]。鉴于此,在中医“治未病”理论的指导下,通过恰当的风险预测模型对疾病尤其是慢病的危险人群进行风险评估,预测未来几年内患慢病的危险程度、发展趋势及相关危险因素,是慢病管理的基础和核心环节。开展病证结合慢病风险预测的模型研究,提供准确、有针对性的健康指导,在患病前期实施适当的健康干预(未病先防),或者及时控制疾病的发展演变(既病防变),或者防止疾病的复发或产生后遗症(已变防渐),是慢病防治的重要手段。
在慢病防治过程中,风险预测模型可以有效地为其危险人群进行早期监测,进一步明确各种危险因素对疾病发生发展以及预后所起的作用强度,明确预防的重点,有利于帮助个体认识健康危险因素,强化个人的健康促进行为,尤其制订个体化的健康干预措施。
国内外研究多选择疾病的影响因素,如年龄、性别、病情严重程度、吸烟、饮酒等进行分析,但疾病的发生发展常常通过症状来传递信息,中医学理论体系之一即是辨证论治,辨析症状以归纳不同的证候特征,目前在疾病风险预测模型中缺乏中医证候学和症状学等方面的内容。本研究团队在3项国家自然科学基金面上项目的资助下,通过开展1059例缺血性中风病与1740例骨质疏松症连续3年的随访研究工作,已经证明将西医危险因素与中医证候特征相结合,能更加精确地识别危险因素和症状暴露后疾病发生、预后的危险度,实现早期监测、早期预警,对于提高公众防治慢病意识具有直接的促进作用。健康风险评估模型能将影响慢病的危险因素及人群的证候特征进行数理化提取及分析,可作为客观的评价方法指导临床实践。
2.1 以疾病发生或疾病终点指标作为目标结局变量
预防疾病的发生与有效控制疾病的进展是中医“治未病”理念的核心环节,因此早期预警的目标结局主要关注疾病发生或者疾病转归的终点结局指标变化,所观察的结局必须具有国内外公认的诊断或判断标准。骨质疏松症的终点结局是骨质疏松性骨折,中风病的终点结局是死亡、复发、残疾事件。以缺血性中风病复发为例,复发是临床终点事件之一,是导致患者死亡、再次住院、长期残疾的主要原因。影像学检查是临床判断复发事件的金标准,随着复发次数的增加,CT的影像学可以表现为梗死病灶的增加,从初次发病时的1个变为复发时的多个;肢体功能评定、症状表现可作为复发事件的判断依据,如美国国立卫生研究院卒中量表(NIH Stroke Scale,NIHSS)肢体功能评分在原有基础上增长≥4分或者出现新发中风的典型症状也可作为复发判断标准[3-4]。
2.2 确定并采集与目标结局相关的关键信息
选定目标结局后,需要根据研究目标与实际情况,参考既往研究工作、查阅文献资料与国内外临床实践指南、行业标准选取与目标结局相关的中西医影响因素信息,由临床专家、方法学专家、统计学专家等共同讨论后确定,并常以问卷形式采集相关信息。“社区40岁~65岁妇女骨质疏松危险因素及证候调查问卷”是在前期具有良好信度、效度的《原发性骨质疏松症中医证候调查问卷》和520例原发性骨质疏松症中医基本证候研究的基础上,广泛梳理文献、查阅循证实践指南、参照《中医内科常见病诊疗指南·西医疾病部分》的中医证候辨证内容,反复征求骨质疏松症中西专家的意见,与方法学、统计学专家讨论后确定信息采集点,包括一般信息、生活习惯、发病相关因素、躯体状况、临床体征等5个领域的内容共65个条目,为封闭式问卷设计[5]。
2.3 运用数理方法筛选中、西医危险因素构建风险预测模型
基于大规模人群的临床流行病学调查获得长期随访数据,发现疾病发生或预后的危险因素是慢病风险预测模型构建的关键环节。危险因素的识别、分层是制定预防策略的基础工作,从而指导早期预警和监测。国内学者针对西医危险因素研究较多。米生权等采用Meta分析方法,利用2002年中国居民营养与健康状况调查数据,筛选出年龄、体质量指数、糖尿病家族史等10个危险因素和教育程度、血清高密度脂蛋白胆固醇含量2个保护因素,建立了20~70岁中国成人未来10年糖尿病发病风险预测模型[6]。孙凤等利用7296例台湾地区35~74岁男性健康体检者纵向数据资料,随访观察5年,运用多元逐步Logistic回归方法从10个危险因素中筛选出年龄、日常工作性质、腰围、体质量和血肌酐水平5个指标,构建了骨质疏松5年发病风险预测模型,可直接估计体检者5年内新发骨质疏松风险[7]。
应用中医危险因素构建慢病风险预测模型的研究较少。在缺血性中风病死亡与复发结局的研究中,中医学者发现始发态证候特征(以风证、火证、痰证为主)可能是死亡的影响因素,以风证、痰证为主的证候特征可能与复发预后有关[8],但鉴于研究证据有限,仍需深入研究。在此研究结果基础上,我们基于1059例缺血性中风病患者3年的随访数据,以死亡或复发发生时间作为结局变量,运用随机生存森林方法,筛选出痰湿蒙神证、高龄、生活质量评分、复发、血脂异常等是死亡结局的预测因素,痰湿蒙神证、高龄、肢体功能评分、生活质量评分、复发、血脂异常等是复发结局的预测因素。
2.4 评价风险预测模型的预测性能
可利用接收者工作特征曲线下面积(area under the receiver operating characteristic curve,AUC)来评价风险预测模型的预测性能。首先运用AUC对建模队列预测模型的拟合优度进行检测,随后在验证队列中评估预测模型的外部效度。通常AUC数值介于0.5~0.1之间,较大的AUC数值代表了模型较好的预测能力。
3.1 Logistic回归模型
Logistic回归模型是用于筛选危险因素、预测与判断疾病发生、预后的经典模型。该模型将研究因素、混杂因素及其交互作用均体现在模型中,能够在控制混杂因素的作用下,对研究因素与目标结局作出定量描述。其关注的结局是二分类变量,如复发与未复发、死亡与未死亡、骨折与未骨折、疾病发生与未发生等。目前,此模型已运用于中风病[9]、心肌梗死结局事件[10]等风险预测中。
3.2 Cox比例风险模型
Cox比例风险模型是以每个时间点上的风险发生概率作为因变量,常常用于生存结局的研究,与Logistic回归模型有所不同。以肿瘤疾病研究为例,回归模型关注的是终点事件发生与否(死亡、未死亡),而Cox模型更关注肿瘤患者的生存时间,根据生存时间计算每一时刻的死亡概率,可研究多个因素对风险发生率的影响。本研究团队申浩等将发生绝经后骨质疏松症骨折时间作为结局变量,Cox单因素方法筛选后,以“骨密度+危险因素+中医症状”、“骨密度+危险因素”、“危险因素+中医症状”3种组合形式分别构建Cox比例风险模型。经AUC数值评价与统计学检验发现,第1种组合形式优于第2种(P<0.05),但第1种与第3种组合形式比较差异无统计学意义(P>0.05),研究提示在危险因素的基础上加入中医症状学内容提高了模型的预测能力。
3.3 人工神经网络
人工神经网络常应用于多因素复杂致病的慢病病因学研究,适用于具有共线性或非线性特征的数据资料。国内学者研究认为,其对于数据的拟合情况要优于 Logistic回归模型与 Cox比例风险模型[11]。但纳入变量过多会影响人工神经网络训练速度,甚至出现过度拟合现象。谭英等用该模型和多因素Logistic回归分别建立缺血性中风病患者复发的预测模型,通过AUC比较显示神经网络模型预测性能优于回归模型[12]。郭奕瑞等将人工神经网络模型运用于2型糖尿病中,结果同样显示该模型较Logistic回归模型具有更好的预测性能[13]。
3.4 决策树模型
决策树模型具有分类精度高、生成模式简单、对噪声数据具有较好的健壮性等优点,能够对各危险因素不同水平发生危险的可能性作出定性判断。于长春采用C5.0决策树算法预测2型糖尿病患者发生缺血性中风病风险,筛选出的危险因素重要程度从大到小依次为颈动脉内膜中层厚度、高血压病史、颈动脉粥样斑块、糖化血红蛋白、年龄,所建立的预测模型对训练样本和测试样本的预测准确率分别为88.41%、85.00%,准确率较高[14]。刘建平等运用决策树中的分类树模型预测深圳市缺血性中风病发病风险,研究发现最为重要的预测因素为体育锻炼和高血压病史,分类树模型不仅能有效地拟合发病风险的预测模型,还能有效地筛检变量间的交互作用效应[15]。
3.5 Markov模型
Markov模型可以较好地拟合随着时间推移人群特征变化对疾病状态转移的影响,根据不同个体的特征估计其疾病状态的转移风险概率。因其能够分析各状态间转移的影响因素以及影响程度,故Markov模型在动态评价疾病进展等方面具有较大的优势[16-17]。本研究团队田峰等通过研究社区骨量正常、骨量减少、骨质疏松3种转态人群时发现,身高变矮、绝经年限、腰膝酸软、脱发、下肢骨痛等危险因素与中医症状在绝经后骨质疏松高危人群的骨量状态转移过程中具有重要的预警作用,日常进食新鲜蔬菜可在一定程度上降低风险,该研究有助于指导社区绝经后骨质疏松高危人群早期筛查和预警,丰富了中医“治未病”理论。
表1 常用数学模型的适用条件、结局变量特征、影响因素数据特点
3.6 随机森林
随机森林属于机器学习方法,能够有效处理高维数据,可考虑变量间的交互作用及非线性特点来处理复杂生物学分析中的缺失数据问题,通常采用变量重要性评分来评价变量对于目标结局发生的影响。曹文哲等研究2型糖尿病并发视网膜病变的相关因素并构建风险预测模型,AUC数值提示随机森林模型预测效果优于 Logistic回归模型[18]。近年来,在随机森林模型基础上发展为随机生存森林模型,适用于右截尾的生存资料。同时,对高维生存资料利用随机生存森林法先降维去噪,能够有效地提高随机生存森林的降维能力,从而提高后续分析的检验效能,有助于预后预测模型的建立[19]。结肠癌预后研究证实,随机生存森林模型预测能力优于Cox比例风险模型[20]。
虽然现有数学模型较多,但在构建风险预测模型时,需要根据不同的结局变量、数据资料特点以及影响因素的数量选择合适的数学模型,这是模型研究的关键。表1显示,常用数学模型的适用条件、结局变量特征及影响因素数据特点。此外,灰色预测模型[21]、支持向量机[22]等方法也可用于慢病的风险预测研究中,为疾病预防和监控提供依据。
国内慢病风险预测的研究尚处于起步阶段,在中医药领域,慢病风险评估模型的研究应结合中医特色开展预防实践。现有的风险预测模型仅根据横断面数据作出粗略的估计,缺乏基于西医危险因素、中医证候要素等疾病风险动态预测的研究,不能满足临床实际应用的需求。在未来的研究中,可以重大疾病作为研究对象,开展大样本、长时间的随访研究,以获得多时点的数据,基于病证结合思路建立风险评估模型;开展中医证候演变与风险预测模型的研究以及风险评估模型的评价与改进。
[1]陈可冀.病证结合治疗观与临床实践[J].中国中西医结合杂志,2011,31(8):1016-1017.
[2]卫生与计划生育委员会.中国居民营养和慢性病状况报告(2015年)[EB/OL].http://www.nhfpc.gov.cn/jkj/s5879/ 201506/4505528e65f3460fb88685081ff158a2.[2016-3-15].
[3]魏戌,谢雁鸣,王永炎.缺血性中风复发的临床研究概况及中医药防治策略[J].北京中医药大学学报,2012,35(12): 805-808.
[4] OIS A,GOMIS M,RODR?GUEZ-CAMPELLO A, etal. Factors associated with a high risk of recurrence in patients with transient ischemic attack or minor stroke[J].Stroke,2008,39 (6):1717-1721.
[5]田峰,谢雁鸣,易丹辉,等.40岁~65岁绝经后骨质疏松症危险因素及证候调查问卷信度和效度分析[J].中国中医基础医学杂志,2012,18(6):609-611.
[6]米生权.中国成人个体糖尿病发病风险预测模型的建立及验证[D].北京:中国疾病预防控制中心博士学位论文,2011: 1-152.
[7]孙凤,郁凯,陶庆梅,等.台湾35~74岁男性体检者骨质疏松5年发病风险预测模型[J].中国骨质疏松杂志,2012,18 (10):905-911.
[8]曹克刚,於堃,高颖.缺血性中风急性期预后相关因素的多因素分析[J].天津中医药,2007,24(6):462-464.
[9]VAN SEETERS T,BIESSELS GJ,KAPPELLE LJ,et al.The Prognostic Value of CT Angiography and CT Perfusion in Acute Ischemic Stroke[J].Cerebrovasc Dis,2015,40(5-6):258-269.
[10] SHACHAM Y,LESHEM-RUBINOW E,ZIV-BARAN T,et al. Incidence and mortality of acute kidney injury in acute myocardial infarction patients:a comparison between AKIN and RIFLE criteria[J].Int Urol Nephrol,2014,46(12):2371-2377.
[11]贺佳,张智坚,贺宪民.肝癌术后无瘤生存期的人工神经网络预测[J].数理统计与管理,2002,21(4):14-16.
[12]谭英,耿德勤,黄水平.用人工神经网络建立缺血性脑卒中复发的预测模型[J].中国卫生统计,2013,30(5):687-689.
[13]郭奕瑞,李玉倩,王高帅,等.人工神经网络模型在2型糖尿病患病风险预测中的应用[J].郑州大学学报:医学版,2014,49(2):180-183.
[14]于长春.决策树模型在2型糖尿病患者脑梗死风险预测中的应用[J].中国卫生统计,2011,28(6):683-684.
[15]刘建平,程锦泉,张仁利,等.应用分类树模型构建缺血性脑卒中发病风险的预测模型[J].中国慢性病预防与控制,2012,20(3):254-258.
[16]高建伟.多状态Markov模型在轻度认知障碍向阿尔茨海默病转归研究中的应用[D].太原:山西医科大学硕士学位论文,2011:1-35.
[17]安小妹.多状态Markov模型在糖尿病足自然史研究中的应用[D].广州:中山大学硕士学位论文,2007:1-45.
[18]曹文哲,应俊,陈广飞,等.基于Logistic回归和随机森林算法的2型糖尿病并发视网膜病变风险预测及对比研究[J].中国医疗设备,2016,31(3):33-38.
[19]陈干霞.随机生存森林在高维生存资料中的降维分析[D].南京:南京医科大学硕士学位论文,2012:1-73.
[20]洪远芳.随机生存森林在结直肠癌预后分析的应用[D].广州:中山大学硕士学位论文,2007:1-33.
[21]李论.基于灰色预测模型的我国心脑血管疾病死亡率预测[J].现代电子技术,2015,38(11):107-111.
[22]周舒冬,张磊,叶小华,等.支持向量机技术在疾病预后中的应用和比较[J].数理医药学杂志,2007,20(6):760-762.
Thought and Method of Building Risk Prediction Model Based on Combination of Disease and Syndrome
WEI Xu1,XIE Yan-ming2△,TIAN Feng2,SHEN Hao2,JIANG Jun-jie2,SUN Shuai-ling2,ZHANG Yi-li2
(1.Wangjing Hospital,China Academy of Chinese Medical Sciences,Beijing 100102,China; 2.Institute of Basic Research in Clinical Medicine,China Academy of Chinese Medical Sciences,Beijing 100700,China)
The research on risk prediction model is the important strategy for prevention and treatment of chronic noncommunicable diseases.However,there are lack of related contents about traditional Chinese medicine(TCM)syndrome and symptom in the prediction models.Firstly,the basis of building risk prediction model based on combination of disease and syndrome is to choose whether diseas occur or disease endpoint index as the target outcome.Secondly,the key influencing factors which are relative to the known outcome are identified and collected.Thirdly,mathematical methods are chosen to screen TCM and western medicine risk factors,eventually to construct risk model.Fourthly,the performance of risk prediction model is evaluated.The common mathematical model include logistic regression analysis,Cox proportional hazard model,artificial neural network,decision tree model,Markov model,and random forest.In addition,we should pay attention to the application conditions,characteristic of outcome and influencing factors in the construction of risk prediction model.
Combination of disease and syndrome;Risk prediction model;Risk factors;Traditional Chinese medicine syndrome;Mathematical model
R512.6+2
A
1006-3250(2017)02-0180-04
2016-08-12
国家自然科学基金资助项目(30873339,81173472,81373885)-基于非齐性Markov model建立病症结合的绝经后骨质疏松证早期风险评估模型;国家自然科学基金面上项目(81173472)-基于GLSISSM模型的缺血性中风复发高危因素早期预警新方法研究;国家自然科学基金面上项目(81373885)-基于两种模型的绝经后骨质疏松性骨折早期预警方法机制研究;国家中医临床研究基地业务建设第二批科研专项(JDZX2015076)-中医综合干预方案预防原发性骨质疏松症骨折的前瞻性队列研究;北京市中医药科技发展资金项目(JJ 2015-57)-补骨生髓配方颗粒治疗原发性骨质疏松症的临床疗效机理研究
魏 戌(1985-),男,医学博士,从事骨关节退行性病变中医防治和临床评价方法学研究。
△
谢雁鸣,女,研究员,博士研究生导师,从事中医药治疗老年病、中医临床评价方法学研究,Tel:010-64014411-3302,E-mail:datamining5288@163.com。