杨晓南,赵铁牛,王泓午
(1天津市红桥区中医医院,天津 300131;2天津中医药大学,天津 301617)
糖尿病是一种因胰岛素分泌缺陷或胰岛素作用受损引发糖、脂肪和蛋白质代谢紊乱的代谢性疾病,其临床特征是患者血糖持续性增高、多饮、多尿、多食及消瘦,导致患者器官和组织受损,危害患者健康。调查表明,中国糖尿病患病率已经达到10.4%[1]。与西医治疗糖尿病的药物常伴不同程度的副作用相比较而言,中医药在辨证论治基础上指导糖尿病正确选方用药,更具有独特的优势。但2型糖尿病的辨证标准不统一和证候术语欠规范等问题却在一定程度上给2型糖尿病的诊治带来一定的难度。近年来,数据挖掘方法在2型糖尿病证候研究中的运用越来越广泛。研究者运用数据挖掘方法从大量的数据资料中挖掘规律和蕴藏的有价值信息,有助于总结糖尿病证候特征和规律。现将有关2型糖尿病证候数据挖掘的文献归纳如下。
数据挖掘是应用统计学、机器学习和模式识别等学科的知识,从已经存在的、不完全的、模糊的、随机的数据中,补齐不完整的数据,在模糊和随机的数据中提取隐含在其中的、人们以往需要依赖经验才能体会的信息和知识的过程[2]。数据挖掘的特征是在没有明确假设的前提下去挖掘信息和发现知识。其优势在于数据挖掘的过程中,根据研究目的进行多角度分析,利用科学且系统化的归类要求对原本混乱的数据库信息进行整合和深层次分析,透过数据表面现象挖掘数据的本质。
数据挖掘方法在糖尿病证候研究中有很好的应用前景。糖尿病四诊信息数据包括病因、四诊信息、舌诊、脉诊和实验室检查等数据,可以来源于临床流行病学调查,也可以间接来源于电子病历和实验室检查结果,这些数据与糖尿病证候诊断密切相关。糖尿病具有病因复杂、体征和症状指标较多、危险因素多的特点,调查数据有二分类、多分类数据和定量数据,研究者利用数据挖掘技术强大的处理能力和适用性好的特性,结合糖尿病四诊信息数据和实验室指标,通过数据挖掘辨别证候与症状的关系,归纳糖尿病的辨证规律,有助于丰富中医理论,提高糖尿病证候诊断的准确率,促进中医药产业化和国际化[3]。
3.1 Logistic回归分析 logistic回归分析是一种概率模型方法,结果变量要求二分类或多项分类,广泛应用于中医证候调查横断面研究和随访研究。张倩采用Logistic回归分析糖尿病周围神经病变患者,发现阴阳两虚证的危险因素是年龄、周围神经症状、病程和舒张压[4]。张倩采用Logistic回归分析糖尿病周围神经病变患者,发现阴虚血瘀证与糖化血红蛋白相关,阳虚血瘀证与尿白蛋白排泄率相关;阴虚风动证与血清总胆固醇和血肌酐相关;痰瘀滞络证与血肌酐相关[5]。范译丹采用Logistic回归分析2型糖尿病患者合并非酒精性脂肪肝患者,发现肝肾阴虚证与三酰甘油和体质指数相关,气阴两虚兼瘀证与三酰甘油相关[6]。Logistic回归的优点对自变量类型不做要求、系数的可解释性等;其缺点是当样本含量过少时,估计的方程不稳定,结果无法解释;也会出现拟合过度的问题,适用于大样本的中医证候临行病学调查资料。
3.2 因子分析 因子分析是由英国心理学家C.E.Spearman提出,以指标间的相关矩阵为基础,探索支配多个指标相关关系的有限个潜在因子的一种非线性多元统计分析方法,是高维度数据降维的一种统计分析方法。因子分析找到能准确反映2型糖尿病症状的潜在因子,将每个因子归纳为某一证候因素,具有指导临床实践的价值。而证候要素是通过辨识证候的病位和病性,来确定证名的基本要素[7]。目前,2型糖尿病尚未形成统一的证候要素共识,多数学者借助因子分析来提取2型糖尿病证候的要素。王佳笑采用因子分析对2型糖尿病合并高血压病患者的症状进行分析,提取7个病性要素:气虚、阴虚、阳虚、血瘀、阳亢、湿痰和热盛[8]。龚燕冰采用因子分析对2型糖尿病患者的症状进行分析,提取出6个病性要素:阴虚、气虚、血瘀、湿热、热盛和气滞,病位为肝、脾、肾[9]。孟庆扬采用因子分析对2型糖尿病合并血脂异常患者的症状进行分析,提取出4个病性要素:阴虚、阳虚、气虚、痰,病位为肾、肝和脾[10]。齐方洲采用因子分析对糖尿病早期微血管病变患者的症状进行分析,提取出11个病性证素:气虚、阴虚、阳虚、热、湿、燥、血瘀、气滞、气郁、气逆和血虚,病位为肾、肝、脾、肺和胃[11]。曹晶晶采用因子分析对糖尿病视网膜病变患者的症状进行分析,提取10种病性要素:阴虚、气虚、血瘀、阳虚、痰、血虚、精亏、气滞、湿和热[12]。赵灵燕采用因子分析糖尿病患者中医四诊信息,提取出阳虚证、阴虚证和气虚证[13]。归纳出2型糖尿病的证候要素以阴虚为本,燥热为标,虚证表现气虚、血虚、阴虚和阳虚4种类型,实证表现为血热、血瘀、火旺和湿热。可以看出,因子分析的优点是根据糖尿病的原始指标的信息进行重新组合,找出影响变量的共同因子,并通过旋转使得因子更具有可解释性,对应于某一证候;其缺点是易出现估计方法选择不当,导致估计结果失真。
3.3 聚类分析 聚类分析根据物以类聚的原理,将本身没有类别的数据聚集成不同的类别,将性质相近的事物归为一类,将性质差别较大的归入不同的类,并对每一个这样的类进行描述的一种统计方法。因此,聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。组内的相似性越大,组间差别越大,聚类就越好。在证候研究中,聚类分析可对疾病的症状和体征等信息进行统计学分析,客观地进行分类。采用聚类分析探索2型糖尿病证候,从数据中挖掘出其自然类别,依据各个指标之间的相关系数,建立有统计学依据的证候关联,把高度的同质性一组症状和体征聚为一类。目前,采用聚类分析对2型糖尿病证候规律分析方面取得一些共识。巩璇采用聚类分析对2型糖尿病患者进行聚类,聚为脾肾气虚证、阴虚热盛证、肝肾阴虚证、阳虚血瘀证和气阴两虚夹痰湿证[14]。牟新采用聚类分析对2型糖尿病患者进行聚类,聚为痰瘀化火证、气阴两虚夹瘀证、肝胃火盛证、肾阳虚证和肝气郁滞证[15]。张志龙采用聚类分析对2型糖尿病患者进行聚类,聚为痰湿血瘀证、阴阳两虚证、血瘀水停证、气阴两虚证、脾虚湿盛证和阴虚热盛证[16]。杨江成采用聚类分析对2型糖尿病患者进行聚类,聚为气虚证、阳虚证和阳虚水泛证[17]。孟庆扬采用聚类分析对2型糖尿病合并血脂异常患者进行聚类,聚为肾阳气虚证、肝肾阴虚夹湿热证、胃气滞证、脾肾阴阳两虚夹心气血虚证和气滞血瘀证[10]。张锦明采用聚类分析对2型糖尿病患者进行聚类,聚为气虚证、阴虚证、血瘀证、湿证和热证[18]。林兰采用聚类分析对2型糖尿病患者进行聚类,聚为阴虚热盛证、气阴两虚证、阴阳两虚证、湿热证、痰湿证、血瘀证和气滞证[19]。周迪夷采用聚类分析对2型糖尿病患者的症状进行聚类,聚为气虚证、阴虚证、气阴两虚证、阴阳两虚证、血瘀证、湿热证和郁热证[20]。聚类分析可以为2型糖尿病证候的分类提供客观依据,具有一定的可行性及科学性。聚类分析的优点是直观、结论形式简明;其缺点是样本量较大时,要获得聚类结论有一定困难,无法准确对应于某一证候。
3.4 决策树 决策树是一种以树结构形式表达进行预测的数据挖掘方法,是证候的量化与客观化研究的数据挖掘工具之一。结点有两种类型:根结点和叶节点。通过从根结点一直到达叶子结点的路径转换,生成简单易懂的分类规则。赵灵燕采用决策树对2型糖尿病检测指标数据进行分析,提取出痰浊证的核心指标是尿素氮、白细胞、平均红细胞体积、超敏C反应蛋白、红细胞和甲状腺素,建立了痰浊证决策树模型,其灵敏度为75.47%、特异度为76.22%,正确率为75.90%[21]。采用决策树分析2型糖尿病痰浊证的检测指标,有利于2型糖尿病证候客观化研究。决策树的优点是能快速地学习证候特征,分类准确率高;训练集数据量较大的情况下,决策树模型效率较高,稳定性好。其缺点是容易过度拟合问题,忽略属性之间的相关性。
3.5 关联规则 关联规则是一种挖掘隐藏在数据集中的不同事件之间的关联和相关性。如果两项或多项事件之间存在关联,那么其中一项的属性可以依靠其他属性值进行预测。关联规则是用来分析症状之间的关系,以支持度与置信度来量化高频症状之间的相互关系,并作为一组关键症状组合来评判糖尿病。赵艳青采用关联规则挖掘出2型糖尿病15组症状群,如口渴喜饮—视物昏花—五心烦热—目睛干涩,五心烦热—气短懒言—口干咽燥等,症状与脉象组合如睛干涩—脉细涩,五心烦热—脉细数,症状与舌象组合如气短懒言—舌胖。采用关联规则辨识糖尿病中医证候,为糖尿病的中医证候分型提供了一种新的研究思路[22]。可以看出,关联规则的优点是可以产生清晰有用的结果;其缺点关联分析输出的规则数量较多,且多数并无利用价值,给关联规则的解释带来难度。
3.6 人工神经网络 人工神经网络以神经元为运算单位,模拟生物神经网络结构与功能的特点,建立算法数学模型对分布式数据并行信息进行处理,完成对信息的加工与处理的一种统计方法。人工神经网络有强大的非线性处理能力,采用合适的学习算法,对糖尿病四诊信息数据进行准确地处理,达到糖尿病证候诊断的目的。近年来,人工神经网络预测2型糖尿病证候是人工智能发展的新趋势,被广泛应用于糖尿病证候数据分析中。采用神经网络建立糖尿病诊断预测模型,可以辅助诊断糖尿病。吴燎采用BP神经网络对糖尿病患者的症状分析,构建糖尿病诊断预测模型,正确率达到95%[23]。可以看出,人工神经网络的优点是具有容错性和自组织性,可学习和自适应不知道或不确定的数据,能够同时处理定量和定性数据;其缺点是把一切问题的特征都变为数字,把一切推理都变为数值计算,其结果易丢失信息;输出结果难以解释,会影响到结果的可信度和可接受程度。
3.7 结构方程模型 采用结构方程模型研究糖尿病证候,把证候看成潜在变量,四诊信息看成外显变量,建立糖尿病证候的预测模型,衡量证候与症状的关系,有助于指导糖尿病证候诊断。柴可夫采用结构方程模型对糖尿病早期微血管病变患者的四诊信息进行分析,构建了气阴两虚证、肝肾阴虚证、湿热困脾证、阴阳两虚证、脾肾阳虚证和脾虚气滞证模型。其中气阴两虚证的症状有气短、心悸、自汗、少气懒言、困倦乏力、视物模糊、两目干涩、盗汗、潮热、烘热、颧红、手足心热和大便干结[24]。孔丽娅采用结构方程模型构建病位证素组合的模型,发现肝脾两脏关系最为密切,脾肾其次,再者肝肾、肝胃、肾胃;阴虚与实热相关性最高[25]。杨晓南采用结构方程模型构建2型糖尿病气阴亏虚证和四诊信息的模型,气阴亏虚证的症状有神疲、四肢乏力、胸闷、自汗、咽干、面色苍白、口干、神疲、舌淡红和脉弱。结构方程模型可以分析证候与症状的关系,为2型糖尿病证候分析提供了客观依据[26]。结构方程模型的优点是允许自变量和因变量存在测量误差,可提供总体模型检验和独立参数估计检验,可处理变量的多重相互关系;其缺点是由于假设误差项不相关,导致结果不能如实反映实际情况。
3.8 贝叶斯网络 贝叶斯网络是一种基于概率推理的图形化网络的统计分析方法。它包括网络结构和概率推理两部分,用概率测度的权重表达变量间的相互关系。贝叶斯网络是由一个节点集合和一个节点间的有向边集合组成的有向无环图,能将不确定的信息进行学习和推理,有助于辨识证候。龚燕冰采用贝叶斯网络分析2型糖尿病合并脑病、肾病、高血压病患者,发现2型糖尿病合并高血压病,空腹血糖、餐后2 h血糖和糖化血红蛋白异常者阴虚为主;2型糖尿病合并脑病,空腹血糖、餐后2 h血糖异常以气虚为主;2型糖尿病合并肾病,空腹血糖异常者以阳虚为主[27]。龚燕冰采用贝叶斯网络分析2型糖尿病患者,发现空腹血糖异常的患者以阴虚热盛多见,餐后2 h血糖异常的患者以阴虚多见,糖化血红蛋白异常的患者以阴虚热盛多见,血脂异常者以气虚为主,血压异常者伴见血瘀[28]。刘瑜采用贝叶斯网络分析2型糖尿病合并脂代谢紊乱病历,发现湿痰、血瘀贯穿2型糖尿病合并脂代谢紊乱始终,主要方剂有丹参饮、玉女煎、生脉散和六味地黄汤[29]。贝叶斯网络可以揭示症状与证候间的复杂关系,有助于早期诊断2型糖尿病。可以看出,贝叶斯网络的优点是具有方向性,用简明的图形方式定性的表示事件之间复杂的因果关系,比较适合于解决中医诊断问题;其缺点是在属性之间相关性较大时,分类效果不好。
3.9 支持向量机 支持向量机是以达到结构风险最小化为原则,通过将非线性数据赋予高维特征性,构造出最优分类超平面的一种统计方法。阚红星采用支持向量机识别2型糖尿病气阴两虚夹瘀证的舌图像,其灵敏度为93.85%,特异度为62.79%,正确率为79.63%[30]。说明采用支持向量机法分类识别舌图像,有助于诊断患者中医证型。支持向量机的优点是在小样本高维数据上具有分类精度高的特点,解决二分类识别问题,可有效弥补传统算法中维数过多的缺陷;其缺点是容易出现过拟合问题,对缺失数据敏感。支持向量机用于解决小样本、非线性及高维模式识别的问题。
近几年,中国2型糖尿病具有病因复杂和危险因素多的特点,其患病率呈现逐年增高的趋势。中医药在治疗糖尿病患者方面发挥了重要作用,中医临床医生和科研人员以全新的视角利用数据挖掘方法分析糖尿病症状与证候、实验室与证候指标之间的关系,分析糖尿病证候与症状之间的关联,揭示糖尿病数据蕴藏的规律,尤为重要。目前,尽管存在2型糖尿病的辨证标准不统一和证候术语欠规范等诸多问题,很多学者已经达成2型糖尿病的证候特征研究的共识。2型糖尿病的虚证表现气虚、血虚、阴虚和阳虚,实证表现为血热、血瘀、火旺和湿热,主要包括肺热津伤证、胃热炽盛证、气阴两虚证、肾阳气虚证、气虚证、痰湿证、血瘀证、肾阴亏虚证和阴阳两虚证等常见证型。学者以中医理论为基础,采用数据挖掘技术分析2型糖尿病的证候特征,以客观数据的形式辅助医生进行糖尿病证候识别,为临床医生诊疗服务提供了科学依据,从而提高糖尿病证候诊断的准确性和客观性,促进现代医学和中医学有效融合,有助于2型糖尿病证候研究规范化和科学化,为其他疾病证候研究提供了新的思路。