李晓玲
(海南医学院信息技术部,海南 海口 571199)
数据挖掘分类方法在中医证候研究中的运用探析
李晓玲
(海南医学院信息技术部,海南 海口 571199)
中医对疾病的诊治是建立在证候辨证的基础上,证候是指导临床正确选方用药、确定临床疗效的依据,是中医学理论的核心问题;但中医证候类型的复杂多样却在一定程度上制约着中医药科学的发展。文中对几大数据挖掘分类方法在中医证候研究中的运用进行探讨,并就今后的研究重点和方向提出看法。
中医证候学,数据挖掘,分类算法;分析
中医对疾病的诊治是建立在证候辨证的基础上,证候是指导临床正确选方用药、确定临床疗效的依据,是中医学理论的核心问题;但中医证候类型的复杂多样却在一定程度上制约着中医药科学的发展。从近几年的文献资料来看,数据挖掘技术在中医证候研究中的运用越来越广泛和深入,笔者查阅并研究近3 a数据挖掘分类方法在中医证候研究方面的文献,总结了几种常见的数据挖掘分类方法在中医证候研究中的运用,报道如下。
大量医学实践证明:中医药对于一些慢性病的治疗效果优于西医治疗。中医对疾病的诊治是建立在证候辨证基础上的。证候是对疾病人群类特征的刻画[1],是指导临床正确选方用药、确定临床疗效的依据,是中医学理论的核心问题,也是中医辨证治疗的核心和基础[2]。然而,目前不少疾病的中医证候辨证还未规范,这在一定程度上制约着中医、中药的发展。因此,探讨疾病的中医辨证分型十分必要[3]。近年来的证候研究逐渐采用多学科融合、交叉的思路,借鉴应用数学的优势,能够从一定程度上体现中医的思维方式,反映证候的特征[4]。
所谓数据挖掘,在不加区分的情况下也被叫做数据库知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的实际运用数据中提取出隐含在其中、可信、新颖、人们事先不知道但又是潜在有用的模式的高级处理过程。数据挖掘是由统计学、工智能、数据库、可视化技术等多个领域相融合而形成的一个交叉学科[5],具有处理和分析海量数据的能力,强调与计算机技术的结合,目前在商业、社会、经济、医学、金融等各学科领域中都有着越来越广泛的运用[6]。中医数据具有数据维数大、信息量多的特点,由于分析难度大,使得大量数据没有得到充分利用;而数据挖掘技术的运用可以在一定程度上解决这些问题。
3.1 决策树
决策树是一种由结点和有向边组成的层次结构。它通过提出一系列精心构思的关于检验记录属性的问题来解决分类问题,每当一个问题得到答案,后续的问题将随之而来,直到得到记录的类标号。决策树分类法是一种简单但却广泛使用的分类技术[7]。
陈潇雨等[8]运用Clementine 11.1软件,结合特征筛选模块、决策树C 5.0等数据挖掘方法,构建了肝胆湿热证与肝郁脾虚证的诊断模型,并发现部分西医理化指标与中医症状的组合具有一定的诊断意义;结合属性筛选与C 5.0决策树算法对慢性乙型肝炎的中西医属性进行的综合分析达到了96.94%的分类准确率。辛喜艳等[9]利用决策树分析探索缺血性中风早期各时段证候特征与近期预后的关系,分析结果显示:缺血性中风发病第3~5日为内火证,第6~8日为内风证、痰湿证,诊断成立与否与发病第21日的日常生活能力样表(BI)有关,并且缺血性中风病急性期发病第6~8日存在内风证、痰热证的患者近期预后较差。史琦[10]采用CHAID决策树和ADTree决策树方法对冠心病不稳定型心绞痛患者中医证候/证候要素与临床常规指标及生物学指标之间的关联关系进行挖掘,采用SPSS17.0 CHAID算法,对90个临床检测指标进行决策树分析,分别构建了用于识别血瘀证、气虚证、阳虚证、寒凝证、痰迚证、气滞证、痰瘀互阻证、气滞血瘀证、瘀热互结证、气阴两虚证、心阳气虚证、阴阳两虚证、痰热互结证的13个决策树模型,经10倍交叉模型验证,其总体正确率、敏感度及特异度均在70%以上,在一定程度上证明了临床常规指标对于中医辨证的指导意义。余学杰等[11]利用决策树信息熵算法对中风病火毒的证候进行了分析研究,发现火毒主要的证候是热势不解和血压骤变;并推断在长期的高血压慢性病变过程中,火毒证的前驱证已存在,在特定的条件诱发下,火毒证得以形成;火毒与急性脑梗死重症、高血压病重症关系密切。
3.2 人工神经网络
人工神经网络的研究是由试图模拟生物神经系统而激发的。类似于人脑的结构,人工神经网络由一组相互连接的结点和有向链构成[7]。覃裕旺[12]根据154例高血压患者临床流调资料建立了基于共轭梯度算法的BP神经网络模型,研究高血压中医证候与危险分层的关系,所建立的高血压中医证候危险分级模型的识别率达85.3%,但同时也存在低危组识别率较低(50%)的问题。胡金亮等[13]结合神经网络技术和模糊理论建立了动态模糊分类模型,较好地用定性形式描述了神经网络结构中蕴含的定量信息,并利用该模型对糖尿病、感冒、气管炎等多个病种进行文献数据及临床数据挖掘学习,分别获得相关病种的常见证候诊断标准,国际数据检验诊断符合率达到70%~94%。李建生等[14]利用动态kehonen网络的神经模糊系统进行慢性肺源性心脏病常见证候特征的临床研究,分析慢性肺源性心脏病的常见证候及其特征,获取了6个常见证候,常见证候诊断标准检验结果符合率为72.2%。白云静等[15-16]采用BP神经网络对765例类风湿关节炎临床证候资料进行研究,分析183种症状,诊断肝肾不足证、寒湿阻络证、瘀血阻络证、气血两虚证、痰瘀阻络证、阴虚内热证、热毒蕴结证、寒热错杂证、脾肾阳虚证等10个证型,结果显示:该BP神经网络通过训练后,3次测试的平均诊断准确率为90.72%。
3.3 贝叶斯分类
贝叶斯网是基于概率推理的图形化网络,带有概率注释的有向无环图模型,用于解决不定性和不完整性问题。对于解决复杂设备不确定性和关联性引起的故障有很大的优势,已成功地用于医疗诊断、统计决策、专家系统等领域[17]。
孙文军等[18]运用贝叶斯网络研究广泛性焦虑症,研究了有向无环图,确定了症状之间的关系,为后续的中医证候研究提供了资料。朱咏华等[19,22]将贝叶斯网络运用于中医辨证系统的研究,建立中医辨证贝叶斯网络结构及概率表,利用建立的贝叶斯网络中医辨证系统,进行数据计量分析、推理验证证候-证素-证名之间的关系,其结果与中医专家经验有较高的吻合性。吴荣[20-22]运用贝叶斯网络等数据挖掘方法,对陈可冀等7名专家治疗冠心病心绞痛的115例医案的中医证候要素及所属症状进行定性和定量研究,并建立冠心病名医诊疗数据库,旨在发掘名老中医冠心病心绞痛的辨证规律。
3.4 支持向量机
支持向量机(support vector machine, SVM)方法是近年来兴起的基于统计学习理论的分类和预测算法,建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力[23],在小样本和高维数据等分析中都有着很好的运用[7]。
杨小波等[24]将SVM算法模型运用在中医证候分析中,在使用训练之后的SVM对其他2000条测试数据进行识别后,发现其中大约有95%的测试数据能够被准确识别和预测。如果能引入更多更全面的专业知识作为先验知识, SVM模型的分类准确率会得到大幅度的提升。许朝霞等[25]研究基于径向基核函数、多项式核函数2种算法的支持向量机和ACON、OCON 2种结构的人工神经网络,进行心血管疾病的中医证候类型识别,研究发现:对于心气虚、心阳虚、心阴虚、痰浊、气滞、血瘀6个证型的证候识别准确率,OCON 结构的人工神经网络最高;对于心阴虚、血瘀、气滞3个证型,多项式核函数的支持向量机识别率最低。
4.1 已取得的成果
通过以上对近3 a数据挖掘分类方法在中医证候研究的运用分析发现:从研究方法上来说,常见、经典的分类算法在研究中都有被使用,其中以决策树方法最为突出,这在一定程度上说明决策树是一种简单且有效的分类方法;从研究领域上来说,一是针对某一种疾病中医证候分型模型的确定和检验,二是对于各类关系(例如疾病各证候之间、疾病中医证候和西医理化指标之间等)的探讨,三是除了对单一病种和多病种中医证候的横向研究外,还有少量对于研究方法进行总结性的纵向研究。此对于确定各类疾病的中医证候分型标准,以及疾病的预防、治疗和预后恢复方案的制定,均有一定的指导意义。
笔者发现很多研究者也将数据挖掘的聚类分析、关联分析等运用在了中医证候的研究中,并取得了一定的成果。如:孙文军等[4]运用聚类分析,研究广泛性焦虑症的中医证候规律;司富春等[26]运用聚类分析、频数分布分析等方法,对下肢静脉曲张的中医证型和方药进行了临床研究;赵凯等[27]利用数据挖掘技术,分析重症肌无力医案的处方用药规律;邓德强等[28]利用聚类分析、主成分分析,对糖尿病肾病中医证型的分布规律进行了分析和归纳探索;胡绿慧等[29]利用时间序列挖掘,进行了慢性乙型肝炎中医证候规律的研究。此进一步说明数据挖掘技术在中医证候研究中的前景广阔。
4.2 问题和展望
将来利用数据挖掘进行中医证候研究,应着重于以下4个领域。①2种或多种算法的结合和改进。随着研究的深入,很多研究者也发现单一利用某一种算法可能存在某一类或者某几类识别率不高的问题。在未来的研究中,应着重考虑多种方法结合优化的方式提高和改进研究效果的可能性。②完整的疾病证候分类模型的建立。目前的研究虽然建立了某种疾病证候分型的模型,但仍然存在系统性和完整性不够的问题。未来应研究如何建立完整的基本证候分型方法,并能将其指导临床实践。③对中医各证候之间关系的研究。中医学一直都秉承“事物是普遍联系的”这一真理,也特别强调“治未病”的理念。研究中医各证候之间的关系,对于指导人们在出现某一证候时的积极预防和治疗,以及降低疾病发生率,具有重要意义。④对中医学理论科学性的证明和研究。中医学是一个通过长期的医学实践总结而来的医学体系,虽然很多治疗方法和手段经检验是行之有效的,但还具有经验医疗的色彩。在未来可以利用数据挖掘技术从科学的角度证明中医学理论的科学性、合理性。
从目前运用数据挖掘分类算法进行的中医药研究来看,分类算法在中医证候中的运用尚处于起步阶段;然而,这种多学科交叉研究、多领域合作的特点符合时代发展的要求,必将具有广阔的发展空间[30]。
[1]袁世宏,王天芳,张连文.中医证候的认知思路及其数据挖掘方法[J].中医杂志,2011,52(4):284-288.
[2]王倩,生慧,金卫.中医药领域数据挖掘技术的研究与应用概况[J].湖南中医杂志,2015,31(3):186-188.
[3]孔丽娅,柴可夫,牛永宁.数据挖掘方法在中医证候学中的应用[J].浙江中医药大学学报,2014,38(6):825-827.
[4]孙文军,曲淼,唐启盛.广泛性焦虑症中医证候的聚类研究[J].中华中医药杂志,2014,29(7):2298-2230.
[5]顾捷,白慧茹.数据挖掘技术在医学领域中的应用[J].中外企业家,2013,30(34):202-204.
[6]薛薇,陈欢歌.基于Clementine的数据挖掘[M].北京:中国人民大学出版社,2012:1.
[7]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论(完整版)[M].范明,范宏建,译.北京:人民邮电出版社,2011.
[8]陈潇雨,马利庄,胡义扬.基于决策树方法的慢性乙型肝炎中医证候分类[J].上海中医药大学学报,2013,29(1): 40-44.
[9]辛喜艳,常静玲,曹克刚,等.基于决策树分析探索缺血性中风早期各时段证候特征与近期预后的关系[J].中华中医药杂志,2014, 29(8):2647-2650.
[10]史琦.基于数据挖掘的冠心病不稳定性心绞痛中医证候识别规律的研究[D].北京:中医药大学博士学位论文,2012.
[11]余学杰,李书珍,李晓燕,等.中风病“火毒”证候分析[J].中医学报,2015, 30(2):222-224.
[12]覃裕旺,张爱珍,岳桂华,等.基于BP神经网络的高血压中医证候与危险分层关系研究[J].中国中医基础医学杂志,2013, 19(4): 464-466.
[13]胡金亮,李建生,李素云.基于动态模糊神经网络的中医证候诊断标准建立方法应用研究[J].中医学报,2012,27(9):1136-1138.
[14]李建生,王明航,胡金亮,等.基于数据挖掘的慢性肺源性心脏病常见证候特征的临床研究[J].辽宁中医杂志,2011,38(1):9-11.
[15]白云静,申洪波,孟庆刚.基于共轭梯度下降算法的类风湿关节炎BP神经网络证候模型研究[J].中国中医药信息杂志,2010,17(3):96-97.
[16]洪芳,何建成,曹雪滨.人工神经网络在中医证候研究中的应用现状与趋势[J].辽宁中医杂志, 2013,40(1):13-15.
[17]蓝鋆,王晶,尤圣富,等.贝叶斯网络技术在中医证候研究中的运用[J].中国中医骨伤科杂志,2015,23(2):52-55.
[18]孙文军,曲淼,唐启盛.基于贝叶斯网络的广泛性焦虑症中医证候学规律研究[J].北京中医药,2014, 33(6): 403-405.
[19]朱咏华,朱文锋.基于贝叶斯网络的中医辨证系统[J].湖南大学学报:自然科学版,2006,33(4):123-125.
[20]吴荣,王阶,任廷革,等.基于数据挖掘的名老中医冠心病诊疗规律研究[J].中华中医药学刊,2008,26(12):2581-2583.
[21]吴荣,聂晓燕,王阶,等.基于贝叶斯网络的名老中医治疗冠心病辨证规律研究[J].Chinese Journal of Information on TCM, 2010,17(5):98-99.
[22]李琳,胡志希,凌智.数据挖掘在冠心病中医证治研究中的应用[J].辽宁中医杂志,2014,41(12):2727-2729.
[23]黄粤,高颖,马斌.中医证候研究常用数据挖掘方法述评[J].中医药学报,2010,38(3):6-10.
[24]杨小波,梁兆晖,罗云坚,等.支持向量机算法在中医证候信息分类中的应用[J].世界科学技术和中医药现代化,2007.9(2): 28-31.
[25]许朝霞,王忆勤,颜建军,等.基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J].北京中医药大学学报,2011, 34(8): 539-543.
[26]司富春,宋雪杰.下肢静脉曲张中医证型和方药临床研究的数据挖掘[J].世界中西医结合杂志,2015,10(4):449-455.
[27]赵凯,赵文光.基于关联规则重症肌无力医案据挖掘分析[J].山西中医,2014.30(12):40-43.
[28]邓德强,赵进喜,李平,等.糖尿病肾病的中医证候学研究[J].新疆中医药,2012, 30(3): 8-11.
[29]胡绿慧,何振林,温川飙.时间序列挖掘在慢性乙肝中医证候演变规律研究中的应用[J].信息与电脑,2013,25(11):117-118.
[30]陈克龙,樊永平.数据挖掘中的分类算法及其在中医证候学中的应用[J].中华中医药杂志,2011,26(3):469-473.
(编辑 颜 冬)
1001-6910(2015)10-0001-04 ·学术探讨·
R24
B
10.3969/j.issn.1001-6910.2015.10.01
国家自然科学基金(81460962)
2015-06-03