★ 朱彦陈 赵海梅 高健 刘端勇 胡慧明 叶青
(1.江西中医药大学 江西 南昌 330004;2.江西中医药大学科技学院 江西 南昌 330025)
数据挖掘[1](Data Mining,DM)是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的知识发现过程。主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术、高性能计算、图像处理以及空间或时间数据分析等。数据挖掘技术在中医药研究领域也得到广泛应用,为中医药现代化在医案整理、证候分类、用药规律、疗效评价等方面的发展提供了强有力的证据,为中医理论的进一步发展提供新的研究思路和参考,兹将近年来研究进展作一综述。
1.1 神经网络技术 此技术以数学模型为主,重点针对复杂数据,快速完成数据抽取。神经网络技术通过模拟大脑的神经元结构,利用MP,实现非线性规划,根据数据信息的特性,决定信息的存储位置,实现自主处理。该技术在数据挖掘中,不仅可以实现数据的快速分类,还可以对数据进行模拟预测,促使数据挖掘处于优化状态,完成难度聚类。
1.2 决策树 此技术以模拟离散函数为主,借助树木模型,对实际案例进行综合分类处理。决策树理论支持数据挖掘的分析和分类,对相同属性的数据进行归类存储,进而挖掘数据分类中遵循的规则。
1.3 关联规则 关联规则挖掘过程必须先从资料集合中找出所有的高频项目组,再由这些高频项目组中产生关联规则。它是通过关联分析找出数据库中隐藏的关联网,是医学文献整理中最常用的数据挖掘技术之一。
1.4 粗糙集理论 该技术是利用粗糙集合中的属性约简和规则约简理论来对数据进行客观而有效的处理,从而更迅速地获得知识。即将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。
2.1 医案整理与名医经验传承 中医的继承一直以来都是中医发展的关键问题,然名医名家学术思想往往都保留在大量的临床医案之中,不借助一定的工具很难加以总结和概括,其规律性往往难以把握。数据挖掘技术则是一种非常好的探索名医名家学术思想和辨证规律的工具。如李艳等[2]运用数据统计和挖掘技术对临床信息进行处理,采用深度访谈的定性研究对挖掘与统计的结果加以分析,以病历数据作为客观依据,以杨宝元老中医的意见为主导,结合临床实验的疗效验证,总结出杨宝元老中医防治冠心病的原则为补气为先、温阳为上,气血兼治、贵在化瘀,善用虫药、化瘀通络;临床用药体会总结四法为益气化瘀法、温阳化瘀法、温阳通脉法、化瘀通络法。凌颖茹等[3]通过收集黄春林教授治疗肾病综合征(NS)病例,录入“中医传承辅助平台”系统,采用系统中的关联规则、改进互信息法、复杂系统熵聚类等无监督数据挖掘方法,发现其治疗NS的基本方(黄芪、杜仲、菟丝子、女贞子、芡实、丹参、蒲公英、藿香)及8首相关新处方。李秀娟等[4]以《当代名老中医典型医案集》为数据源,通过对68则医案77诊次,采用频数分析、关联规则等数据挖掘方法进行分析,获得195味中药、1073频次及核心药物30种,获得药对关联规则共25条。结果发现名老中医治疗胃脘痛喜用甘缓建中、疏肝气、柔肝体、除湿运脾、苦寒清降、活血化瘀等药物;白术、半夏、甘草组成的药对在治疗胃脘痛中通过巧妙配伍发挥多种疗效。刘云涛等[5]以病毒性肝炎为例,通过数据的分类整理、数据库的建立、产生关联规则,结果发现名老中医认为病毒性肝炎主要病因为热邪和湿邪、寒邪,脾虚、阴虚、肝郁亦可为重要的致病因素;并以湿热蕴结、肝郁气滞为常见证候,确立了清热利湿、疏肝解郁为核心治法,同时强调久病必虚、久病必瘀,故联合健脾疏肝、凉血化瘀、芳香化浊为治。这些都提示数据挖掘不仅可探索名医名家对疾病发病规律的认识,同时也可挖掘临床实践辨证用药的规律,为中医医案及名医经验的传承具有较好的帮助。
2.2 证候规律与标准化 证候是反映疾病本质规律的象征,是中医的标准化的主要任务之一,然而中医在症状、体征等临床表述上、证候分型上往往都用各自语言,不同表述,甚至存在不同含义的差异,如何将中医从症状、体征等证候的构成因素及证候分型的本身进行规范和统一,是数据挖掘技术探索证候研究的主要工具之一,唐启盛等[6]通过调查共纳入广泛性焦虑症的症状61项,运用贝叶斯网络技术等数据挖掘技术建立61项症状的关系模型,提取了9个证候要素和5个证候靶位;并运用聚类分析提取了8个证候类型,结合专家经验和中医理论,确定广泛性焦虑症有肝郁化火、肾虚肝旺、痰热扰心、心脾两虚、肝郁脾虚、心肾不交等6个证候类型,并制订了广泛性焦虑症的中医证候诊断标准。方朝晖等[7]通过选取2型糖尿病患者813例、901次诊次,采用多维检索软件频数、构成比、Liquorice复杂网络节点度、频度及点式互信息分析方法,发现2型糖尿病中医证候以气阴两虚夹瘀证为最多见,其中40岁以下以气阴两虚证居多,40岁以后年龄段的糖尿病人群以气阴两虚夹瘀证为主,为糖尿病中医诊断提供了标准化参考。李建生等[8]使用Epidata软件建立数据库,采用MATLAB 6.5软件,运用数据挖掘方法,分析719例患者慢性肺源性心脏病的常见证候及其特征,最终通过规则转换及设定的证候主次症标准,确立了痰热壅肺证等6个常见证候,诊断标准检验结果符合率为72.2%。李亚等[9]则通过采用人工神经网络、模糊系统,构建基于动态Kohonen网络的自适应模糊推理系统模型,并用Fisher-iris数据检验模型可靠性。最后用该模型对临床数据挖掘,依据中医基础理论,获得弥漫性肺间质疾病常见证候诊断标准,其标准诊断符合率为73.8%。王学伟等[10]应用贝叶斯网络方法分析474例血瘀证临床诊断数据,并进行血瘀证定量诊断,发现了血瘀证的如疼痛程度等7个关键症状,且运用这一方法对血瘀证诊断的准确率达到96.6%。说明贝叶斯网络方法在中医定量诊断中具有良好的应用前景。通过这些数据挖掘技术对中医临床海量数据的整理,进一步规范中医病名、症状、体征以及证候,使中医辨证论治过程中也可以有相应标准化的诊断依据和参考。
2.3 用药与配伍规律 作为药物,中药同样具有的一定作用偏性,通过合理的组织,纠其偏性,制其毒性,增效减毒,消除不良影响,中医谓之配伍。发现和掌握中药配伍规律对于遣方用药、减少临床用药的随意性、保证临床疗效具有重要意义。然而鉴于疾病的复杂性和古今临床医生的个人用药特点和习惯,中药配伍规律湮没在浩瀚的临床病案之中,只有通过数据挖掘技术才能有机的将其挖掘出来,才能更好继承传统中医的诊疗特色,进而创新中药的配伍设计和优化。王润林等[11]将《中华名医名方薪传》中收集的全125位名老中医用中医药治疗胃病的中医处方录入计算机,建立数据库,采用数据挖掘技术从中药的种类、四气五味、归经功效及核心药物等角度发现治疗胃病用药规律。黄颖琦等[12]则运用相关置信度规则,并利用剪枝方法筛选关联度最强的数据对中医止呕方剂药物配伍的数据进行挖掘,结果发现最常用的单味药物(生姜使用频率高达61.23%)、关联性最强的核心药对(茯苓配伍姜半夏)、关联度最强的药组(生姜、姜半夏、茯苓)等,用数据挖掘语言证明了仲景创制的小半夏加茯苓汤被证实是中医止呕的核心药组。李文涛等[13]通过建立血液病中药方剂数据库,采用矩阵比较法探讨血液病验方的复杂信息。结果发现治疗血液病用药大多以补气健脾药、补血养血药、凉血药为主,揭示了中医治疗血液病验方中药的组合规律。谭展鹏等[14]以治疗痢疾的中药为例,采用关联规则与频数分析方法分析四诊信息、病因、证候分别与中药之间有对应规律,论证了基本方与中医证治痢疾理论切合,提示该研究方法能较好地挖掘名老中医关于痢疾的中药配伍及方证规律的经验。同样的方法陈裕等[15]运用于探索当代名中医针刺治疗痞满的选穴与配穴规律也取得了理想的效果,可见数据挖掘技术对于中医方剂(药物和针灸)处方规律的挖掘具有良好的实用性和价值。
2.4 疗效评价 疗效是关键,中医通过辨证论治和整体观念调理阴阳平衡,促使阴平阳秘。中医疗效的评价体系并没有建立,其评价往往通过症状体征的消失作为标准,评价体系不规范,不标准,与现代医学严重脱钩。有意思的是,王雪峰等[16]采用数据挖掘技术对177项小儿肺炎病证诊断有临床意义的证候变量进行分析,观察小儿肺炎各证的症状、体征随病程等时间点变化的动态变化规律,在规范证候的同时,构建了小儿肺炎的中医疗效评价指标和方法体系。而印莹等[17]设计交互式数据挖掘框架,采用数据挖掘、数理统计和逻辑分析相结合的方法,揭示小儿肺炎各证和所属症状之间的关联性,并建立了客观的、人机交互可度量的病证结合的疗效评价体系。沈亚诚等[18]采用基于相似性的多变量时间序列,通过距阵Frobenius范数,生成疗效时间序列对绝经综合征中医药临床疗效评价和中西医疗效评价比较进行了研究,发现中医药疗效分析结果与生存质量分析的结果基本一致,可辅助临床专家建立较完整的中医药临床疗效评价指标体系。
近年来,随着数据挖掘技术的不断应用与发展,新涌现了一种医学数据挖掘技术-支持向量机,它对数据库中模式分类的准确率一般要高于神经网络,该技术可以面向整个医学数据库或医学信息集合提供知识和决策。在当今大数据时代,已有大量中医病例数据以各种不同形式存储于数据库中,数据挖掘技术作为一个在海量数据中获取知识和信息的有效工具,不仅对中医医案、疾病的诊断和治疗、医著的学习和中医学术思想的整理继承会发挥巨大的作用,也将进一步加快中医药知识完善和更新的步伐,是中医药现代化发展的有力途径。数据挖掘技术的应用,既提高了中医病证诊断的客观性和准确性,也有力地推动了中医药研究的规范化进程。
[1]M.S.B.PhridviRaj, C.V.GuruRao.Data mining-past, present and future-a typical survey on data streams[J].Procedia Technology, 2014, 12:255-263.
[2]李艳,房立峰,李晓东,等.数据挖掘方法在杨宝元老中医经验传承中的应用[J].药物临床研究,2014,12(2):41-43.
[3]凌颖茹,赵龙,白莉,等.基于数据挖掘方法分析黄春林教授治疗肾病综合征用药经验[J].世界科学技术:中医药现代化,2013,15(5):958-964.
[4]李秀娟,张天蒿,张素,等.基于数据挖掘探索名老中医治疗胃脘痛的用药规律[J].福建中医药,2012,43(3):1-2.
[5]刘云涛,郑丹文,罗翌.数据挖掘技术在名老中医防治传染病经验传承中的应用体会[J].临床医学工程,2012,19(8):1 343-1 345.
[6]唐启盛,孙文军,曲淼,等.运用数据挖掘技术分析广泛性焦虑症的中医证候学规律[J].中西医结合学报,2012,10(9):975-982.
[7]方朝晖,罗云,李中南,等.基于数据挖掘技术的2型糖尿病中医证候规律研究[J].中医药临床杂志,2013,25(8):663-665+753.
[8]李建生,王明航,胡金亮,等.基于数据挖掘的慢性肺源性心脏病常见证候特征的临床研究[J].辽宁中医杂志,2011,38(1):9-11.
[9]李亚,胡金亮,李素云,等.基于数据挖掘的弥漫性肺间质疾病中医证候诊断模型建立研究[J].辽宁中医杂志,2010,37(12):2 333-2 335.
[10]王学伟,瞿海斌,王阶.一种基于数据挖掘的中医定量诊断方法[J].北京中医药大学学报,2005,28(1):4-7.
[11]王润林,李廷保.基于数据挖掘对名老中医治疗胃病中药配伍规律的文献研究[J].新中医,2013,45(4):132-134.
[12]黄颖琦,贾恒,何前松,等.关联度最强药物配伍的中医止呕类方数据挖掘[J].中国实验方剂学杂志,2012,18(14):1-4.
[13]李文涛,刘昶,王增绘,等.基于中医治疗血液病方剂的中药组合规律数据挖掘[J].中华中医药杂志,2012,27(12):3 096-3 099.
[14]谭展鹏,罗翌,李际强.当代名中医痢疾医案43则中药配伍及方证规律的数据挖掘分析[J].临床医学工程,2011,18(3):412-414.
[15]陈裕.当代名中医针灸治疗偏头痛用穴特点的数据挖掘[J].深圳中西医结合杂志,2012,22(3):148-150.
[16]王雪峰,董丹,梁茂新,等.数据挖掘技术在小儿肺炎中医临床疗效评价研究中应用的思路与方法[J].中国中西医结合杂志,2007,27(10):949-951.
[17]印莹,张斌,赵宇海,等.基于中医疗效评价的交互式数据挖掘框架[J].计算机工程,2008,34(23):34-35+46.
[18]沈亚诚,王小云,傅昊阳,等.基于数据挖掘的绝经综合征中医药临床疗效评价研究[J].中国卫生统计,2008,25(4):387-390.