潘晔,娄静,潘玉颖,范军铭,侯留法
河南省中医药研究院附属医院,河南 郑州 450004
近年来,中医药数据挖掘相关研究发展迅速,尤其名老中医传承、名医经验规律方面成果显著。辨证论治是一个主观决策的过程,不同医者对症候的认识不同,即使同一病症,其注重的关键症候也不同。名老中医经验探索的关键在于发掘名老中医辨证论治独特的专注点。辨证论治注重整体观念,兼顾个性化体征,关注每次就诊的不同症候。四诊信息所蕴含的数据具有高度的个体性、动态性、多样性。运用数据挖掘方法将海量知识进行归纳分析,发现能反映疾病本质与辨证施治的关键联系,以及各个信息元之间的内在隐含关系,解决中医特色研究和发展中的关键问题——隐性知识的显性表达,无论名老中医传承、经验总结、古籍文献挖掘与数据库文献研究,关键在于中医药隐性知识的挖掘。数据挖掘可为中医各个特色信息元之间内在隐含关系的挖掘、规律的总结、问题的发现等提供技术和方法学支持。兹就中国知识资源总库(CNKI)中医药数据挖掘文献进行整理,为相关研究提供参考。
以“中医药”与“数据挖掘”为关键词检索,文献类型包括学术期刊与学位论文,起止时间1998-2020年,得到文献3 844篇,主要分类为医药卫生科技、信息科技、基础科学。鉴于本文侧重研究者对中医药数据挖掘的应用,所以选定文献分类目录为医药卫生科技,信息科技与基础科学相关文献因侧重于相关信息系统构建与算法研究而排除,得到相关文献3 654篇。将检索文献下载并进行筛选及内容梳理,删除重复文献,将少数非中医药数据挖掘文献排除,最终得到3 597篇。本文借鉴文献计量学的共词分析,但侧重辨证论治过程中数据挖掘方法的应用。对处方进行数据挖掘分析,归为用药规律类;症候与证型的对应关系分析,归为辨证规律类;症候-证型-用药均使用数据挖掘分析,归为辨证用药规律类;选穴穴位及对应症候分析,归为选穴规律类;以某一疾病的公开文献为数据源进行数据挖掘方法分析,按其主要内容分为用药规律类或文献综述类;将网络药理学与数据挖掘方法结合进行中药研究,按其内容侧重归为用药规律类或中药研究类;数据挖掘算法研究及医药信息系统构建的文献,归为中医药信息化类。具体文献数量与类型见图1。
图1 中医药数据挖掘类文献类型数量
从图1可以看出,关于用药规律的文献最多,且逐年增加。用药规律的数据来源广泛,包括病历收集、名家医案、古籍资料等,其研究目的在于了解治疗某一疾病的用药规律,特别是角药和对药的应用,从而发现名家或古籍的用药独特之处。用药规律的类型越来越丰富,不限于对某一病症的用药分析,近年来单味饮片用药规律、配伍用药规律、名方用药规律、成药用药规律的研究越来越多。用药规律通常与检验指标、中药研究的动物实验、网络药理学、基因分析、分子机制等共同分析,为中药研发提供理论支持与量化指标。
文献综述类数量次之,近年来通常采用的方法是对中医药某一方面进行关键词搜索,对得到的文献结果进行整理与分析,博取各家之长,探索不同派系辨证论治的共性与特性。辨证规律类文献采用收集名家病历,分析某一疾病不同证型的症候规律、证素规律,通过主成分分析法、决策树方法等以明确证型的主要对应症候。辨证用药规律类文献将证型、症候、用药综合分析,对辨证论治的全过程进行数据挖掘分析得到综合分析结果,是通过数据验证对某方向、某派别中医学术思想的总结。选穴规律类通过总结某一病症针灸腧穴记录,采用关联分析找到关键穴位。中医药信息化类文献虽然在医药卫生领域并不多,但内容新颖,是中医药与蓬勃发展的信息化技术充分融合。中医药信息化文献包含中医药数据挖掘常用模型算法研究与比较、中医药隐性知识发现、中医药本体知识构建、中医药信息化系统设计与构建、中医药知识可视化等。特别是将中医药大数据分析系统嵌入医院信息系统(HIS)方向的研究,代表了中医药人工智能的发展趋势。
数据挖掘软件与平台是中医药数据挖掘研究的一大利器。随着中医药数据挖掘类研究的兴起,各种中医药数据挖掘平台与软件随之出现。经典的数据挖掘过程一般包含数据准备、数据变换、建模、结果解释和展示4个步骤。由于每种模型要求输入变量的类型与属性不同,且有特定格式,所以需要进行数据准备与变换。而数据挖掘建模得到的结果如何与中医药专业知识结合进行解释与展示,对操作者的统计知识有一定要求,经典数据挖掘对中医药研究者过于抽象。早期进行中医药数据挖掘,统计软件是主要工具,但统计软件存在专业性强、数据处理难度大等缺点,所以,专业的中医药数据挖掘软件应运而生。
专业的中医药数据挖掘软件,输入数据均为中医药研究者熟悉的病历数据、处方数据,不需要进行数据的准备与类型转换,对结果的展示也进行了注释,便于理解。专业的中医药数据挖掘软件背后依托专业团队,版本更新快速且专业,不少中医药研究者借此取得良好研究成果。现有的主流中医药数据挖掘软件有“中医传承辅助平台”与“古今医案云平台”,以及许多文本挖掘平台与软件,如沈阳教授的ROST CM系统、Weka软件等。
文献中出现最多的3种数据挖掘工具是SPSS、中医传承辅助平台、古今医案云平台。SPSS Modeler将数据挖掘过程简化为节点,相对于SPSS Statistics的数据界面更易操作。以用药规律分析为例,数据准备时需根据药典或其他标准进行药品名称标准化,繁琐且易出错。标准化后的数据需添加类型节点,转化为名义变量,才能进行网络图分析与关联规则分析。中医传承辅助平台的数据录入只能采用人工录入医案。古今医案云平台可按照相应格式导入数据,提高效率,扩大数据量,该平台包含数据标准化模块,自动进行标准化,只需人工审核纠错即可。药品属性分析方面,若不采用专业数据挖掘软件,需对照药典进行药物性味、归经及功效的对应关系分析,上述两平台在此方面比较便捷,可自动得到相应的雷达图。算法方面,SPSS Modeler建模节点无论关联还是分类模型,均包含多种算法。数据挖掘平台的算法已预设好,调整参数即可,有利有弊。优点是操作比较简单,缺点是无法调整模型得到更优结论。
中医药数据挖掘平台进行用药分析时,药物频次、属性、配伍、新方发现比较便捷,故用药规律文献较多,也是内容模式化的原因之一。中医传承辅助平台与古今医案云平台均有症候分析与方证分析功能,但使用者较少,将数据挖掘更多地应用于方证分析是创新的方向之一。数据挖掘工具也越来越多样,不仅仅指中医药数据挖掘的平台与软件,随着HIS普及,数据挖掘系统与工具正与HIS系统整合,可在临床工作时进行科研分析。
目前用药规律和辨证规律常用的数据挖掘算法为关联规则、聚类分析、主成分分析、因子分析,复杂网络分析并非经典数据挖掘方法,但应用广泛。用药规律通过同时出现判断角药和对药,辨证规律确定证型对应症候,在文献计量学中的应用为共词分析,中药研究通过多个对象推出另一对象,将多药物之间关联展现。聚类分析将研究对象相似或相近的加以归类,将一组数据按照本身的内在规律分为几类。分类原则为组间差距大,组内差距小,把相似的事物聚集在一起,进而尝试发现核心要素如核心处方、辨证核心要素,以及固定搭配如药症关系、新处方的发掘等。主成分分析与因子分析均为通过降维技术把多个变量化为少数主成分或因子的统计分析方法,这些主成分或主因子能反映原始变量的绝大部分信息,通常被用于症候与证型对应分析。复杂网络指通过将复杂系统内部元素抽象为节点,元素间关系抽象为边,从而构建具有复杂关联关系的网络。通过这种抽象,复杂网络仅保留系统内部组织结构及关联关系,过滤了其他复杂信息,从而使研究者可专注复杂系统内部特征及性质。复杂网络被用于建立中药药性、功效、方剂网络,也用于发现穴位或药物配伍规律。
算法应用方面,如果只是生硬采用经典数据挖掘方法进行中医药数据挖掘而不作相应改进,那么得到的仅为相关性的大小,而非症候-证型-方剂蕴含的因果关系,其结论仅是中医基础理论的验证,或无法解释被认为规避的异常结论。
数据挖掘的分类模型与预测模型被用于解决临床实际问题,并取得很好效果。崔伟峰等将随机森林用于原发性高血压心血管风险预后模型,并证实有效;宫文浩等用决策树和人工神经网络建立小儿肺炎痰热闭肺证诊断模型,探索小儿肺炎痰热闭肺证的决定要素,促进中医标准化;夏庭伟使用支持向量机、决策树、多项式朴素贝叶斯等多种机器学习算法,构建标准化的证型、舌图像获取途径,再与临床综合数据特征融合,构建2型糖尿病并发肾病混合深度神经网络诊断预测模型,并以此评估探索中医证候与舌图像对疾病风险预测的实际意义。
①数据的标准化程度不一致,导致数据质量偏低、处理费时费力。如不同医院的诊断代码标准不同,中医医院采用中医证编码(TCD)而西医医院采用国际疾病分类(ICD)、医保诊断代码与院内代码不同、药品名称存在地域性差异等。解决此类问题,需标准化处理,中医药数据挖掘软件已对此开发了标准化模块。②病历的规范程度。医院院内质控一般针对住院病历,而门诊病历的质量则难以保证,除医院硬性规定,门诊病历内容难免缺失,用词不规范。由于实际门诊就诊患者较多,为保证效率,医生难免以最简单方式完成门诊病历,导致中医宝贵的四诊数据、既往史数据不详细,以致可挖掘内容较少。而辨证论治的思维及重要信息都包含在门诊病历中。对此,已有学者从系统层面进行改进。潘玉颖等不仅创立了老中医经验搜索平台,且建立与HIS连接的病历诊断评价系统,自动对门诊病历进行质量评分,为可挖掘病历数据提供来源,有利于门诊病历质量标准的建立,以及取得高质量门诊病历作为数据源。
中医病历数据的主观性较强,导致中医药数据整合与平台建立难度较大。在商业数据挖掘与互联网数据挖掘方向,数据来源为真实产生的记录,收集方向不受人工干预,分析一般以全面为主。现有中医药数据挖掘多源自经过人工挑选的数据,中医对症候的描述多为主观感受记录。对数据进行处理与整合及结构化数据是针对上述问题的解决方法。从本研究收集到文献的分析样本量看,均为小样本数据,尤其细分到具体证型时,样本量更少。中医数据如证型、四诊症候、方剂药品属性、功效、药品组合等维度较广,但由于样本数量太少,采用经典的数据挖掘算法所得到的结论不如大样本数据有价值。因此,建立中医药结构化数据库,广泛收集有效病历数据,提取处理为目标数据,累积到一定数据量后再进行分析,可作为解决方法。此思路与从CNKI、万方等数据库收集数据的综述类文献想法不谋而合。
目前中药处方有效性的疗效评价方法难以确定,缺乏权威系统的评价方法。如果无效的方剂数据较多,则挖掘结果的质量存在瑕疵。处方有效性判断是中医药数据挖掘问题的立题之本。中医疗效通常通过口碑传播,目前众多名老中医经验探究与数据挖掘研究预设了名老中医治疗某方面疾病的经验是有效的,但缺乏客观指标。若有检查、检验指标可验证疗效的疾病,则可通过指标值对比进行疗效判定。无法通过指标值进行疗效评价的疾病,还需学者在疗效评价方面进行探索,如评价量表及完整的患者疗效评价体系。目前一些医院在患者就诊后根据诊断特性进行短信或微信回访也是较为可行的方法。
随着人工智能技术不断应用,中医药数据挖掘乃至整个中医药临床与科研的发展方向均为信息化、智能化,中医药数据挖掘与HIS深度融合是大势所趋。中医药数据挖掘文献发表量逐年增加,临床工作者对其应用程度也不断加深,并更加贴近临床工作。在系统中嵌入中医药数据挖掘平台,通过将HIS数据进行抽取并进行标准化处理,解决了中医药数据挖掘中的数据处理难题。在日常开具处方过程中,出现类似知识库的提示,将名老中医的经验直接展示推荐,将有益于日常临床处方、学习及病历书写标准化。可穿戴设备技术越来越成熟,中医症候与四诊信息的自动化采集越来越可行。通过分析舌诊与面诊数据,可以得到标准化高质量的四诊数据与症候数据。可见,主观化的问诊数据通过变成可量化的机器采集,能保证症候数据的客观性与标准化,推动数据挖掘在辨证规律上的应用。
中医药数据的结构化整合与展现越来越普遍。医院大量临床数据及管理数据的出现,刺激着数据挖掘技术的深层次开发应用,并反向作用于医院的进一步发展。近年来,关于中医临床知识的本体构建逐渐增多,知识本体能更好传播中医治疗方法与名家经验,并与数据挖掘研究相互验证。蔡云对周仲瑛教授治疗肺癌的知识本体进行了构建及数据挖掘研究。知识本体科学系统地处理中医数据,有利于中医学术思想的总结与分享,有助于形成结构化的中医药数据库。来源于结构化数据库的中医药数据挖掘研究可克服主观化及小样本缺点,实现真正的中医药大数据。
中医药数据的可视化也在不断发展,有利于中医药知识的展现与分享。本研究所收集的文献中,近年出现的知识图谱与可视化软件有Gephi、Bibexcel、NetDraw、CiteSpace及VOSviewer等。这些软件可快速全面从公开文献中挖掘中医隐性知识,有利于中医数据的结构化。
临床科研一体化与多维度数据整合也是发展中医药数据挖掘的方法。针对中医疗效难以判断的问题,可建立疗效评价与量表系统。整合的数据不仅包含辨证论治过程,还包含疗效评价与患者个人信息。疗效评价系统是针对疾病开发疗效评价方法,即将指标、量表、短信微信回访相结合,患者达到特定病程后自动评价疗效。程小恩等通过采集四川省80多家中医医院30多万条电子病历,利用大数据分析和数据挖掘技术,构建中医特色的“三名树网”可视化模型展示名医、名科、名院数据,从而科学评估医生、科室、医院的业务水平,辅助管理层合理利用医疗资源。随着信息化程度加深与大数据战略全面开展,此类综合系统将越来越普遍;包含客观疗效评价、整合多维度多地区数据的科研大数据平台将越来越多。
本研究通过收集梳理CNKI文献,对中医药数据挖掘的应用现状进行整理分析,发现中医药数据挖掘研究虽处于蓬勃发展阶段,但存在应用方式单一模式化问题。中医药数据挖掘依托医院信息化推进与数据挖掘算法的推广,发展现状与两者密切相关。中医药数据挖掘与辨证论治思想相契合,有利于探究中医药隐性知识。如何在保留中医药特色的基础上进行研究,充分将两者融合是难点,笔者认为更全面智能的信息化、平台化是解决问题关键,值得今后重点关注。