冯 梅 王 颖 柏 冬,2 王俊宏
(1 陕西中医药大学基础医学院,咸阳,712046;2 中国中医科学院中医基础理论研究所,北京,100700;3 北京中医药大学东直门医院,北京,100700)
处方是应用于中医临床诊疗的主要形式和方法。对方剂的组方规律、配伍规律进行探索和总结,是对名老中医经验的总结和传承,疾病的预防和治疗,临床给药的关键性举措[1]。处方分析旨在运用现代科学技术从浩如烟海的方剂中进行分析并挖掘其具有潜在价值的信息,找到潜在的用药规律、处方配伍规律、名老中医诊疗用药特点等信息,以期对临床诊疗、临床给药以及新药的研发提供新的思路和途径。通过对名老中医学术经验和处方配伍规律等进行总结分析,有利于丰富中医药理论体系,推动中医药学术的进展,是实现中医药传承的客观要求[2]。处方的分析对新药的研发起着重要作用,而且有效的处方分析可以降低新药的开发风险、揭示核心药物群、阐明药物之间的关系、总结不同证型用药规则,为相关治疗提供依据[3]。
中医辨证论治的思维决定了其临床用药具有明显的个体化特点,且中医学本身具有很强的主观性和复杂性,在一定程度上缺乏客观、定量的标准。中医通过望、闻、问、切4种诊断方法共同参与来获取有用信息并进行诊断,在治疗上强调“辨证施治”。数据挖掘技术可以有效地分析中医临床用药规律和潜在作用机制[5],很好地总结中医治疗中的共性规律,为临床治疗疾病提供客观依据[6]。
数据挖掘技术是从大量随机、模糊且不完整的数据中提取的有潜在价值的信息,进而完成对中医药关键信息的提取和整合,实现对处方用药规律的研究分析[7-9]。目前主要应用于中医领域的挖掘方法有:关联分析、聚类分析、因子分析、遗传算法、人工神经网络、复杂网络等方法,可对中医药治疗某一疾病的证型、配伍规律进行分析,为疾病的临床治疗提供方法和思路[10-11]。数据挖掘对检索到的数据进行深入分析,能揭示不同数据之间隐含的关系,发现未知的规律或模式,为中医相关领域的发展提供指导和帮助。因其能够解决复杂的、非线性的问题,揭示中药治疗疾病过程中的特点及规律,故在中医临床分析中得到广泛应用。
1.1 关联规则分析 关联规则是从数据库中挖掘项与项之间隐藏的关联关系[12-13]。购物篮分析是其最经典的应用。通过分析顾客所购买物品之间的联系,了解顾客购买物品的习惯及频率,从而制定出具有引导性的营销策略[14]。目前关联规则的常用算法有Apriori和FP-growth等算法,可应用于探究配伍规律、用药规律和名老中医医案挖掘等方面[15]。由于目前的数据库只能提供检索、统计等服务,不能深入探析其包含的大量隐藏规则[16],故通过关联规则对相关数据进行分析,可得到治疗某疾病不同证型的常用药对或药物配伍规律及他们之间的潜在联系,总结出治疗该疾病的基本用药规律及核心处方[17]。例如,卓小媛等[18]利用关联规则分析中医药治疗冠心病支架术后的用药规律,通过对治疗该病的药物组合进行挖掘分析,发现最常用的活血化瘀类药、补气理气类药物与冠心病术后多寒多瘀的病证相吻合。董琳等[19]基于该算法对含黄芪的方剂进行研究,得到黄芪的主要组方应用规律以活血补气、托毒生肌为主。
1.2 聚类分析 聚类分析是按照各数据在性质上的亲疏程度进行自动分组、分门别类的一个过程,使同一类中的对象之间有很大的相似性,而不同类别之间存在很大的差异性[20]。将中医所研究事物的集合进行分类,按照个体的相似性将大数据库中记录的数据分化为若干系列,使其各自成为有意义的部分[21]。例如通过探讨药物的药性、药味、归经等之间的相似性,从而明确疾病的根本病因、病位等信息。目前主要用于中医的聚类方法有分层聚类和K-means聚类等,通过对疾病治法方药、病因、病机、证候等方面的规律性探究,以实现对中医诊疗经验的挖掘[22]。例如,唐雪纯等[23]运用统计分析、聚类分析等方法,分析当代著名医家在治疗斑秃的处方用药规律,得到了药物的使用频次、性味、归经、主治等方面的信息,从而推断出该病的根本病因、核心病位及主要病机,进而获得了治疗该病的用药处方规律。马金辉等[24]在用聚类算法分析人工流产术后用药的特点时,总结出名老中医治疗此病的用药特点以调理肝肾为主,药物组方以四物汤为基础加减化裁。
1.3 因子分析 因子分析的目的在于实现降维[25],即用几个少数因子去描述许多因素之间的联系,根据数据之间的相关性,将联系密切的几个变量归为一类,每一类变量用一个因子表示。在进行因子分析之前需要对数据进行KMO和Bartlett检验,看是否满足因子分析的条件[26]。通过因子分析得到几种药物都同归于某一类药物中,以发现临床用药规律,并可对疾病的症状、用药特点和规律进行研究[27]。例如,莫朵朵等[28]对中医药治疗大肠癌的方剂用药进行药物因子分析,得到不同因子下的中药对大肠癌具有不同的作用方式,明确了在大肠癌的治疗过程中治气的关键性。石慧生等[29]基于该算法分析全膝关节置换术后中医证候的分布规律中得出此病以本虚为主,兼有瘀证。
1.4 人工神经网络 人工神经网络对于复杂系统和非线性数据具有很强的分析能力[30]。该系统可以按不同的连接方式组成不同的网络,并能根据现有信息主动更改并完善自身结构[31]。目前,常用于中医研究的人工神经网络有反向传播神经网络、径向基神经网络、模糊神经网络等。由于中医药领域数据庞大、结构复杂、非线性等特点突出,而人工神经网络所具有的自学习、自组织、并行分布式处理、容错性良好等优点,在处理多样性、模糊性等特点的数据方面有更好的效果[32]。利用人工神经网络对方剂中药物不同剂量和药味作用于受体的不同反应可以找到最适配伍规律[33],被广泛应用于中医证候的研究、中药学研究以及中医诊断的各个层面。例如,吴纯伟等[34]在研究脑脉通治疗缺血性脑中风药物配伍过程中,通过人工神经网络对实验数据的模拟预测,最终得出了治疗该疾病的最优组分配伍药物。宫文浩等[35]在利用该算法建立小儿肺炎痰热闭肺证诊断模型,明确了此证型的病机为“痰”“热”,诊断要素为痰多黏稠、痰色黄、脉滑等。
1.5 复杂网络分析 复杂网络是由大量结点和结点之间的关系所组成的大型网络结构图,通过网络建模的形式研究复杂现象,描述复杂系统各要素之间关系的一种方法[36-37]。复杂网络用于中医核心处方、核心药物、证型规律等的数控挖掘,可以更清楚、直观地发现隐藏在大数据之下的规律性特征[38]。根据处方配伍网络中的节点度和节点配伍的权重分布,发现处方配伍过程中存在无标度的复杂网络现象,可以找到处方配伍网络的核心节点及其相容性[39]。例如,何美莹等[40]用复杂网络分析系统性红斑狼疮阴虚证,构建对SLE阴虚证临床症状与用药的复杂网络,分析网络结构的节点度及权重值的大小进而分析其核心症状、方剂、配伍规则和方药特点,得到治疗该病的常用方剂、核心药物和核心症状等相关信息。宋石林等[41]则利用该算法挖掘出名中医治疗泄泻的核心药味有白术、甘草、茯苓、木香、白芍、陈皮及此病的病机以脾虚湿盛为主。
1.6 遗传算法 遗传算法作为一种随机搜索算法,它为解决复杂的系统优化问题提供了一种通用格式,能够解决传统搜索算法难以解决的复杂非线性优化问题[42]。一些数据挖掘技术的挖掘结果与疗效缺少相关性,在处方筛选求解复杂的组合优化问题时,基于遗传算法的相关规则通常能快速得到更好的优化结果。以基于遗传算法的正相关关联规则的挖掘方法为例,它运用其自适应寻优和智能搜索技术进行数据的搜索、规则的评价和选取过程,进而得到最优规则,与传统挖掘相比更能体现数据挖掘的个体化特征。此方法可以有效发现名老中医治疗疾病处方的用药特点,为名老中医经验的总结与传承提供了很大的帮助[43]。如李嘉旗等[44]在探讨中医药治疗肺癌的处方规律时,利用遗传算法获得4张有效处方,并且4号处方在动物实验中初步验证了疗效。
可靠的平台软件是开展中医药数据挖掘研究的先决条件。目前常用的平台有:古今医案云平台、中医传承辅助系统软件等;常用的软件有:CiteSpace软件、中医药关联规则挖掘软件、SPSS(Clementine/Modeler)、SQL Server(Analysis Services)、SAS、Matlab和Weka等[45]。此类软件集合了数理统计和文本挖掘、关联规则、复杂系统熵聚类等数据挖掘技术,通过对数据录入、管理、查询、分析和网络可视化展示等功能[46],以实现对疾病、证候、方剂等相关数据的深层次挖掘,实现一站式服务。
2.1 中医传承辅助系统软件 中医传承辅助系统是依附于人工智能、数据挖掘等方法和技术,根据中医药继承、发展和创新的核心需求,分别构建相关功能模块,很好地解决了中医药在传承过程中的不规范和个性化问题[47-48]。该系统丰富了中医药的传承模式,有效地满足了中医药传承与发展的需要,对挖掘名医用药规律和理论思想具有较高的参考价值和临床指导意义[49]。目前主要应用于对名老中医经验的总结、文献医案的整理与分析、疾病的用药规律以及新药的研发等方面[50]。例如在探讨王俊宏治疗儿童多动症又称注意力缺陷多动症的用药规律中,基于中医传承辅助平台将收集到的处方进行药物间和药物核心组合分析,结果得到13个核心组合和6首新处方,可提高临床用药疗效[51]。
2.2 古今医案云平台 古今医案云平台是中国医学科学院中医信息研究所在数十年病案研究和数据积累的基础上,应用大数据、云计算等智能技术,为名医传承和经验总结提供的科学、智能、高效、便捷的工具。该平台为30万份古今病历和4 000名名医提供检索和信息获取服务,提供多种病案采集模式,如多表单结构化录入、批量病案自动导入、语音录入等,为工作组提供病案分类管理和数据共享服务。它集成各种数据挖掘算法,如关联规则分析、聚类分析等[52],设计了9个分析模块,为临床需求提供一站式数据挖掘服务。例如,王依等[53]基于古今医案云平台将李军祥教授治疗溃疡性结肠炎的处方进行标准化处理后,通过分析药物的性味、归经、使用频率等相关信息明确了李教授治疗该病的核心思路。
2.3 CiteSpace CiteSpace是基于大量文献数据对其进行分析处理,并通过相关工具绘制成信息可视图、表的一款引文可视化分析软件,它可以很好地反应某一阶段某领域的研究热点、前言主题和发展趋势等信息[54]。例如,张小宁等[55]通过该软件对中医药治疗膝关节炎相关研究文献的可视化分析中,对文献作者、机构、关键词等信息进行共现分析、聚类分析以及凸显性分析分别得到了该领域的治疗热点集中在针灸和中药熏蒸、热敷等,研究热点体现在白细胞介素1β、臭氧、膝关节功能等。阮蓓蓓等[56]通过该软件对金匮肾气丸相关文献进行可视化分析,得到了当前临床研究的热点以中西医结合治疗糖尿病、骨质疏松等为主,实验研究热点以抗氧化、抗衰老为主。
在信息数字化时代,各种处方分析方法层出不穷,如频数分析、关联规则分析、决策树分析、多维度挖掘与分析等均可对名老中医的临床经验、用药规则、学术思维进行多方面、多角度的分析研究,这些挖掘方法正被逐步应用于中医药的研究工作中[57-58]。目前处方筛选主要是以计算机软件分析为主,辅以计算频率和关联规则或复杂系统熵聚类,构建药物关系网络进行处方筛选和挖掘。但由于数字化的计算方法仍无法与临床医疗实践中医师的辨证处方思路相结合,故在分析关键的处方筛选方面仍存在不足。一方面,数据挖掘技术适用于从大量数据中挖掘共性规律,其研究结果往往与中医普适性理论吻合,而对发掘中医药个体化诊疗规律作用有限。另一方面,一些发病率不高的疾病较难从文献中获得全面的信息,因此数据挖掘技术不能适用于此类信息的分析与总结[39]。另外数据样本的获取不够完整、样本数据的准确性存在偏差等问题也导致挖掘结果产生偏差。如何进一步改进,使其在中医药领域发挥更大的作用无疑十分关键。
数据挖掘技术以其独特的优势被广泛应用于中医处方研究,但技术本身存在局限性。如关联规则技术在对大量数据的挖掘过程中会产生很多关联规则,其中有些大多无意义且存在误导性,从中选取符合要求的关联规则可能存在不准确性[59]。聚类分析显示频次较多的数据,可能会忽略低频次数据对结果的影响,从而导致结果出现偏差;此外,聚类分析具有多结果性,它不能根据数据内部特点来确定分为几类,故存在很大的主观性[60]。因子分析的因子值虽然相对比较可靠,但它实际上是一种观测变量,与潜在变量或有不相符。因此,利用因子值进行数据挖掘时就会产生随机误差[61]。人工神经网络中所确定的权重和隐藏的知识难以得到解释,不能从模型中提取规则[62];而且该软件仍处于实验阶段,还没有达到以硬件的方式实现对该系统的应用,在其操作过程中所采用的样本规模小且样例量化方法简单,也成为制约该软件的一个因素[63]。复杂网络在网络构建上大多从单方面考虑而忽略了整体综合性,在分析网络结构时只能从网络的局部或全局出发,未能将二者相结合进行分析[64]。中医传承辅助系统、古今医案云平台等可实现中医药之间关联关系的定量表述、核心药对的演变以及新处方的衍生,对隐性经验的挖掘尤为适用[65],但此类平台的研究范围主要是基于疾病,无法涉及具体的证候实现辨证论治,难以总结关键药物;而且在数据收集和整理方面,需要考虑收集到的数据的真实性,故数据质量一般不高且有重复,从而影响进一步的分析和判断。
某些疾病在辨证方面未得到统一且存在医案信息的主观干扰是数据自身存在的问题[66]。在研究过程中可能会存在样本量小且缺少统一性和规范性等问题,导致结果缺乏相应准确性且仍需要专业人员的测评[67]。样本量较少以及在处理相关因素时出现技术和人为的误差等,都会在中医数据挖掘应用和分析中产生阻碍[68-70]。在对数据进行分析的过程中需要以大量的样本资料为基础,要求样本量要远大于变量。而且中医存在明显的复杂性、多样性、差异性等特点[71],中医药实体间关系难以度量、中医药网络结构难以分析、中医药数据分类缺乏有效标准等,使得在数据样本、网络构建方法、网络分析等方法上也存在一定的局限性[72]。此外,中医数据资料时间跨度大、来源广泛、数据不全或存在冗余、信息缺乏统一的标准与规范等问题,都给数据挖掘与分析带来了难度。
数据挖掘技术被广泛应用于中医药研究的各个领域,以获取更有价值的学术思想和经验,使其得到更好地传承、学习和发展。名老中医在临床辨证论治的过程中积累了大量的经验有效方,在治疗某类疾病的有效方中出现频次较多的药物构成了治疗此类疾病的核心药物配伍规律,此类核心药物配伍规律值得我们深入研究[73]。掌握相应的分析方法对中医药的研究、实践和传承具有指导意义[74],本文通过对处方分析方法进行分类、归纳、整理,并对方法的使用范围、优缺点进行分析,以求在实际应用中为研究者提供思路和借鉴。分析后发现,关联规则分析、聚类分析、因子分析、复杂网络、人工神经网络是目前处方分析最常用的方法,此类方法可用于挖掘处方用药之间的规律,方证之间的应用特点,单药的应用规律等等。但在实际的应用过程中也表现出一些局限性,一方面,中医方剂大多来源于一些医学书籍或期刊,资料收集不够全面,而且中医药文献的复杂性和词语模糊性突出,在处理原始信息的过程中容易丢失大量信息,难以获得准确的结果,目前的研究大多对收集到的数据缺乏相应的标准,如病名、证型、症状、方剂名称、历代药物用量、疗效表现等[75];另一方面,应用于中医药领域的现代挖掘技术其自身发展还不够成熟完善并且本身具有局限性,在挖掘过程中可能会出现偏差或者不准确性等问题,这就给后续的研究工作带来了难度,故相关技术的进一步发展和创新是进行处方探索分析的重要举措。