基于CiteSpace的中医方剂配伍规律数据挖掘研究现状与展望

2023-04-14 03:40王得科石文张静宇门玉冉陈洪苇刘建玲
电脑知识与技术 2023年6期
关键词:综述数据挖掘

王得科 石文 张静宇 门玉冉 陈洪苇 刘建玲

摘要:目的分析基于数据挖掘技术对方剂配伍规律的研究热点,探究中医方剂研究方向的发展趋势。方法:采用CiteSpace软件对中国知网和Web of Science数据库中2000—2020年间的相关论文进行统计,分析发文统计数据的内外特征。结果:此领域的研究在发表年份上经历了稳定发展期、快速成长期和爆发增长期三个阶段。研究最早开始、成果最多的机构是北京中医药大学。目前国内中医药类高校及附属医院、研究所之间的合作较为紧密,但缺乏与其他类型院校或研究所进行合作。以吴嘉瑞、唐仕欢为代表的合作团队,研发了该领域应用最广泛的中医传承辅助系统;以周雪忠為代表的合作团队,采用复杂网络方法挖掘复方核心药物。结论:目前在中医方剂学领域,数据挖掘技术针对方剂在宏观上总结证型证候、在微观上对药物的显性关系分析以及隐性关系挖掘等方向取得了一定的成果。

关键词:方剂配伍规律;数据挖掘;CiteSpace;综述

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2023)06-0054-04

开放科学(资源服务)标识码(OSID)

方剂是在辨证审因确定治法之后,选择合适的药物,酌定用量,按照组方结构的要求,妥善配伍而成的[1]。作为古代医家临床经验的总结,方剂对于现代医家具有重要的借鉴作用,同时也是新药研究的宝贵资料。在研究方剂的过程中,对于药物间配伍规律的研究是获取治疗思路的重要手段。因此,对于中医方剂配伍规律的研究具有重要的现实意义:首先,可以总结古代医家对于某种病不同证型的用药规律,进而总结出该种证型的治疗思路;其次,通过分析中医方剂中典型药物的关联关系,为现代临床治疗提供中医理论支持;再者,挖掘方剂中不同药物的潜在关系,为中医新药的研发提供新思路。

目前,采用数据挖掘技术对方剂配伍规律进行研究已逐渐成为热点。数据挖掘技术是指从大量数据中挖掘有趣模式和知识的过程[2]。通过数据挖掘中的聚类、分类、关联规则等技术,能够从现有方剂中总结证型证候等宏观规律以及药物组合等微观规律。

CiteSpace[3]软件是陈超美教授于2004年使用Java语言开发的信息可视化软件。CiteSpace主要用在基于文献数据的科学知识图谱可视化表达。本文将采用CiteSpace软件,对基于数据挖掘技术的方剂配伍规律的国内外研究现状进行分析,总结主流研究方法、分析典型研究工具,归纳领域研究热点,并对未来的研究方向进行探讨与展望。

1 数据选取

1.1 关键词选取

根据中医方剂的研究特点,选用中国知网作为数据采集平台,通过选取不同关键词在中国知网数据库中进行检索,获取相关论文信息。依据交叉学科的特点,通过分析数据挖掘技术在中医方剂配伍领域的研究现状,本研究将数据收集过程分为三个步骤进行,以便最大限度地收集中医方剂配伍与数据挖掘交叉学科方面的论文。

(1)依据学科交叉特点,将中医领域的关键词设置为“中医”“方剂”“配伍规律”,将计算机领域的关键词设置为“数据挖掘”“知识发现”。

(2)在中医领域和计算机领域各选择一个将关键词,形成一个关键词组合。具体关键词组合包括:“中医and数据挖掘”“中医and知识发现”“方剂and数据挖掘”“方剂and知识发现”“配伍规律and数据挖掘”“配伍规律and知识发现”。

(3)将以上组合在中国知网中作为关键词以“并且”连接进行检索,直到所有的关键词组合检索完毕。最后将获取的全部中文文献信息作为原始文献数据。

1.2 数据筛选整理

对原始中英文文献数据集分别进行去重筛选整理,文献发表时间跨度选为2000年1月1日至2020年12月31日,文献类型选择期刊文献。共筛选出中文文献信息5738条。

2 结果与分析

2.1 外部特征

2.1.1 发表年份分析

图1显示了国内外在2000—2020年间,基于数据挖掘在中医方剂配伍规律研究领域各年的期刊文献发表数量。从图1可以看出,21世纪初期在这个研究领域的成果较少。此后的时间可以分为三个阶段;

1)稳步发展期:从2004年开始,一直到2013年,研究成果在总体上逐年增加,虽然有个别年份数量降低,但是总体上研究成果的数量在稳步增加,到2013年该领域已经发表文献155篇,说明此领域从开始出现进入了一个稳步发展的时期。

2)快速增长期:从2014年到2017年间,该领域的研究成果连续三年有较大幅度增长,从2014年的149篇增长到2017年的302篇。说明此领域在经历了多年稳步发展期的积累后,进入了一个快速发展的时期。

3)爆发增长期:虽然在2018年期刊论文数量有所下降,但随后的2019年-2020年国内期刊发文数量再次爆发式增长,显示出数据挖掘在中医方剂配伍规律研究方向再次进入了快速发展时期,发展速度与2014年到2017年期间相比明显更快。这说明该领域已经成为中医药现代化研究中的热点方向。

2.1.2 发文作者分析

采用CiteSpace对作者合作情况进行分析,剪枝算法选择最小生成树简化网络,最终获得国内外作者合作网络图。图中结点表示作者,结点与结点标签越大,说明此作者在2000—2020年间的统计论文中出现频次越多。图中结点之间的连线表示作者之间的关联程度。连线颜色越深说明作者关联程度越高。

从图2国内作者合作网络共现图谱可以看出,图谱中主要包含两个作者聚类,其中,作者名后的括号表示该作者名在统计论文中出现的次数。

1)以吴嘉瑞(33次)、张冰(32次)、张晓朦(23次)、唐仕欢(22次)等作者为核心的聚类。在这些核心作者中,作为北京中医药大学的吴嘉瑞、张冰、张晓朦等作者与中国中医科学院中药研究所的唐仕欢等作者合作较多。这些作者研发中医传承辅助平台[4]对古代方剂进行数据挖掘与分析。例如研究国医大师的用药规律[5],中成药处方的组方规律[6],针对新型冠状病毒肺炎中医防治方案的病机与组方规律[7]等。该系统采用人工智能、数据挖掘、网络科学等学科的方法和技术,结合中医药特点,辅以临床实际情况,以数据分析为核心,体现了中医传承的特色[8]。

2)周雪忠(32次)、张润顺(31次)、崔蒙(27次)、刘保延(26次)等在国内首次提出采用复杂网络技术[9]针对复方药物构建配伍网络,以获取复方核心药物的配伍结构。例如,采用复杂网络技术对中医名家的临床处方用药规律进行研究[10],基于临床病历资料系统总结中医诊治冠心病规律等[11]。

2.1.3 机构合作分析

采用CiteSpace对机构发文量进行分析。表2中显示的是以第一作者发表国内文献前10位的机构分布。由表2可以看出,北京中医药大学发文量最多(136篇),同时也是国内在本领域最先发表期刊文章的机构。其次为中国中医科学院中医药信息研究所(88篇)、山东中医药大学(87篇)、中国科学院广安门医院(84篇),其他机构中,各地中医药大学及其附属医院发文量较多。

从各个机构的初次发文时间来看,除了最先开始研究的北京中医药大学以外,其他研究机构的初次发文时间都在2004到2010年间。这也说明了各个研究机构逐渐参与到此领域的研究,使得此领域进入了从2004年开始的稳步发展时期。

从以上分析可以看出,目前此领域的主要研究机构仅限于医学类研究机构,包括医院、中医药高校以及研究所,综合类或理工科院校及研究所参与较少。这体现出目前该领域的发展仍然处于初级阶段,目前的研究多着眼于采用成熟的技术来分析中医方剂配伍规律。通过分析中医配伍规律的具体特点,在现有数据挖掘技术的基础上研发具有针对性的分析工具,这就需要更多理工类研究机构的加入,促进此领域的研究再上一个新的台阶。

在国内图3显示的是国内机构合作网络共现图谱。从图中可以看出,北京中医药大学及其附属医院、山东中医药大学及其附属医院以及中国中医科学院及其相关研究所组成了一个较大的聚类。这些机构的研究合作关系较为紧密,这也与前文中研究作者的合作关系一致。另外,广州中医药大学及其附属医院,以及广东省中医院也形成了一个聚类,说明这些机构的合作关系较为紧密。

从以上分析可以看出,中医药类研究机构之间的合作关系比较紧密,但是鲜有与综合类或理工类高校或研究所之间的合作。这也说明了目前综合类或理工类研究机构在此领域的研究偏少。鉴于本领域是中医学科与计算机学科的交叉领域,更多的综合类或理工类研究机构进入本领域与中医类研究机构合作才能促进本领域的发展。

2.2 内部特征

2.2.1 关键词

图4显示的是本领域中中文关键词的共现分析与聚类分析。结合表3国内文献排名前20位的关键词使用频次,目前该研究领域中的主要关键词可以分成四类,关键词后面括号内数字表示其使用频次。

1)研究领域。研究领域方面的关键词主要包括“中医药”(205次),“数据挖掘”(类似关键词共1856次)和“知识发现”(33次)。可以看出,作为交叉领域,既包含了中医学科方面的关键词,也包含了计算机方面的关键词。同时,从广义角度来讲,数据挖掘和知识发现可以看作是同义词。但是从狭义角度讲,数据挖掘仅是知识发现中的一个步骤。从表4统计结果来看,数据挖掘类似关键词共出现了1856次(包含“数据挖掘”1821次和“数据挖掘技术”35次),远远多于“知识发现”的33次。说明目前本领域的研究还仅限于采用成熟的数据挖掘技术对方剂信息进行分析,尚未形成从方剂信息中发现“知识”的标准化流程,对于目前挖掘出的“知识”也缺乏可靠性验证手段。

2)研究对象。研究对象既包括具体的研究资料,例如“文献研究”(45次);也包括研究目标,例如“用药规律”(633次)、“中医证候”(46次)、“配伍规律”(109次)、“组方规律”(145次)、“名医经验”(类似关键词共165次);还包括研究病名,例如“冠心病”(42次)、新型冠状病毒肺炎等。从以上分析可以看出,目前此领域的主要研究目标主要包含两类:一类是方剂内部药物方面的规律,包括用药规律、组方规律、配伍规律;另一类是方剂整体方面的规律,主要指方剂对应的中医证候。在治疗疾病方面,目前研究较多的疾病是冠心病。同时收到2020年的新冠疫情影响,出现了针对新型冠状病毒肺炎的研究。

3)研究方法。研究方法主要来自于计算机学科的知识发现与数据挖掘相关的技术,具体方法包括:“关联规则”(类似关键词共426次)、“因子分析”(33次)、“聚类分析”(类似关键词共175次)、“复杂网络”(41次)等。可以看出,目前此领域中使用的基本是关于知识发现和数据挖掘的经典方法。对于其他一些当前热门的前沿技术,例如知识图谱推理、机器学习等方法应用不多。

4)研究工具。从关键词共现图中可以看出,该领域主要的研究工具是“中医传承辅助平台”(类似关键词共355次)。虽然存在其他平台工具,但是中医传承辅助平台是该领域目前应用最為广泛,产生研究成果最多的平台工具。该系统包含了证候分析、组方分析等功能,能够在辅助名老中医经验传承、医生个体经验总结、新药处方发现等方面起到重要的作用[8]。

2.2.2 研究发展趋势

图5为中文关键词时区图。该图以年份为横轴,关键词依据各自首次出现的年份以结点形式依次向上定位于不同年份中。结点之间的连线代表结点之间的传承关系。从图中可以看出,自1998年首出现基于数据挖掘的方剂配伍研究以来,该领域在2002年首次出现了基于关联规则对配伍规律的研究。在2008年,聚类分析在该领域中首次出现。在2014年,本领域国内研究方面的重要研究工具中医传承辅助平台开始出现。这也导致了该领域2014年到2017年间的快速增长期。到了2020年,出现了网络药理学[12]这类新的研究手段。同时由于2020年出现的疫情,本领域也开始对新型冠状病毒感染进行研究。

图6为中文关键词时间线图。该图是将关键词聚类,并以各个聚类为横轴,时间为纵轴,展现不同聚类在时间线上的演化过程以及聚类之间的相互关系。该图显示了基于关键词聚类后9个主要聚类按照时间顺序的结点分布情况,从中我们可以看出一些聚类中关键词的演化情况。例如,编号1新型冠状病毒肺炎聚类中,体现了目前本领域中对于新型冠状病毒肺炎主要从名医经验、用药规律和特点的角度进行研究。编号3聚类中,体现了中医传承辅助平台主要采用了关联分析中的apriori算法,通过文献研究名老中医经验,主要包含组方用药规律。编号4聚类中体现了本领域中,从早期采用知识发现技术,逐步引入了复杂网络技术,直到近年来较为流行的大数据技术。

2.2.3 研究热点分析

图7、图8显示的是中文关键词突现图,体现了在一段时间内获得广泛关注的中文关键词。从两幅图中可以看出,本领域早期研究主要是面向数据库、数据仓库等数据存储与管理技术,采用一些经典的数据挖掘技术,如贝叶斯网络、决策树等,进行诊断、辨证、方剂配伍规律方面的研究。随着研究技术的不断发展,逐渐出现了文本挖掘、大数据、复杂网络等数据挖掘与知识发现技术。应用方向也开始向名老中医经验传承、组方规律等方面转移。

3 讨论

本文采用Citespace对CNKI数据中1990—2020年间基于数据挖掘的中医方剂配伍规律研究文献进行了分析,从研究的外部特征和内部特征两个方面总结了研究概况。

在外部特征方面,此领域的研究经历了稳定发展期、快速成长期和爆发增长期三个阶段。研究最早开始、成果最多的机构是北京中医药大学。目前国内中医药类高校及附属医院、研究所之间的合作较为紧密,但缺乏与其他类型院校或研究所进行合作。以吴嘉瑞、唐仕欢为代表的合作团队,研发了该领域应用最广泛的中医传承辅助系统;以周雪忠为代表的合作团队,采用复杂网络方法挖掘复方核心药物,研究贡献较为突出。

在内部特征方面,目前在中医方剂学领域,数据挖掘技术针对方剂在宏观上总结证型证候、在微观上对药物的显性关系分析以及隐性关系挖掘等方向取得了一定的成果,但该领域的研究尚存在一些不足。

1)目前,主流的研究方法是利用现有计算机学科的数据挖掘技术直接应用于配伍规律分析与挖掘,除应用最广泛的中医传承辅助平台外,针对问题特点而开发的解决工具和平台偏少,其他专用工具和平台影响力也有限。这就需要国内的中医药研究机构与其他综合型或理工类研究机构加强合作,研制出更多更有针对性的方剂配伍规律分析工具与平台。

2)该领域中,采用数据挖掘技术对方剂数据进行处理后,挖掘出的配伍规律结论缺乏可靠性分析,获得的结论并不能被中医方剂学领域专家广泛接受。目前尚缺乏对于数据挖掘结果的正確性与可靠性的验证,降低了挖掘结果的可信度。因此,今后应当对数据挖掘结果的验证方法进行研究,建立结果验证标准,提高挖掘结果的可靠性。

3)该领域的研究应当与机器学习等人工智能方向相结合。例如,当前研究往往采用一些典型的数据挖掘算法,而这些算法的运算结果与初始参数设定关系紧密。特别是当数据量较大时,只有在算法开始前设定合适的算法参数,才能得到较为理想的结果。但是,即使是领域专家也很难在运算时间和求解精度的约束下选择最合适的参数数值。因此,如何将算法自适应或参数自动设定融合到中医方剂配伍规律的挖掘中是未来的研究方向之一。

4 结论

通过分析可以看出,中医领域的信息化、智能化是未来的发展方向。数据挖掘技术在中医配伍领域的应用方兴未艾。随着研究的不断深入,如深度学习等人工智能技术应用于中医方剂配伍领域的研究,将会从我国传统的中医宝库中获得更多成果,不断提升中医信息化与智能化水平,提升中医面向公众的健康服务水平。

参考文献:

[1] 邓中甲.方剂学[M].北京:中国中医药出版社,2003:1-2.

[2] Jiawei Han,Micheline Kamber,Jian Pei著.范明,孟小峰,译.数据挖掘:概念与技术[M].北京:机械工业出版社,2012.

[3] 陈悦,陈超美,胡志刚.引文空间分析原理与应用:CiteSpace实用指南[M].北京:科学出版社,2014.

[4] 唐仕欢,申丹,卢朋,等.中医传承辅助平台应用评述[J].中华中医药杂志,2015,30(2):329-331.

[5] 吴嘉瑞,郭位先,刘鑫馗,等.基于数据挖掘的国医大师颜正华含龙骨处方用药规律研究[J].北京中医药大学学报,2017,40(7):585-592.

[6] 金燕萍,吴嘉瑞,张冰,等.基于关联规则与熵聚类的健脾类中成药组方规律研究[J].世界中医药,2015,10(10):1604-1606,1610.

[7] 岳萍,唐仕欢,于欢,等.新型冠状病毒肺炎中医防治方案的病机与组方规律分析[J].中国实验方剂学杂志,2020,26(14):13-19.

[8] 杨洪军,唐仕欢,卢朋.中医传承辅助平台的开发与应用[M].福州:福建科学技术出版社,2013.

[9] 周雪忠,刘保延,王映辉,等.复方药物配伍的复杂网络方法研究[J].中国中医药信息杂志,2008,15(11):98-100.

[10] 孔维莲,徐丽丽,薛燕星,等.基于复杂网络的薛伯寿教授临床处方用药规律分析研究[J].世界科学技术-中医药现代化,2017,19(1):55-62.

[11] 宋观礼,刘保延,王映辉,等.基于中医临床科研信息一体化技术平台的冠心病诊治规律研究[J].中华中医药杂志,2013,28(5):1247-1252.

[12] 汪敏慧,周素芹,程海清,等.基于网络药理学及分子对接技术分析“防疫清肺汤”用于防治新冠肺炎(COVID-19)相关肺肾损伤的物质基础[J].四川中医,2020,38(12):1-6.

【通联编辑:李雅琪】

猜你喜欢
综述数据挖掘
SEBS改性沥青综述
NBA新赛季综述
近代显示技术综述
基于并行计算的大数据挖掘在电网中的应用
JOURNAL OF FUNCTIONAL POLYMERS
一种基于Hadoop的大数据挖掘云服务及应用
Progress of DNA-based Methods for Species Identification
综述
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究