2012~2017年中医药数据挖掘研究状况分析

2020-02-06 06:45梅泰中李小娟邓宏勇
数理医药学杂志 2020年1期
关键词:用药规律关联规则

梅泰中 许 吉 张 洋 李小娟 邓宏勇

(上海中医药大学 上海 201203)

数据挖掘(Data mining, DM)一般是指从大量的数据中通过算法提取出隐藏的有价值信息的过程,常用于复杂非线性特征数据分析。中医作为有着几千年历史的古老学科,其所累积的数据量规模巨大,且模糊性和非线性特点明显,因此不易被常规的数理统计方法处理[1]。近年来,随着人工智能兴起,大数据时代到来,越来越多研究人员开始采用数据挖掘技术从浩瀚的中医药知识宝库中提取精准有效而又新颖的知识。本课题组曾于2012年发文[2],对2011年之前的中医药数据挖掘研究情况进行分析,本文在此基础上作进一步更新,从多个角度对近年中医药数据挖掘类研究进行分析总结,以期在一定程度上反映数据挖掘技术在中医药领域应用的现状及趋势。

1 资料与方法

1.1 数据来源

检索中国生物医学文献数据库(SinoMed)和中国期刊全文数据库(CNKI)的题录及并获取全文。检索时间范围:2012年1月1日~2017年11月2日;检索完成时间:2017年11月2日。

1.2 检索策略

检索词选取与数据挖掘相关的自由词“数据挖掘”、“机器学习”、“人工智能”、“算法”、“数据分析”、“文本挖掘”、“知识发现”和“大数据”,另选取与中医药相关的自由词“中医”、“中药”、“中草药”、“针灸”、“方剂”、“复方”、“配伍”、“性味”、“辩证”、“证候”、“医案”和“病案”。使用布尔逻辑算符“AND”和“OR”根据检索需要构造检索式,检出与中医药数据挖掘相关的文献。

1.3 筛选与统计

将从不同数据库检索出的所有相关题录导入文献管理软件(ENDNOTE),结合人工查重和筛选,确定最终纳入分析的文献,下载全文。采用文献计量的方法,从出版年、作者单位、文献类型、研究领域、数据挖掘方法、数据挖掘软件、关键词等方面对全文进行人工拆分处理,并提取数据。利用Excel2016和中医处方辨证论治特征分析及数据挖掘软件[3]的相应功能对提取数据进行分析,得到中医药领域数据挖掘研究状况的文献计量结果。

2 结果

2.1 检出情况

共检出相关题录4034条,经筛选后,最终获取全文并纳入统计1675篇。

2.2 年度分布

2012~2017年中医药数据挖掘研究文献年度变化情况见图1,总体呈现逐年增长趋势。

图1 2012~2017中医药数据挖掘文献年度分布

2.3 作者单位

据统计,6年间发文作者所在单位总计约550家,其中以中国中医科学院发文量最大(182篇),北京中医药大学和山东中医药大学分列2、3位,分别有180、164篇。总体来看国内各中医高等院校为发文主体,但不容忽视的是,兰州大学(15篇)、复旦大学(7篇)等一批国内非传统中医药类机构也开始涉足中医药数据挖掘领域,并呈现逐渐增长的趋势和特征。

2.4 文献类型

本文将中医药数据挖掘类文献从类型角度分为应用研究、方法学研究、一般性论述和综述4类[2]。文献类型的年度分布见表2,由表可见,应用研究类文献逐年稳步增长,其他类文献无明显变化。

2.5 研究领域

本文对文献所属的研究领域进行了分类,分别是:方剂、证候、名老中医经验、病案、中药药性、中药现代研究、诊断、针灸腧穴和其他[3]。各研究领域文献数量的年度分布见表3,从中可见,方剂研究一直是中医药数据挖掘的重要领域,而名老中医经验和腧穴的数据挖掘研究在近年也有较为明显的增长。此外,我们通过词频分析对文献的关键词进行研究,在剔除频次最高的“数据挖掘”关键词后,出现频度较高的关键词有“用药规律”、“关联规则”、“组方规律”等。

表1 发文量前5名单位

排序单位篇数百分比1中国中医科学院18210.9%2北京中医药大学18010.7%3山东中医药大学1649.8%4广州中医药大学1257.5%5南京中医药大学1126.7%

表2 不同类型中医药数据挖掘文献年度分布(篇)

文献类型201220132014201520162017应用研究133180203279360360方法学研究16248221213一般性论述321016综述810107116

表3 中医药数据挖掘类文献在不同领域的年度分布

研究领域201220132014201520162017方剂667784135179170名老中医经验254154689898证候243318311920病案9121581617中药药性394647腧穴91715353638中药现代研究47710109诊断535143其他151720141823

2.6 数据挖掘方法

中医药领域应用的数据挖掘方法主要有频数分析、关联规则、聚类分析、因子分析等,使用了隐结构模型、遗传算法、随机森林等模型及算法。同时也出现了以往相关文献中较少出现的的数据挖掘方法,如属性偏序结构等。图2为主要数据挖掘方法的分布情况。

图2 主要挖掘方法使用情况

2.7 数据挖掘软件

中医药数据挖掘多数使用商业或开源的通用数据分析工具软件,如SPSS(Clementine/Modeler)、SQL Server(Analysis Services)、SAS、Matlab 和Weka等。但自从2012年中国科学院自动化研究所和中国中医科学院中药研究所联合开发成功中医传承辅助系统软件[4]后,该软件在中医药数据挖掘研究中得到广泛使用,此外还有江苏省方剂研究重点实验室开发的中医药关联规则挖掘软件 V1.0[5]等较具有特色的专业软件。

图3 主要挖掘软件使用情况

3 讨论

数据挖掘技术在中医药领域得到广泛应用,正是近年来中医药多学科交叉研究的一个缩影。笔者在对纳入的文献逐篇阅览过程中,发现有相当数量的文章同时运用频数分析、关联规则、聚类分析等方法对名老中医经验进行数据挖掘,在发现总结名老中医的诊疗特色的同时,还可以得到用来治疗具体某一类疾病的药物范围和频率,形成药物的核心组合或新方,这些结果在临床实践中有极大的应用价值。

数据挖掘软件是进行数据挖掘工作的必需工具,近年来专业的中医药数据挖掘软件相继出现并得到较好应用,如中医传承辅助系统[4]和基于形式概念分析、偏序理论的非统计偏序结构模式发现新方法[6]等,这些工具软件一方面打破了早期通用型数据挖掘工具垄断使用的局面,同时也改变了以往专业中医药数据挖掘软件应用频率较低、使用范围较窄等状况。

我们在研究中也发现了一些目前中医药数据挖掘研究中存在的不足,如个别作者为追求发文数量而滥用数据挖掘技术,以及多数文献使用的挖掘方法较为单一,相对复杂的挖掘方法使用频率不高等,但相信通过更多的跨专业领域合作,以及普及数据挖掘技术、开发更强大便利的挖掘工具等手段,可以进一步推动中医药数据挖掘的发展。总之,随着大数据时代的到来,中医药要想得到更好的发展,势必要和数据挖掘等各领域学科进行交叉发展,不断提高中医药数据的应用水平,优化临床有效性及安全性,为广大患者带来健康,为弘扬中医药提供助力。

猜你喜欢
用药规律关联规则
基于数据挖掘的慢性心力衰竭气血瘀证用药规律分析
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于数据挖掘的龙华医院风湿科治疗干燥综合征用药规律与特色分析
基于关联规则和时间阈值算法的5G基站部署研究
中医药治疗儿童过敏性紫癜辨证及用药规律分析
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法