朱垚,袁睿,陆明,郭立中.南京中医药大学中医内科急难症研究所,江苏 南京 009;.南京医中下天科技有限责任公司中医数据挖掘中心,江苏 南京 009
基于CNKI的2002-2013年中医数据挖掘类学位论文计量分析
朱垚1,袁睿2,陆明2,郭立中1
1.南京中医药大学中医内科急难症研究所,江苏 南京 210029;
2.南京医中下天科技有限责任公司中医数据挖掘中心,江苏 南京 210029
摘要:目的基于文献分析2002-2013年中医数据挖掘类学位论文情况。方法计算机检索中国知识资源总库(CNKI)博硕士文献库,检索时间2013年11月。筛选中医数据挖掘类文献,从发文年份、发文院校、数据挖掘方法、研究类型等方面进行计量学分析。结果共204篇文献符合纳入标准。2002-2013年中医数据挖掘类文献数量呈逐年上升趋势,其中北京中医药大学、中国中医科学院、广州中医药发文量居前3位,分别为57、30、24篇。204篇数据挖掘类文献共使用12种不同挖掘方法,其中关联规则为使用频数最高方法,达111篇,占54.41%。共涉及7种研究类型,其中病种研究类文献最多,达102篇,占50.00%。结论数据挖掘技术逐渐成为中医类院校学位论文的研究热点,但数据挖掘技术与中医学交叉的研究设计需进一步加强,且需广泛引入适合中医学的新型数据挖掘方法。
关键词:中医药;数据挖掘;文献计量学
Bibliometrics Analysis of TCM Graduation Thesis Using Data Mining Methods During 2002-2013 Based on CNKI
ZHU Yao1, YUAN Rui2, LU Ming2, GUO Li-zhong1(1. Institute of TCM Internal
Medicine for Emergency and Serious Diseases, Nanjing University of Chinese Medicine, Nanjing 210029, China; 2. TCM Data Mining Center of Nanjing Medchitec Technology Limited Company, Nanjing 210029, China)
Abstract:Objective To analyze the situation of using data mining technology in TCM graduation thesis during 2002-2013 based on literature analysis. Methods Computers were used to retrieve the database of graduation thesis in CNKI. The retrieval time was from November in 2013. The thesis according with requirements were screened. Metrology analysis was conducted from the aspects of the literature issue year, literature issue colleges and universities, data mining methods and research types. Results Totally 204 papers were included. The number of papers using data mining methods in TCM graduation thesis was increasing year by year, with Beijing University of Chinese Medicine, China Academy of Chinese Medical Sciences and Guangzhou University of Chinese Medicine ranking the top three, which published 57, 30, 24 pieces of papers respectively. In this research, 12 data mining methods were found adopted in the 204 papers, of which association rule and cluster analysis (111 papers, 54.41%) were the most frequently used data mining methods, and they were mostly applied in the research of disease category. 7 types of research were involved, among which papers studying disease entities rank the most, 102 papers, occupying 50.00%. Conclusion Data mining technology has gradually become one of main research directions in TCM graduation thesis. However, the overlapping study and project between data mining technology and TCM has room for further improvement and new data mining methods that fit TCM are expected to be introduced extensively.
Key words:traditional Chinese medicine; data mining; bibliometrics
数据挖掘是指从数据中提取出隐含的过去未知的有价值的潜在信息,也是一门从大量数据或者数据库中提取有用信息的科学。提取出的信息具备有效、新颖、易理解等特征。中医药专业研究生学位研究课题中引入数据挖掘技术最早可追溯到2002年《“方证相应”的数据挖掘方法研究》[1]。随着大数据时代的到来,数据挖掘技术将越来越多地运用到中医学领域的研究中,也将逐渐成为各中医院校、科研院所的研究热点之一。
1.1数据来源
计算机检索中国知识资源总库(CNKI)博硕士文献库,以“数据挖掘”“中医”为主题词进行检索。检索式:主题为“数据挖掘”and“中医”(精确匹配)。检索时间范围:2002年1月-2013年11月。检索时间:2013年11月。
1.2筛选标准
纳入标准:文献中涉及中医数据挖掘内容。排除标准:只讨论数据挖掘算法,无挖掘数据举例分析。
1.3研究方法
采用Medcase V3.2数据记录挖掘系统(数理版),对文献的发文年份、发文院校、数据挖掘方法、研究类型等方面进行计量学分析。
2.1文献检出情况
共检出文献247篇,经筛选后,最终入选204篇。
2.2发文年份分布
204篇数据挖掘类文献中,2012年发文量最多,达51篇,占25.00%。2002年发文量最少,仅占0.49%。2002-2013年,年发文量大致呈逐年上升趋势,见表1。
表1 204篇中医数据挖掘类学位论文年份分布
2.3发文单位分布
204篇中医数据挖掘类文献分布于37所院校及科研院所,其中北京中医药大学发文量最多,达57篇,占27.94%。发文单位以中医药院校为主,非中医类院校发文量均不足0.5%,见表2。
表2 204篇中医数据挖掘类学位论文发文单位分布
2.4数据挖掘方法分布
204篇中医数据挖掘类文献共使用12种数据挖掘方法,其中关联规则为使用频数最高方法,达111篇,占54.41%,随机行走分析为使用率最低的挖掘方法,仅占0.49%,见表3。
2.5研究类型分布
204篇中医数据挖掘类文献共涉及7种研究类型,其中病种研究类文献最多,达102篇,占50.00%。中医数据库搭建、计算机原理与中医结合类文献最少,仅占2.45%。见表4。102篇病种研究类文献涉及病种情况见表5。
表3 204篇中医数据挖掘类文献挖掘方法使用情况
表4 204篇中医数据挖掘类文献研究类型分布
表5 102篇病种研究类文献涉及病种分布
基于学位论文的整体性、连贯性、创新性,本次研究对象为2002年1月-2013年11月CNKI博硕士文献库中中医数据挖掘类学位论文。通过年份分布统计,发现国内最早涉及中医学与数据挖掘的学位论文出现于2002年,且前4年发展进度比较缓慢。从2006年开始,伴随着中医信息化工作的开展,数据挖掘技术与中医学相结合的学位论文开始大幅度提升,并于2012年达到51篇。因检索时间为2013年11月,许多2013年6月毕业论文未上传,导致所统计2013年发文量减少。随着数据挖掘分析技术与中医学越来越紧密的结合,未来此类学位论文将呈增长趋势。
发文单位以北京中医药大学最多(57篇),广州中医药大学和中国中医科学院分列2、3位,分别有30、24篇学位论文。其次为成都中医药大学、黑龙江中医药大学、南京中医药大学、山东中医药大学等国内知名大学的数据挖掘类学位论文篇数呈增长趋势。另外,从表2中发现包括南京大学、清华大学、浙江大学等一批非中医药类大学也都有数据挖掘与中医学相结合的学位论文,从中反映出各大院校都加强了交叉学科的相互运用与配合。
204篇中医数据挖掘类文献中,使用关联规则的论文达111篇(54.41%),聚类分析达69篇(33.82%)。使用典型相关分析、ROC曲线、荟萃、随机行走分析等较为特殊的数据挖掘方法的论文较少。中医院校的学生应加强对数据挖掘方法的学习,了解如何使用多种挖掘方法进行数据的分析[2]。
文献、配方、实验、病机方面研究论文每类型25篇左右,而病种研究类论文达102篇,表明目前数据挖掘分析主要运用在各疾病的研究[3]。表5显示,在102篇病种研究的论文中,讨论内分泌代谢疾病的论文为最多,而讨论免疫系统疾病的论文仅2篇,表明目前数据挖掘方法对于不同病种的支持度参差不齐。
此次通过中医数据挖掘学位论文的梳理,发现从2002年出现第一篇中医学与数据挖掘结合的学位论文,到2012年达到51篇学位论文,短短11年间此类论文增长达50倍。越来越多的院校关注到中医学与数据挖掘的重要性及实用性。但从中也不难看出,此类数据挖掘学位论文面临挖掘方法单一的困境,其中高达88.23%的论文使用关联规则或聚类分析为主要挖掘方法,较为特殊和复杂的数据挖掘方法在中医院校的学位论文中使用率极低,加强中医院校学生的数据挖掘知识培训成为当务之急,如何正确选择挖掘方法,了解研究类型与目的,成为今后各中医院校开展交叉学科设计的教学重点。此外,国内目前进行数据挖掘工具主要使用IBM SPSS与Microsoft SQL Server等国外主流非中医类数据挖掘软件,专业适合于中医学领域的数据挖掘软件缺乏,且多数研究使用国外数据挖掘软件存在正版授权问题[4]。开发出多款自主研发、拥有完全版权且专门用于中医学的专业数据挖掘软件势在必行。
总之,随着大数据时代的到来,中医学与数据挖掘交叉学科技术不断发展,数据挖掘分析技术被越来越广泛地运用在中医基础、临床、药理等各领域上。通过对中医药数据不同层次的挖掘,提炼出完善的中医特色疗效方法,提升中医的传承效率。
参考文献:
[1] 李认书,蒋永光.“方证相应”的数据挖掘方法研究[D].成都:成都中医药大学,2002.
[2] 杜建强,聂斌.数据挖掘在中医药领域应用研究进展[J].中国中医药信息杂志,2013,20(6):109-112.
[3] 周雯静,金周慧,刘灵力.数据挖掘在中医药研究中的应用述评[J].中国中医药信息杂志,2014,21(10):131-133
[4] 邓宏勇,许吉,张洋,等.中医药数据挖掘研究现状分析[J].中国中医药信息杂志,2012,19(10):21-23.
(修回日期:2015-05-25;编辑:向宇雁)
收稿日期:(2015-04-27)
通讯作者:郭立中,E-mail:lzg1073@sina.com
基金项目:国家中医药管理局中医瘀热病机重点研究室开放课题(YUBJ2011KF-10);江苏省普通高校研究生科研创新计划项目(CXZZ13_0610)
中图分类号:R2-05
文献标识码:A
文章编号:1005-5304(2016)02-0034-03
DOI:10.3969/j.issn.1005-5304.2016.02.010