知识图谱视角下数据挖掘在图书馆中的应用分析

2014-12-30 20:17廖文果

河南图书馆学刊 2014年11期

关键字：知识图谱；数据挖掘；共被引分析；CiteSpace

摘要：文章以从CSSCI下载的有关“数据挖掘在图书馆中的应用”的题录信息为研究对象，使用CiteSpace从机构、作者、共被引文献、关键词等角度分别绘制了相关聚类视图和共被引网络视图，以可视化图谱的形式来展示国内图书馆数据挖掘的知识谱系，分析机构群特征、作者群特征、知识基础、研究热点和趋势，以期对该领域研究达到全面、整体的认识与把握。

中图分类法：G251文献标识码：A文章编号：1003-1588（2014）11-0118-03

收稿日期：2014-08-01

作者简介：廖文果（1982-），阿坝师范高等专科学校图书馆馆员。

*本文系四川省教育厅课题“基于数据挖掘的图书馆个性化服务研究”阶段性成果之一，编号：13SB0070。知识图谱始现于20世纪90年代末，其融合了信息技术、可视化技术及文献计量学等多种学科，在21世纪初得到了快速发展，现已成为计量学领域研究新方向[1]。知识图谱提供了理顺知识脉络的可视化体系网络，借以了解某个知识领域的动态、热点，预测和把握知识发展的前沿[2]。笔者利用知识图谱对有关数据挖掘在图书馆中应用等相关文献进行分析，旨在全面把握该领域研究的现状、发展、特点和规律。

1数据来源及研究方法

中文社会科学索引（CSSCI）是国内人文社会科学研究方面的专业性和权威性的数据库，有着广泛的影响和极高的声望。在中文社会科学引文索引来源数据库按“篇名=数据挖掘or 关键词=数据挖掘”并限定学科类别为图书、情报和文献学，文献类型为“论文”，检索1998年到2013年所有文献共648条记录。选择陈超美博士的软件CiteSpace3.8可视化分析工具，从机构（Institution）、作者（Author）、共被引文献（Cited Reference）、关键词（Keyword）等角度分析期间“数据挖掘在图书馆中的应用”相关文献的机构群特征、作者群特征、知识基础、研究热点和趋势，绘制相关聚类视图和共被引网络视图，以可视化图谱的形式来展示国内图书馆数据挖掘的知识谱系，以期对该领域研究达到全面、整体的认识与把握。

2可视化分析与结果

2.1机构群、作者群特征

2.1.1机构群特征

对来源机构研究不但可以了解该领域的研究力量分布，核心机构的分布，而且为科学研究的文献搜集方向提供有效的依据[3]。笔者发现发文机构图谱中圆点越大表示所属机构发文越多，排在前五位的分别是南京大学信息管理系、武汉大学信息管理学院、武汉大学信息资源研究中心、吉林大学管理学院、厦门大学经济学院，发文量均达到十篇以上，显示该领域较强的研究力量。节点之间的直线表示两机构之间的合作关系，各机构之间联系比较稀疏，说明合作较少。

2.1.2作者群特征

笔者从作者的网络图谱中统计出谢邦昌、张玉峰、朱建平贡献最大，达到十篇以上，是本领域的核心作者。从聚点可以看出，存在以谢邦昌、张玉峰、朱东华、潘有能、邱长波为中心几个较大的聚类簇，表明行成以该几名作者为中心的团队，团队成员合作成果较多。

2.2知识基础分析

领域内的知识基础一般是由该领域内的早期奠基性文献和来源于共被引频次和中心性都比较高的关键文献组成[4]。绘制共被引网络图谱用来描述知识领域的基本构成和研究动态，是CiteSpace用来展示学科的知识基础与研究前沿的重要方法。节点类型（Node Types）选择共被引文献（Cited Reference），设置合适的阈值参数（Threshold Interpolation），其他策略不变，运行软件后得到共被引奠基性文献的时间序列图谱。

共被引奠基性文献的时间序列图谱中每个圆形的节点代表一篇共被引文献，节点的大小与共被引用频次正相关，节点不同颜色的年环表示不同年份共被引的引文时间，年环厚度与该年份的共被引次数成正比。笔者从图谱中发现该领域研究从1980年代开始出现，一直是研究的热点，早期的文献基本上都来自国外。一篇奠基性文献是QUINLAN，J.R.于1986在Machine Learning（机器学习）第一期上发表的Induction of Decision Trees（决策树介绍）。通过引文历史（Citation History）折线图，得到该文的历史被引轨迹。该文在2005年和2008年分别达到4次。

一个研究领域的知识基础与研究热点会随着时间的变化而不断地演化递进，在每个时间段行成不同的高被引文献簇，代表着一个学科的核心文献集合。图谱中每个圆形的节点代表一篇共被引文献，节点的大小与引用频次成正比，年环的不同颜色代表不同的被引时间，其厚度与该年份被引次数成正比。通过共引文献分析，位列前茅的是Han JiaWei，中文名为韩家炜，其所著为《数据挖掘：概念与技术》第二版是本领域的核心著作。

点的中心性是一个用以量化点在网络中地位重要性的图论概念。中间中心性是常用来进行中心性测度的指标，它是指网络中经过某点并连接这两点的最短路径占这两点之间的最短路径线总数之比[5]。中间中心性高的点往往位于连接两个不同聚类的路径上。表1选取是被引频率较高，中心较高的几种文献或著作。中心性最高的是邵峰晶的2003年中国水利水电出版社出版的专著《数据挖掘原理与算法》，该文献在系统阐述数据挖掘产生历史、相关概念、原理、基本方法的基础上，对关联、分类、聚类、序列等数据挖掘算法和技术进行了剖析，并结合自己的实际研究，分类论述数据挖掘的应用问题[6]。中心性排在第二位赵丹群在现代图书情报技术2000年第6期上发表的论文《数据挖掘：原理、方法及其应用》，文中首先介绍了数据挖掘的基本概念和处理过程，然后分别分析了数据挖掘所发现的主要知识类型和使用的技术方法，最后对基于Web的几个数据挖掘应用系统进行了较为细致的剖析，并指出数据挖掘技术和搜索引擎技术的结合对网络信息的发现、搜集和管理、利用具有巨大的发展前景[7]。廖文果：知识图谱视角下数据挖掘在图书馆中的应用分析*廖文果：知识图谱视角下数据挖掘在图书馆中的应用分析*表1中心性排在前几位的共被引文献endprint

FreqCentralityAuthor题名来源130.59邵峰晶数据挖掘原理与算法中国水利水电出版社，2003年50.5赵丹群数据挖掘：原理、方法及其应用现代图书情报技术，2000年第6期50.48林杰斌数据挖掘与OLAP理论与务实清华大学出版社，2003年50.48Kantardzic Mehmed数据挖掘——概念、模型、方法和算法清华大学出版，2003年80.47晏创业智能检索中的网络数据挖掘技术探索中国图书馆学报，2002年第3期230.46Han JiaWei90.45韩家炜数据挖掘：概念与技术机械工业出版社，2001年60.33王实Web数据挖掘计算机科学，2000年第4期2.3研究热点和前沿分析

“研究前沿”用它来描述研究领域热点的随时间变化的演进过程，是通过被引用的文章的关键词来体现的。文献题录中的关键词是对主题的高度概括和集中描述，可以用于确定某领域的研究热点和主流方向，出现频次较高的关键词在可视化图谱中显示为较大的节点。

FreqKeywordFreqKeyword879数据挖掘30数据挖掘技术76关联规则29web挖掘52数据仓库28电子商务50数字图书馆27web数据挖掘47知识发现26竞争情报44客户关系管理26信息服务38图书馆22个性化服务38聚类分析18神经网络32决策树17个性化信息服务31知识管理17文本挖掘表2显示的是高频关键词共现的聚类数据。每个关键词代表一个研究热点，出现的频次越大，即该节点的受关注度越高。“数据挖掘”“关联规则”“数据仓库”“知识发现”“数字图书馆”“客户关系管理”“图书馆”“聚类分析”“决策树”“知识管理”“电子商务”“数据挖掘技术”“web挖掘”“信息服务”“web数据挖掘”“个性化服务”“竞争情报”“个性化信息服务”“神经网络”“文本挖掘”受关注度高，是研究的热点。其中，“数据挖掘”是通用的概念，几乎每篇有关数据挖掘的文章都有该关键词，因此词频最高。而“关联规则”“聚类分析”“决策树”“神经网络”是指应用的数据挖掘技术，表明是在图书馆应用的最常见的数据挖掘方法。“数据仓库”“web挖掘”“竞争情报”“电子商务”“客户关系管理”“文本挖掘”“数字图书馆”或者“图书馆”是指数据挖掘技术的应用领域，说明可以常对这些对象或领域进行数据挖掘。“知识管理”“个性化服务”“个性化信息服务”是指数据挖掘技术的应用目的是提高图书馆的知识管理、信息服务水平和个性化服务。从高频关键词解读出数据挖掘技术在图书馆应用非常广泛，重点是采用“关联规则”“聚类分析”“决策树”“神经网络”等多种挖掘技术，用于提高图书馆的知识管理水平，提供更个性化的服务。

3结论

通过机构分析、作者分析、文献共被引分析、关键词聚类分析，笔者以知识图谱的方式展示了“数据挖掘在图书馆中的应用”的研究力量分布、学术代表人物、重要学术文献分布、热点和前沿趋势，并得出以下结论。从机构分布来看，南京大学信息管理系、武汉大学信息管理学院、武汉大学信息资源研究中心、吉林大学管理学院、厦门大学经济学院是研究该领域的中坚力量，展现较强的科研实力。但机构间合作有待加强。从作者分布来看，谢邦昌、张玉峰、朱建平发文量较大，且各自行成了合作网络。其他作者比较分散。从共被引文献来看，奠基性文献主要来自国外。Han JiaWei，中文名为韩家炜，其专著《数据挖掘：概念与技术》共被引最大。邵峰晶的《数据挖掘原理与算法》，赵丹群的《数据挖掘：原理、方法及其应用》等国内文献的被引量和中心性都很高，构成了该领域的核心文献。④从研究热点和前沿分析来看，研究热点可概括为三方面：一是以“关联规则”“聚类分析”“决策树”“神经网络”等为主的数据挖掘技术；二是以“数据仓库”“web”“竞争情报”“电子商务”“客户关系管理”“数字图书馆”为主的数据挖掘对象；三是以“知识管理”“个性化服务”“个性化信息服务”为主的数据挖掘目的。从研究趋势为看，“个性化服务”“xml”“聚类分析”“竞争情报”“神经网络”“社会网络分析”“数据处理”是近年来研究的方向和前沿。

参考文献：

[1]廖胜姣.基于文献计量的科学知识图谱绘制研究[D].北京：中科院研究生院，2009：1-7.

[2]刘则渊，王贤文，陈超美.科学知识图谱方法及其在科技情报中的应用[J].数字图书馆论坛，2009（10）：14-34.

[3]徐瑾，杨思洛.基于知识图谱的数字图书馆研究现状与趋势分析[J].图书馆，2011（6）：41-44，51.

[4]赵蓉英，王菊.图书馆学知识图谱分析[J].中国图书馆学报，2011（2）：42-52.

[5]陈超美.CiteSpace II：科学文献中新趋势与新动态的识别与可视化[J].情报学报，2009（3）：401-402.

[6]邵峰晶.数据挖掘原理与算法[M].北京：中国水利水电出版社，2003.

[7]赵丹群.数据挖掘：原理、方法及其应用.现代图书情报技术[J].2000（6）：41-44.

（编校：严真）endprint

3结论

参考文献：

[1]廖胜姣.基于文献计量的科学知识图谱绘制研究[D].北京：中科院研究生院，2009：1-7.

[2]刘则渊，王贤文，陈超美.科学知识图谱方法及其在科技情报中的应用[J].数字图书馆论坛，2009（10）：14-34.

[3]徐瑾，杨思洛.基于知识图谱的数字图书馆研究现状与趋势分析[J].图书馆，2011（6）：41-44，51.

[4]赵蓉英，王菊.图书馆学知识图谱分析[J].中国图书馆学报，2011（2）：42-52.

[5]陈超美.CiteSpace II：科学文献中新趋势与新动态的识别与可视化[J].情报学报，2009（3）：401-402.

[6]邵峰晶.数据挖掘原理与算法[M].北京：中国水利水电出版社，2003.

[7]赵丹群.数据挖掘：原理、方法及其应用.现代图书情报技术[J].2000（6）：41-44.

（编校：严真）endprint

3结论

参考文献：

[1]廖胜姣.基于文献计量的科学知识图谱绘制研究[D].北京：中科院研究生院，2009：1-7.

[2]刘则渊，王贤文，陈超美.科学知识图谱方法及其在科技情报中的应用[J].数字图书馆论坛，2009（10）：14-34.

[3]徐瑾，杨思洛.基于知识图谱的数字图书馆研究现状与趋势分析[J].图书馆，2011（6）：41-44，51.

[4]赵蓉英，王菊.图书馆学知识图谱分析[J].中国图书馆学报，2011（2）：42-52.

[5]陈超美.CiteSpace II：科学文献中新趋势与新动态的识别与可视化[J].情报学报，2009（3）：401-402.

[6]邵峰晶.数据挖掘原理与算法[M].北京：中国水利水电出版社，2003.

[7]赵丹群.数据挖掘：原理、方法及其应用.现代图书情报技术[J].2000（6）：41-44.

（编校：严真）endprint