数据挖掘技术在文献研究法中的应用—以RefViz为例

2012-09-22 06:56李华新李望秀
中国医学教育技术 2012年4期
关键词:主题词数据挖掘参考文献

李华新,李望秀

南华大学计算机学院,湖南 衡阳 421001

数据挖掘技术在文献研究法中的应用—以RefViz为例

李华新,李望秀

南华大学计算机学院,湖南 衡阳 421001

在科学研究文献激增的今天,将数据挖掘技术引入文献研究领域势在必行。RefViz是一款可视化的数据挖掘工具,利用其独特的算法能够发现文献之间的关联性,并从中挖掘出某一研究领域的热点问题和发展趋势。

数据挖掘;文献研究法;RefViz;移动学习

在课题研究中,我们往往需要使用文献研究法对所研究的课题进行调研,以获得该领域研究背景、存在问题以及研究趋势等信息。随着计算机和网络技术的发展,大量的传统文献被数字化后以网络文献媒体出现,最新的研究成果及文献也借助网络载体纷纷涌现,组成了具有实时更新功能的文献数据库,大大方便了我们对文献的检索、归类以及后期的分析处理。随着各研究领域的细化和深化,新学科和新研究领域的不断涌现,使得科学研究文献数量呈几何级数量增长,任何一名研究人员穷其毕生之力都不可能将本领域的文献全部阅读。尽管目前国内外的一些文献数据库(如CNKI、SCI、SSCI等)的检索功能较为强大,但是因为传统的基于关键词匹配的检索算法缺乏有效的限制机制(如逻辑性语言无法表达等),检索结果仍不能令人满意—往往会检索到大量与主题无关或冗余的参考文献。研究人员往往要通过阅读摘要甚至对全文进行人工筛选,将其归类分析,花费了大量的人力和时间,效果却不甚理想。数据挖掘(datamining)技术由于其独特的功能,在文献研究领域中有着广泛的应用前景,具有极其深远的意义。

1 数据挖掘与文献研究

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。数据挖掘具有自动预测趋势和行为、关联分析、聚类、概念描述及偏差检测等功能,与文献研究的目的不谋而合,能很好地应用于文献检索领域。

1.1 文献研究中引入数据挖掘技术的意义

1.1.1 减轻研究人员负担 传统的文献研究需要研究人员阅读大量的文献摘要甚至全文,然后将这些文献进行人工的归类与统计,对所要研究的问题做系统性的分析,从中发现相关信息从而找出某种联系。当文献的数据非常巨大时,传统的文献研究法便有些力不从心,即使花费大量的人力和时间,也有可能无法完成。将数据挖掘技术引入文献研究领域,代替人工进行数据检索、筛选、统计、聚类分析等,使研究人员从大量的重复劳动中解放出来,以减轻研究人员的负担,并提高研究效率。

1.1.2 弥补传统文献研究的不足 文献研究法中既有非结构式定性分析,又有结构式定量分析,它们从不同的侧面对文献中所包含的信息进行加工和整理。传统的文献研究法多为结构式定性分析,使用数据挖掘技术对文献进行定量分析具有直观性、客观性、系统性等特点,因而可弥补定性研究缺乏直观性和系统性的不足;此外,使用数据挖掘技术可以科学地抽取大型样本,对某一领域中所有的文献进行系统结构分析,因而可以弥补传统文献研究由于检索文献数量少而带来的不完整性等问题,增强研究的科学性与确切性。

1.1.3 拓展数据挖掘技术的应用领域 促成某一技术迅猛发展的因素往往并不在于技术本身,而是技术的应用领域。数据挖掘技术自问世以来,便广泛应用于各种领域:如商业、情报、科学等领域。近年来,数据挖掘技术正逐渐向教育研究领域渗透,如在网络教育中通过对学习者网络访问日志进行数据挖掘,可以获得学习者的学习风格及学习喜好等信息,从而对学习资源和学习策略进行调整,促进学习者学习。将数据挖掘技术引入文献研究领域进行内容分析,对文献内容作客观而有系统的量化,并加以描述,从文献中发现一些隐藏的、未知的知识,是数据挖掘技术的另一个热点应用领域。

1.2 数据挖掘技术应用于文献研究中的类型

数据挖掘根据不同标准有不同的分类方式。数据挖掘技术用于文献研究主要是对文献进行聚类、预测、关联和相关性分析等。因此,可以根据数据挖掘的功能(知识类型)分为共引分析、共著分析、著者分析、共词分析和共篇分析等。这里主要介绍共词分析和共篇分析两类。

1.2.1 共词分析 共词分析是一种内容分析技术。它通过分析在同一个文本主体中的款目对单词或名词短语对共同出现的形式,确认文本所代表的学科领域中主题间的关系,进而探索科学的发展[2]。共词分析的第一步是从文献数据库中抽取出现频次超过一定阈值的高频主题词,两两统计其在同一篇文章中同时出现的次数,形成共词矩阵,然后围绕着这个共词矩阵进行分析。文献研究中的共词分析主要应用于两个方面:一是探求各研究领域间的相互关系,另一个是寻找次要的但是潜在增长的领域[3]。

1.2.2 共篇分析 1994年,我国学者罗式胜首先提出了“科学文献关键词链”这一概念,认为两篇或多篇科学文献有一个或多个相同的关键词,则这两篇或多篇文献或其相应著者间则必然存在一种潜在的联系,这种联系称为科学文献关键词链。共篇分析就是应用“科学文献关键词链”概念作为基础而形成的一种文献计量方法。用途主要包括以下几个方面:①从内容上了解文献之间的内在联系,了解该领域在研究方向上的类同和相关联程度;②对同一主题按年份进行时间分段比较分析,了解该主题的研究力量和内容的时间变迁;③分别统计具有相同主题词的文献作者群,能了解该主题研究领域在世界范围内的分布和发展趋势;④根据主题共篇分析来研究相应作者和研究机构的联系强度,用以确定该主题研究领域的核心作者和权威研究机构[4]。

2 RefViz软件及其应用

2.1 RefViz软件简介

RefViz是Thomson ISIResearch Soft和OmniViz公司合作推出的一款可视化的文本分析和数据挖掘工具,能对大量文献进行组织、分析,以利于研究者对参考文献的理解,是典型的共篇分析工具。RefViz功能非常强大:①能将参考文献库中参考文献的主题内容进行组织排列,并以直观的图形方式将其呈现在一个可视化的交互窗口中。通过其强大的分析工具,可以详尽地显示各参考文献之间的相互联系,便于我们快速从一大堆毫无头绪的参考文献中找出某一研究领域的热点问题及该领域的研究与发展趋势[5];②提供了在线搜索工具,用户可以随意指定软件内置的各类数据库,为用户进行跨库检索提供了方便;③能实现与文献管理软件(如Endnote、Reference Manager等)的无缝链接,即我们可以随意将Endnote、RM数据库与RefViz直接进行数据的导入导出操作。

2.1.1 RefViz文本分析工作机理 Refviz工作的原理类似于我们平时阅读文献的过程。我们平时进行文献研究的方式是:逐一阅读文章标题以及摘要,根据主题内容将其分类。RefViz处理一批文献时,也是一种“reading-finding-dividing”的过程。RefViz首先通过阅读文章内容(包括标题和摘要),发现词的范式及词与词之间的联系。与其他的软件不同,RefViz并不是单纯通过词频来统计,而是通过一种复杂的数学统计模型找出词的重要程度,将其分为三个等级;然后利用这些最重要的词和次重要的词对每篇文章进行标识;再通过标准的聚类方法将这批文献分成基于主题内容的若干组,每一组文献都通过三个不同重要性词和描述词予以标识,用以描述文献间的联系和主要概念。

2.1.2 RefViz软件界面 RefViz界面非常简洁,由四个窗口组成,如图1所示:①视图窗口。用来显示分析结果的窗口,有两种视图显示方式,Galaxy方式和Matrix方式;②主题/检索窗口(Topic/Search)。该窗口分为三栏,左边的是主要主题词(major topic),中间的是次要主题词(minor topic),最右边的是描述词(descriptive terms)。其中,“major topic”是RefViz用来对文献进行分类的依据,“minor topic”和“descriptive terms”则为RefViz的分类提供辅助作用。此外,用户还可以根据需要对上述三种词进行调换,在自动处理的基础上增加了人工干预功能,突出研究者的创造性,更好地发挥软件的作用;③参考文献浏览窗口(reference viewer)。显示文献数据库中参考文献的信息,包括软件通过聚类方法对文献的分组信息,以及参考文献的标题、作者、发表日期等信息;④咨询窗口(advisor)。这是软件的提示区域,告诉用户当前界面及操作的一些信息,用以指导用户对软件进行操作。

图1 RefViz软件界面

2.2 RefViz应用案例

从“ISIWeb of Knowledge”数据库中选择INSPEC文摘索引数据库。该数据库是物理学、电子工程、电子学、计算机科学及信息技术领域的权威性文摘索引数据库。以“m-learning”和“mobile learning”为关键词,时间限定为“2003-2007”进行搜索,共搜索到相关文献320篇。使用RefViz对搜索到的近5年来移动学习领域(m-learning)的研究文献进行分析,试图从中发现各文献间的相互联系,找出该研究领域的热点问题及发展趋势。

2.2.1 导入数据 将搜索到的320篇文献以“Bib liographic+Abstract”(主题词+关键词)的输出格式导入到Endnote软件的“m-learning”库中,通过与RefViz的关联导入到RefViz中进行分析(如图2所示)。

图2 数据导入后界面

2.2.2 预处理 在主题/检索窗口可以看到:意义相同或相近的词没有区分开来,主要主题词过多,并包含无实质意义的词或与分析主题无关且范围过宽的词,因此需要重新调整主题词进行分析。一是将主要主题词中的次要概念与专指度较低的词降级(demote),如student,time,learn等词;二是利用词表工具,为指定标目词添加同义词,对同义词进行控制。例如:指定m-learning为标目词,mobile learning等为其同义词。

2.2.3 分析数据 研究热度分析:以文献发表时间为检索条件,2003-2006年发表论文分别为17篇、65篇、74篇、102篇,数量逐年增长,尤以2006年数量最多,是移动学习研究的高潮时期。2007年发表论文为62篇,数量有所减少,在一定程度上说明研究热度有所降低,也有可能是由于研究内容趋于成熟所致。另一方面:从发表文献所处的国家和地区看,我国台湾地区发表的文献最多(65篇),其次是英国(40篇),第三是韩国(22篇),这说明在这一时期这三个国家或地区在此领域研究成果最为丰富。

图3 2004-2007年主题词分布图

研究内容与方向分析:①横向比较。通过Galaxy图可知:本例中第1组(102篇),第8组(40篇),第13组(38篇),第15组(50篇)文献量较大,其主题词分别为“environment,process,model”,“device,pda,wireless”,“phone,device,method”,“device,environment,elearning”,基本相近,说明移动学习研究内容基本固定,大都集中于移动学习环境与支持设备的研究;②纵向比较(如图3所示)。近4年围绕移动学习的主题内容基本上没有太大变化,都是围绕环境建设(environment)、移动设备(device)、无线(wireless)展开的;一个显著的变化是:2007年文献出现了“framework”这一词(见图3中红色矩形框标记),继而以“framework”为关键词进行二次检索,可以检索到四篇以“framework”为题的论文,分别为Motiwalla LF的“移动学习—框架和评估”,Moore等的“基于本体论的自主和协作式移动学习情境框架”,Kazi SA的“MILE:移动式智能学习环境—移动学习的概念框架”,Hohfeld A的“一种用于网络中心操作的泛在移动学习框架”,说明关于某一特定框架的移动学习是移动学习领域的研究新动向。

相关度分析:①文献间相关度。在Galaxy视图中,第13组(主题词为“phone,device,method”)与第16组(主题词为“digital,device,personal”)相互重叠,说明这两组文献相关性强。我们可以将这两组文献归为一类;②主题词与文献间相关度。在Matrix视图中,以相关度>0.5为筛选标准,可以得知:主题词“framework”与第7组文献(主题词为“user,process,model”)关联性较强(relevence=0.71),说明框架与移动学习方法和模式存在某种联系;主题词“environment”与第14组文献(主题词为“process,mobility,learner”)关联性较强(relevence=0.67);表明移动学习环境与学习者学习过程和移动性有一定联系。

其他分析:①查找感兴趣的文献。文献中有些主题词虽然出现频率不高,但有可能是以后的研究热点,也有可能是你自己感兴趣的内容,可以通过检索工具在主题/检索窗口中检索到包含该主题词的文献,那么这篇文献所在组中的其他文献可能也具有较高的参考价值;②对该领域名家的研究。可以以作者名称为条件进行搜索,获得某个作者发表的文章在视图中的分布情况,藉此发现该作者在该领域的研究方向和兴趣,从中获得一定的启示。该案例中,发表文章数量最多的学者为:RONG-JYUE FANG、Sharples M等,均为6篇。

数据挖掘技术应用于文献研究领域中,能从数据的汪洋大海中及时发现有用的信息,提高信息利用率,极大地提高了文献研究工作的效率和水平,有力地支持了各领域研究工作的开展,从而促进了各学科的繁荣和科学技术的良好发展。随着文献数据库技术的不断丰富和完善,各种可视化的数据挖掘工具的升级与进步,数据挖掘技术将会广泛应用于文献研究领域,其功能也将会越来越强大,数据挖掘工具将成为广大研究人员的研究利器。

[1]Roiger R J,Geatz MW.Datamining a tutorial based primer[M].北京:清华大学出版社,2003:11

[2]Qin H.Knowledge discovery through co2word analysis[J].Library Trends,1999,48(1):133-159

[3]崔雷,郑华川.关于从MEDLINE数据库中进行知识抽取和挖掘的研究进展[J].情报学报,2003,(4):425-433

[4]罗式胜.篇名关键词链特征的统计分析和应用[J].中国图书馆学报,1995,(1):28-30

[5]王颖,戎文慧.可视化文本分析和数据挖掘工具RefViz[J].中华医学图书情报杂志,2006,(6):61-64

Application of data m ining technology in literature research methodology: Taking RefViz for exam ple

Li Huaxin,LiWangxiu
Institute of Computer Science and Technology,University of South China,Hengyang 421001

Today scientific research literature is increasing rapidly,and it is imperative to introduce datamining technology into the field of literature study.RefViz is a visualization tool for data mining,which can discover relationship between literature and dig out hot issues and development trend of a certain study field because of its unique algorithms.

datamining;literature research methodology;RefViz;M-learning

G40-057

:A

:1004-5287(2012)04-0430-04

2012-03-14

李华新(1979-),男,湖南临湘人,硕士,讲师,主要研究方向:教育信息化。

猜你喜欢
主题词数据挖掘参考文献
探讨人工智能与数据挖掘发展趋势
关键词的提取与确定
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
Study on the physiological function and application of γ—aminobutyric acid and its receptors
《中国骨与关节杂志》2016 年第五卷英文主题词索引
The Review of the Studies of Trilingual Education in inghai
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议