杨颖 崔雷
〔摘 要〕共词分析可视化是一种利用现代信息技术和统计软件图形显示功能,将分析结果直观形象地显现出来的方法,其目的是应用图示的方法揭示出学科领域的发展及演进趋势、研究课题的扩散与传播的关系,为学科建设提供优化服务。目前,这种方法发展迅速并广泛应用。本文着重介绍几种重要的共词可视化的方法,并对比其优缺点。
〔关键词〕学科建设;共词分析;学科结构可视化;聚类分析;多维标度;战略坐标;社会网络分析
DOI:10.3969/j.issn.1008-0821.20.01.023
〔中图分类号〕G350 〔文献标识码〕A 〔文章编号〕1008-0821(20)01-0091-06
Visualization of Subject Structure Based on Co-word AnalysisYang Ying1 Cui Lei2
(1.Library,China Medical University,Shenyang 100001,China;
2.Department of Information Management and Information System,Shenyang 100001,China)
〔Abstract〕Co-word visualization is a method that can present the results of co-word analysis directly by modern information techniques and graphical display function of statistics systems.Co-word visualization is used to reveal the relation between developmental tendency of discipline and diffuse of research subject.So far,co-word visualization methods and their applications update quickly.This article summary featured several important visualization methods used in co-word analysis.
〔Keywords〕subject development;co-word analysis;visualization of subject structure;cluster tree;multidimensional scaling;strategic diagram;social network map
共词分析法(Co-word analysis)早在20世纪70年代后期由法国文献计量学家提出的,是信息计量学的一种重要方法,也是内容分析法的常用方法之一。其原理是:当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,可以进一步按这种“距离”将一个学科内的重要主题词或关键词加以分类,从而归纳出该学科的研究热点、结构与范式[1],对于决策层规划学科布局,调整学科方向,促进学科发展具有重要的参考价值,对于本学科研究人员了解学科前沿,进一步明晰其研究与应用目标,集中有限力量在重点领域有所突破亦具有积极意义。
经过近三十年的发展,对某学科或研究领域的共词分析不光停留在数据的分析层面上,逐渐融入可视化方法,利用现代信息技术和统计软件图形显示功能,将分析结果直观形象地显现出来,目的是应用图示的方法揭示出学科领域的发展及演进趋势、研究课题的扩散与传播的关系。本文主要介绍基于共词分析的学科结构可视化表达方法的原理、使用工具及其特点。
1 共词分析的可视化
共词分析可视化是利用可视化开发工具把共词结果以可视化的方式展示出来。可视化的结果可以统称为科学知识图谱,这个定义是由陈悦等人[2]在“科学地图”的基础上将其延伸而来。
共词分析可视化主要分五步:文献的检索、数据提取、数据预处理、数据分析和数据可视化。即(1)检索收集某学科领域的文献;(2)根据不同的需要,从关键词、或主题词、题名、摘要或正文中抽取一组词作为研究对象;通常提取文献的关键词或主题词,因为这些词简练并能代表整篇文章的内容。(3)两两统计这些词在同一篇文献中出现的次数,生成词篇矩阵、共词矩阵或相似矩阵;(4)数据分析,通过降维技术,利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,得到知识间的关系、构成及相似性,反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化;(5)数据可视化,将类目之间的关系用图形方式直观、形象地揭示出来。共词结果的可视化是整个共词分析过程最后关键的一步,有多种表达方式,目前共词分析的主要可视化方法包括包容图(Inclusion Map)、临近图(Proximity Map)、聚类图(Clustering Map)、战略坐标图(Strategic Diagram)、自相关地图、自组织图谱SOM(Self-Organized Map)等,揭示知识领域结构、映射知识领域发展趋势。多维标度(Multidimensional scaling)的结果也可以直观地表示类目之间的关系。此外,目前社会网络分析(Social Network Analysis)的可视化软件也逐渐应用于共词分析,从而探讨某学科或主题的研究核心内容与边缘内容等[3]。
2 常用的可视化方法
2.1 聚类图及其特点
聚类图是聚类分析的结果。聚类分析是通过一定的方法将没有分类信息的资料按相似程度归类的过程,目前常用的聚类方法有:一是K类中心聚类(也称为快速聚类),常用于大样本的样品聚类方法,其原理是先根据预先指定的类数k来选择初始凝聚点,根据欧式距离将每个样本归到最接近或相似的凝聚点形成类,再用各类的重心代替初始凝聚点重新分配。将每个样品不断地归类直至分类达到稳定。二是等级聚类(Hierarchical Cluster),是目前使用最多、研究最为充分的算法。该方法的原理是先将所有n个变量看成不同的n类,然后将性质最接近的两类合并为一类;再从n-1类中找到最接近的两类加以合并,依此类推,直到所有的变量被合并为一个大类。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。
聚类结果的可视化表达,即聚类图,主要有树状图(也叫系统图、系谱图)、冰柱图以及利用不同的软件和算法衍生出来的其他图。在分析学科结构和前沿热点分布的研究中,共词分析的聚类树状图表达应用最为广泛。图1[4]为语义网相关概念的聚类树图,显示了30个关键词之间的关联程度,清晰地表示了聚类的全过程,它将实际距离按比例调整到0~25的范围内,用逐级连线的方式连接性质相近的样本或新类,直至并为一类,在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺画线,该垂线将与水平连线相交,相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。冰柱图,如图2[5]为垂直冰柱图,第一列表示分多少类,因系统聚类属聚合法,所以从聚类过程看该表应该从下往上看;在聚类下所有列中,如果最近相连的两个样品列中间出现符合“x”相连,则表示这两个样品已合并成一类,否则在该步骤时还属于不同的两类。越早聚为一类的类目之间相似程度越大。聚类分析的可视化结果受其所使用的工具和算法限制,除了树状图和冰柱图外,还有一些经过处理的基因图谱[6],图3a就是利用系统树和线条颜色变化结合的方法得到基因图谱,图3b是K-均值聚类中16类基因样本在不同时间或不同组织中的表达模式。聚类图表达共词分析结果的方式已经广泛应用于数据挖掘领域,比如推导动物和植物的分类、确定基因的分类[7]获得对种群的认识、分析学科结构和前沿热点分布[8]、市场分析等许多方面。目前,可以通过SPSS、R、Ucinet、TreeView、Metlab以及免费芯片数据分析的软件CLUSTER和TREEVIEW等来实现聚类作图。
共词聚类分析优点在于:它利用高频词反映某学科或主题的研究热点,能定量反映出词与词之间的亲疏关系,进而反映这些词所代表的主题内容的结构。采用数学统计的方法,没有先验知识的情况下把学科领域研究内容进行客观上的自动划分,弥补了专家分类法的不足。钟伟金[9]提出:聚类过程将词间距离最短的主题词聚集在一起,忽略了词间的概念与逻辑联系,造成一定的弊端:(1)没有中心概念,共词的聚类就像分子团一样,分子团的组成是由于各分子间的相互吸引力而聚集在一起。聚类成团的主题词,也是由于相互间的密切程度高而聚集起来,在聚集的过程中没有形成中心词。(2)聚在一起的主题词未必都能表达同一个内容。在聚类过程中,因为词与词间的距离有传递关系,而聚类过程中没能有效将这种词间距离的传递关系取出,导致在聚类时将一些概念关联不太相关的主题词聚集在一起。(3)对类团间的相互影响没有说明。在聚类时,尽管类团与类团间的距离作为成类的考量之一,但对于整个领域内的所有类团而言,并没标示出它们之间的关系,也就是说无法辨明那些是主要类团,哪些是核心类团。
2.2 多维尺度图谱及其特点
多维尺度图谱(也称为多维标度图谱,Multidimensional scaling Map,MDSM)的基本原理是多维尺度分析。多维尺度分析通过某种非线性变换,把高维空间的数据转换成低维空间中的数据,变换后的低维数据仍能近似地保持原高维数据间的关系的一种技术。通过MDS可以在较低维空间中直观地看到一些高维样本点相互关系的近似图像。其原理可以概括为通过低维空间(通常是二维空间)展示对象之间的联系,并利用平面距离来反映对象之间的相似程度,可以通过统计软件SPSS或SAS来实现。共词多维尺度图谱中,词的位置显示了词之间的相似性,有高度相似性的词聚集在一起,形成一个学科研究的类别,越在中间的词表明与它有联系的词越多,在学科里的位置也就越核心;反之,则越在外围。以图4[4]为例,从国内语义网的共词多维尺度图可以看出,“知识库与知识组织”和“数字图书馆与检索”这两个领域内部联系紧密,且处于核心地位,说明二者的研究趋于成熟,且是语义网研究的主要方向。因此,通过多维尺度分析,某研究领域在学科内的位置就容易判断。
图4 多维尺度图谱
与聚类树图相比,多维尺度图谱利用平面距离展示出词间亲疏关系,能够容易判断出某研究领域在学科内的位置[10]。侯海燕[]等利用聚类分析结合多位尺度分析来判断学科领域研究热点。但是,聚类分析和多维尺度分析得到的结果有时存在差异,Peter B.Musgrove等人[12]把它归因于聚类分析的工作过程及合并类目的不同顺序,同时还认为MDS虽然没有上述的局限,但并不能说明它将总能提供比聚类分析更好的结果,二维显示往往并不能准确地表达多维问题。
2.3 战略坐标及其特点
战略坐标是由law[13]等人最早提出的。其原理是在共词矩阵和聚类的基础上,来描述某研究领域内部联系情况和领域间相互影响的情况。在战略坐标中,X轴为向心度,表示领域间相互影响的强度,Y轴为密度,表示某一领域内部联系强度。其中:向心度(Centrality):用来量度一个学科领域和其它学科领域的相互影响的程度。一个学科领域与其它学科领域联系的数目和强度越大,这个学科领域在整个研究工作中就越趋于中心地位。对于特定的类别,向心度的计算可以通过该类别的所有主题词或关键词与其他类别的主题词之间链接的强度加以计算。这些外部链接的总和、平方和的开平方等都可以作为该类别的向心度。密度(density):用来量度使字词聚合成一类的这种联系的强度,也就是该类的内部强度。它表示该类维持自己和发展自己的能力。某一类别的密度的计算可以有多种方式,首先计算本类中每一对主题词或关键词之间的在同一篇文献中同时出现的次数,通过计算这些内部链接的平均值、中位数或者平方和,得出这个类别的密度。以向心度和密度为参数绘制成的二维坐标即为战略坐标,它可以概括地表现一个领域或亚领域的结构。这个地图将每一个二维空间的题目领域划分为4个象限,落入4个象限中的词团分别表示不同的含义:第一象限中的词团密度和向心度都较高,密度高,词团内部联系紧密,向心度高,说明该词团与其余各词团有广泛的联系,即该词团处于所有研究主题的核心。第二象限中的词团处于边缘位置,但已经受到关注,且被很好的研究过。第三象限的词团密度和向心度都低,处于整个研究领域的边缘,研究尚不成熟;第四象限的词团中心度高,但密度低,说明该词团构成的主题领域也是核心,但不成熟,如图5。
图5 战略坐标图
在某学科的研究中,其主题领域的向心度和密度不是一成不变的。随着对学科某个主题领域研究的成熟,有关该领域的科学研究论文可能会减少,或由于新的知识点的出现,该领域的研究向新的主题演化,这些因素都可致:原本属于第一象限的主题,经过一段时间的发展,被其它更稳定更成熟的主题所替代,从而滑落到第二象限或是更低的象限中去。以时间段为纵向的考察范围,研究不同时间段中主题领域的演化情况,有助于对本学科内在这一时间段的研究热点的认识,从而探究主题变迁的过程及主题变化的原因。因此,该方法显著的优点在于:能判断热点主题的核心度和成熟度;能够展示学科结构演变的过程及原因。其不足之处是受聚类结果的限制,有时聚类归类的效果不好,会涉及到人为归类,因此,存在一定的人为因素。
2.4 社会网络分析图谱及其特点
以关系为基本单位的社会网络分析在社会学、心理学、经济学及管理学等诸多学科领域已经得到了广泛的应用。此分析方法在科技管理领域也备受关注,有人应用此方法分析科学研究中的合作关系网络[14]、学科间的引用被引用关系网络[15]、以及共词关系网络[16]。社会网络分析引入共词分析中,可以通过Pajek[17]、Netdraw[18]、Citespace[19]、Ucinet[20]等软件进行可视化:共词矩阵呈现的是词与词之间的共现数据,可视化结果代表的是词与词之间的共现关系网络,即带有顶点和边的网络:顶点是那些具有代表性词(所统计的高频词),词之间存在的连接关系由边来表示,词团间的关系强弱以连线的粗细表示,两个词团的关系越强,连接它们之间的线条越粗。这样就可以通过网络分析方法来研究网络在顶点的相互作用下的分布情况,网络在时间序列下的动态变化。共词网络分析的一个主要目的是确定这些代表性术语之间的概念图谱或知识网络结构,通过一系列类似图谱就可以相当详细地描述某一学科领域的主题。社会网络分析中常用k核分析,它是社会网络研究中凝聚子群的一种,凝聚子群是满足如下条件的一个行动者子集合,即在此集合中的行动者之问具有相对较强、直接、紧密、经常的或积极的关系。核的概念最早是由Seidman提出的。k核指的是满足一个条件的子图,即子图中的点都至少与该子图中的k个其它点邻接。通过改变k的值,就会得出不同的子图。随着k的增加,k核的子图成员会逐渐减少,而成员之问的关系会更紧密,如图6[21]。图6 网络关系图
这种可视化处理方式,制作原理简单,词团间联系的强弱,通过网络关系图一目了然。以直观、形象的方式反映词团间的关系,能快速定位核心词团与边缘词团。其不足之处在于:不能反映词团的成熟度,难以判定某研究领域的成长趋势。
3 共词可视化在分析学科结构分析的应用
共词分析可视化主要用于挖掘学科前沿热点,对学科的发展态势分析、预测。
2003年,张晗等通过文献计量学调查分析,利用系统聚类总结出当前国外生物信息学研究的热点,并通过战略坐标加以展示各热点的发展状况[8]。
2003年,美国的Leonard J.Ponzi博士就曾用术语共出现(Co-term occurrence)的方法,以“The Evolution 。模S Intellectual Development of Knowledge Management(知识管理的演进和研究结构)”为题撰写了博士论文,判定知识管理概念的跨学科特点[22]。
2004年,Ketan Mane和Katy Birner利用突发监测中的Kleinberg算法发现突发词的研究成果,选用高频且突发的词做为共词分析的来源,揭示了美国科学院院刊1982-2001年的研究主题的变化[23]。
2005年,谢彩霞参照加拿大国家研究理事会(NRC)提供的79个纳米科技关键词,对我国纳米科技论文作了关键词共现分析。通过关键词之间网络联系和微观结构的表征,展示了我国纳米科技研究领域的发展动态和发展趋势[24]。
2006年,侯海燕等人利用多维尺度分析与聚类分析方法绘制了当代国际科学学研究热点演进趋势知识图谱[]。
2007年,周静怡等人利用共词分析方法,结合战略坐标、社会网络分析和自相关地图等可视化方法,展示了人类基因组领域的研究结构和发展趋势[25]。
2008年,李长玲通过聚类分析图书馆学和情报学专业硕士学位论文,对高频关键词进行共词聚类分析,研究各高频关键词之间的内在关系,比较分析了图书馆学和情报学硕士学位论文的研究热点[26]。
2008年,周爱民对2006年知识管理领域关键词共现强度的聚类分析[27]。
2009年Omwoyo Bosire Onyancha等利用共词分析方法研究了与HIV/AIDS相关的危险因子、性传播疾病、热带病、机会性感染和前处理因子等5个方面,并通过多维尺度分析方法展示每个方面与HIV/AIDS的关系。证实了发生在非洲国家的HIV/AIDS有着区别于工业化国家的独特特征[28]。
4 共词可视化存在的问题
共词可视化的研究已成为预测学科发展必不可少的方法,但仍存在一些问题:
(1)多数学者使用在共词分析中所使用的词是经过人工阅读文献后选取的能够概括文章主要内容的关键词或主题词,这样的词能简练的概括文章内容,统计方便,但是这个过程中存在着很大的主观因素,所选取的词很可能与作者的本意不相符,因此,有学者提出:分析题目或摘要中的词,更能体现文章内容。究竟选择哪个字段的词来分析,所得到的效果更接近事实尚未达成一致。
(2)某些类型的文献,如专利和灰色文献,因为不能公开发表,同时也没有标引在数据库中,导致共词分析的结果不能反映出研究领域的全貌。
(3)有些学者过分追求创新,而忽视多种共词可视化方法各自的特点,分析的时候并非能达到真正为学科服务的目的。因此,在实际应用中要根据需求结合各方法的特点进行分析,并结合专家调查,真正地将信息计量学应用于实践,发挥对学科发展和建设的积极作用。
5 问题的解决
共词分析中选词很重要,究竟选择哪个字段的词来分析,这需要进一步研究:对比分析主题词或关键词以及题目或文摘中自然语言分词后选取的词,看哪种方式得到的结果更接近事实,才可以定论。此外,各种方法的原理和特点不同,所以分析不同的样本时表现程度不同,有时得到的结果会存在差异。因此,在分析的时候要根据实际需要和每种可视化的原理和侧重点来选择可视化的方法。比如,只想了解某学科热点的主题结构,可用共词的聚类分析得到树状图来展示;如果想判断出某研究领域在学科中所处位置,可以结合多维尺度分析;若要判定学科的成熟度和核心性以及该学科演化情况,可以制作战略坐标来分析;如果想知道学科中各主题之间的关系,可以通过共词网络来展现,并且还可以加入社会网络分析,来挖掘其核心和边缘主题。当然,也可以多种可视化方法相结合,从不同的角度来分析,多方位展现学科结构的发展过程。
6 小 结
共词可视化为学科建设提供了有效的决策支持。对于学科的发展态势分析和预测,不仅局限于共词可视化,还可结合其它方法如共引分析等,并理论联系实际,引入专家调查法,这些方法融汇集成,也许是今后学科情报分析研究应该探索的一条新的路径。也可以通过学科馆员将情报资料直接应用于各个学科,真正实现学科战略情报分析研究为科技发展的战略决策提供高效、优质的情报支撑,促进经济发展。
参考文献
[1]张勤,马费成.国内知识管理结构研究探讨—以共词分析为方法[J].情报科学,2008,27(1):93-101.
[2]陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154.
[3]蒋颖.1995-2004年文献计量学研究的共词分析[J].情报学报,2006,25(4):504-512.
[4]吴正荆,朱晶.知识地图方法及其在国内语义网文献研究中的应用[J].情报科学,2008,26(10):1502-1506.
[5]夏鑫,徐红.浅谈新疆地区棉花色特征聚类[J].新疆农业科学,2009,46(1):102-105.
[6]申伟科,钟理.基因表达聚类分析及在肿瘤研究中的应用[J].肿瘤学杂志,2008,14(5):417-420.
[7]Chaussabel D,Sher A.Mining microarray expression data by literature profiling[J].Genome Biology,2002,3(10):RESEARCH0055.
[8]张晗,崔雷.生物信息学的共词分析研究[J].情报学报,2003,22(5):613-617.
[9]钟伟金.共词聚类分析法的类团实例研究——对肿瘤治疗热点主题的分析[J].中华医学图书情报杂志,2009,18(2):48-53.
[10]Cottrill CA,Rogers A M,Mills T.Co-citation analysis of the scientific literature of innovation research traditions[J].Science Communication,1989,(2):181-208.
[]侯海燕,刘则渊,陈悦,等.当代国际科学学研究热点演进趋势知识图谱[J].科研管理,2006,27(3):90-96.
[12]Peter B.Musgrove,et a1.A Method for Identifying Clusters in Sets of Interlinking Web Spaces[J].Scientometrics,2003,58(3):657-672.
[13]Law J,Bauin S,Courtial J-P,et al.Policy and the Mapping of Scientific Changer:A co-word analysis of Research into Environmental Acidification[J].Scientometrics,1988,14(3-4):251-264.
[14]Caroline S.Wagner,Loet Leydesdorff.Mapping the network of global science:comparing international co-authorships from 1990 to 2000[J].International Journal of Technology and Globalisation,2005,1(2):185-208.
[15]Everett,M.Social Network Analysis[M].Essex:Textbook at Essex Summer School in SSDA,2002.
[16]Tor J Larsen,Linda Levine.Searching for management information systems:coherence and change in the discipline[J].Information Systems Journal,2005,15(4):357-381.
[17]Scott J,Tallia A,Crosson JC et al.Social network analysis as an analytic tool for interaction patterns in primary care practices[J].Ann Fam Med,2005,3(5):443-8.
[18]Vitevitch MS.What can graph theory tell us about word learning and lexical retrieval?[J].J Speech Lang Hear Res,2008,51(2):408-22.
[19]Creswick N,Westbrook JI.Social network analysis of medication advice-seeking interactions among staff in an Australian hospital[J].Int J Med Inform,2008 Nov .[Epub ahead of print]
[20]Chen C,Chen Y.Searching for clinical evidence in CiteSpace[J].AMIA Annu Symp Proc,2005:121-5.
[21]岳洪江.基于共词分析的国际企业研发文本知识挖掘可视化研究[J].商业研究,2008,(377):62-66.
[22]Leonard J Ponzi.The Evolution 。模S Intellectual Development of Knowledge Management[D].Long Island University,2003.
[23]Mane K,Birner K.Mapping Topics and Topic Bursts in PNAS.PNAS,2004,101(supplz1):5287-5290.
[24]谢彩霞,梁立明,王文辉.我国纳米科技论文关键词共现分析[J].情报杂志,2005,24(3):69-73.
[25]周静怡,孙坦,陈涛.共词可视化:以人类基因组领域为例[J].情报学报,2007,26(4):532-537.
[26]李长玲,瞿雪梅.基于硕士学位论文的我国图书馆学与情报学研究热点分析[J].情报学报,2008,26(7):1056-1060.
[27]周爱民.2006年知识管理领域关键词共现强度的聚类分析[J].现代情报,2008,(5):30-33.
[28]Omwoyo Bosire Onyancha,Dennis N.Ocholla.Is HIV/AIDS in Africa distinct?What can we learn from an analysis of the literature?[J].Scientometrics,2009,79(In Press).