基于战略坐标图的我国馆藏资源研究主题分析*

2013-07-07 05:51赵蓉英吴胜男
图书与情报 2013年2期
关键词:象限聚类馆藏

赵蓉英 吴胜男

(武汉大学信息管理学院 湖北武汉 430072)

馆藏资源一直是我国图书情报实践领域和教学科研领域的核心主题之一。对馆藏资源研究主题进行分析,有助于图书情报机构更好地了解新信息环境下馆藏资源研究的特点及发展趋势,提高图书馆的知识服务能力和水平以及馆藏利用率,从而针对用户需求提供准确、有效的知识服务。为了了解我国图书情报领域馆藏资源研究的主题分布情况和我国馆藏资源研究的主要研究主题,本文应用共词分析、层次聚类以及战略坐标的方法,绘制出我国馆藏资源研究的主题战略坐标图,直观地展示出馆藏资源研究各主题的发展情况以及核心研究内容。最后通过对我国馆藏资源研究的主题分析,就我国在该领域的研究提供建议,为馆藏资源研究的发展与成熟提供强有力的支撑,这也是本文的研究意义和目的之所在。

1 数据来源与研究方法

1.1 数据来源

本文依托CNKI数据库的中国学术期刊网络出版总库、中国学术期刊全文数据库以及中国博硕士学位论文全文数据库,“馆藏资源”进行主题检索,共获得论文4455篇。经过数据去重之后,共得到相关论文4365篇。

1.2 研究方法

本文主要采用共词分析、层次聚类以及战略坐标分析的方法,以检索到的4365篇论文为数据源,利用自编的VBA程序以及SPSS19软件生成我国馆藏资源研究的高频关键词矩阵以及主要的关键词类团。通过计算每一类团中各关键词的粘合度值,表达类团中各关键词对聚类成团的贡献程度,确定每一类团的核心概念;同时通过计算不同关键词类团的向心度和密度值,绘制出我国馆藏资源研究中不同研究主题的战略坐标图,描述各研究主题内部联系情况和主题间相互影响的情况。

2 我国馆藏资源研究的主题内容分析

2.1 高频关键词的选取与聚类

本文以检索到的与馆藏资源相关的论文为数据源,套录每一篇文献的关键词,统计各关键词的词频,考虑到多数关键词出现的频次较低,从而导致共现的频次也低,而且过于零散的词频分析结果无法深入的展示出各研究主题的产生演变情况以及主题间的交叉融合情况,从而阻碍了对于某一研究总体研究趋势的把握。因此本文截取了前98个、频次大于20的高频关键词作为本文的研究对象(见表 1)。

表1 我国馆藏资源研究高频词列表(频次大于20)

在得到我国馆藏资源研究的高频关键词列表后,本文利用自编的VBA程序,统计其共现关系,生成了高频关键词的共现矩阵。但是这种共现矩阵所反映出来的关键词之间的关联只是一种表象,因为两个关键词共现频次的多少直接受到各自词频大小的影响。为了真正揭示关键词之间的共现关系,本文引入了表现关键词共现相对强度的指标——Salton指数。

Salton指数的计算公式为:

其中n和n分别表示关键词i、j出现的频次,n表示关键词 i与 j共现的频次。

利用Salton指数,本文得到了我国馆藏资源研究高频关键词之间的相对共现强度矩阵(见表2)。

将上述矩阵输入到SPSS 19软件中,对其进行聚类分析,发掘关键词矩阵中关联强度大的主要词群,从而揭示出我国馆藏资源研究的主流领域。在聚类的过程中,聚类方法主要选用层次聚类法,其原理是先将所有n个变量看成不同的n类,然后将性质最接近的两类合并为一类;再从n-1类中找到最接近的两类加以合并,依此类推,直到所有的变量被合并为一个大类。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。聚类标准采用欧式距离平方,并选用Z分数对矩阵中的数据进行标准化的处理。最后得到我国馆藏资源研究高频关键词共现聚类树图。根据聚类结果,同时参考相关的文献,本文最终将我国馆藏资源研究的高频关键词聚为17类。

2.2 高频关键词聚类结果核心主题的确定

上述得到的高频关键词聚类结果,是通过词间距离的远近而形成的类团。这些类团只能显示出哪些关键词之间的关联较强,而对于这些类团的中心概念却无从得知。为了对各类团的主题进行正确的分析,本文引入了钟伟金等学者提出的粘合力思想,用以衡量类团内各主题词对聚类成团的贡献程度,表达每个主题在类团的聚集过程中所起作用的程度。在类团中,粘合力最大的词称为中心词,中心词在确定类团的名称与性质中起至关重要的影响,能够表征某一类团的核心概念。计算公式为:

其中 N(A)表示关键词 Ai的粘合度,F(A→B)表示关键词A与同一类团其余关键词的共现频次。根据上述公式,本文计算出了17个类团中每一个关键词的粘合度值,并以此为基础,对17个类团进行主题分析。因为篇幅的限制,本文只列举出子类团1的关键词粘合度计算结果(见表3),其余的类团只列出其主题分析结果。

表3 我国馆藏资源研究子类团中关键词粘合度值列表

从列举的各关键词的粘合度值可以判断出,这个类团所研究的主要内容是馆藏的电子期刊资源利用、整合以及利用率的评价。按照以上方法,其余类团的主题分析结果如下所示:

类团2:各类型图书馆网络数字资源共享建设以及开发利用;类团3:基于用户需求的馆藏资源建设以及开放存取;类团4:公共图书馆馆藏文献资源建设发展;类团5:图书馆信息服务、读者服务以及管理创新;类团6:高职院校图书馆基于教育职能的图书馆建设;类团7:档案馆馆藏资源建设;类团8:基于读者需求的医院图书馆工作以及读者服务模式与质量研究;类团9:开架借阅对大学生素质教育的影响;类团10:知识经济时代下的图书馆资源与服务;类团11:各类型图书馆虚拟馆藏文献资源的共建共享;类团12:学校图书馆学科馆员的参考咨询;类团13:各类型图书馆的藏书建设;类团14:馆藏资源的数字化、网络化以及信息自动化建设;类团15:信息时代馆藏资源的知识管理研究;类团16:基于读者需求调查的个性化服务研究;类团17:馆藏资源的知识产权研究。

3 我国馆藏资源研究主题的战略坐标分析

本文将馆藏资源研究的高频关键词进行共现、聚类以及粘合力指标的计算后,得到了我国馆藏资源研究的主题,粘合力的计算进一步确定了馆藏资源研究的具体主题内容。但问题也随之出现,即共词聚类分析以及粘合力指标的运用只有助于了解某研究领域内具体的研究主题,然而各研究主题的发展状况以及成熟度却无法揭示,同时对于不同主题之间的关系以及该研究领域内核心研究主题的确定也无从了解。因此,为了考察我国馆藏资源研究领域不同研究主题的研究地位以及发展潜力,本文引入了战略坐标这一概念。

3.1 战略坐标及其指标

战略坐标是LAW在1988年提出的,用来描述某一研究领域内部联系情况以及领域间的相互影响情况。在战略坐标地图中,有两个非常重要的指标——密度与向心度来衡量某一研究领域各主题类团的内部发展状况以及主题类团间的相互影响状况。

密度是一种用来衡量主题类团内部关联强度的指标,它表示该主题类团维持和发展自己的能力。类团密度有很多种计算公式,可以用本主题类团内所有关键词间两两共现频次总和的均值、中位数或者平方和来表示。由前文介绍的粘合力指标得知,粘合力是用来表示主题聚类类团中各个关键词的重要程度,而密度是对类团内部联系的紧密程度的表示,因此从概念上来看,二者有着十分密切的联系。有学者也在研究中表明,类团密度的计算公式可以用粘合力来表示,具体的表示方法如下:

向心度用来衡量一个类团与同一研究领域的其它类团联系的紧密程度。向心度越大,说明某一研究领域的一个主题类团与其它主题类团有着紧密的联系,因此该主题在这一研究领域中就占据核心地位。向心度的计算可以用某一类团中关键词与其余类团中的关键词两两出现频次的总和,平方和或者平方根来表示。类团内关键词数量的多少对于类团的向心度的影响很大,因此本文对于向心度的计算方法进行了改良,即将用某一类团中关键词与其余类团中的关键词两两出现频次的总和除以该类团内的关键词总数,从而解决了这一影响。

表2 我国馆藏资源研究高频关键词共现的Salton指数矩阵(部分)

综上对于密度以及向心度的表述,本文计算出了我国馆藏资源研究领域各主题类团的向心度以及密度 (见表 4)。

表4 我国馆藏资源研究领域各个主题类团密度以及向心度值列表

3.2 绘制主题战略坐标图以及结果分析

战略坐标图以向心度和密度为参数绘制成的二维坐标图,其典型结构是横轴表示向心度,纵轴表示密度,坐标的原点在两个轴的中位数或者平均数。这个地图将每一个二维空间的题目领域划分为4个象限,可以用来描述各主题的研究发展状况。按照上述绘制主题战略坐标图的方法,本文绘制出了我国馆藏资源研究的主题战略坐标图(见图 1)。

图1 我国馆藏资源研究主题战略坐标图

从图中可以清晰地发现,沿着X轴方向,向心度值越大,在战略坐标图中,主题类团所在的位置越偏右,向心度越大,这说明了该主题类团与其它主题类团关联十分紧密,具体则表现为这种主题类团中的关键词与其它主题类团中的关键词能形成搭配在同一篇文献中出现,即两个主题类团中的关键词共现频度较高。这些都充分说明了该主题类团在所属领域占有重要地位,是其领域内的核心主题或者关注热点,具有强大的生命力,不易消失。沿着Y轴方向,密度值越大,在战略坐标图中,主题类团所在的位置越偏上,密度越大,这说明该主题类团内部的关键词联系非常紧密,在所属领域中该主题研究已经趋向成熟。同时本文以向心度以及密度平均值的相交点(0.86,0.32)作为坐标原点,将整个战略坐标图分为四个象限。下面对处于四个象限中的主题类团分别作具体分析。

类团17所代表的研究主题 “馆藏资源知识产权研究”位于战略坐标图的第一象限,拥有的密度与向心度值都很高,这表明此研究主题不仅内部关联紧密,而且与其它研究主题也存在着较强的联系。这种情况说明了两个问题,一是该象限的主题类团是所属学科的重要研究内容以及研究热点;二是主题类团中的关键词是所属学科研究的活跃主题,受到关注也很多,且与其余主题研究关联密切。

战略坐标图第二象限中的类团2所代表的各类型图书馆网络数字资源共享建设以及开发利用研究主题以及类团7所代表的档案馆馆藏资源建设研究主题密度值很高,向心度值却较低。这表明这些研究主题内部关联紧密,已经自成一体被很好地研究过,形成了相对独立的研究领域,但是这些研究主题与其他研究主题联系不是十分密切,在学科表现不活跃,生命力不太顽强,因此这些主题发展到一定规模后,可能会由于没有有效的提升动力而慢慢消失。

处于密度以及向心度都较低的第三象限的主题类团有类团 1、类团5、类团6、类团9、类团 10以及类团 12,它们分别代表的馆藏的电子期刊资源利用、整合以及利用率的评价、图书馆信息服务、读者服务以及管理创新、高职院校图书馆基于教育职能的图书馆建设、开架借阅对大学生素质教育的影响、知识经济时代下的图书馆资源与服务、以及学校图书馆学科馆员的参考咨询;这些研究主题内部结构松散,与其他的研究主题联系不密切,属于所在研究领域关注较少的边缘研究领域,研究尚不成熟,有待于进一步发展。

战略坐标图第四象限中的主题类团 3、4、8、11、13、14、15、16的向心度很高,说明这些主题类团与其它主题类团的联系紧密,在所属研究领域表现活跃,是其它主题类团重视的研究主题,但是自身内部结构松散,发展不够成熟。在后续研究的发展中,由于研究主题分散容易演化成相关主题。因此总体来说,这类研究主题具有一定的发展潜力,但是由于自身联系不紧密,结构不稳定,易分解。

4 加强我国馆藏资源研究的建议

通过上述对于我国馆藏资源研究的主题分析,可以发现我国馆藏资源研究虽然取得了一定的成果,但是仍然有很大的发展空间。位于战略坐标图四个象限中的研究主题为了取得后续的发展,都需要进行一定程度的努力,而努力的最终目标就是向着第一象限前进,成为所属领域的研究热点和活跃主题。为此,本文提出了以下建议:

⑴馆藏资源的知识产权研究想获得发展要做到研究上的“深”与“广”。众所周知,事物的发展是一个循环往复,不断上升的过程,有着特定的生命周期规律。由于受到社会需求、技术发展等多种因素的影响,某些反映某一领域研究热点以及核心内容的研究主题可能会被其它新的研究热点以及主题所代替。所以,位于战略坐标图第一象限的研究主题——馆藏资源知识产权研究是目前馆藏资源研究领域发展成熟度与活跃度都很高的研究主题,为了保持住其研究地位,要在研究上做到“深”与“广”这两方面。从研究深度上来说,该研究主题要做更深层次的研究,使其发展的更加成熟,内部结构更加稳定;从研究广度上来说,该研究主题要注重与其它研究主题的联合,从而形成更广泛的研究,推动该研究主题更上一个层次,从而拓宽其所属领域的研究视野。

⑵对于图书馆、档案馆馆藏资源的共建共享研究要注重研究范围的拓展。图书馆、档案馆馆藏资源的共建共享等主题位于战略坐标第二象限,对于此类主题的研究目前已经相对成熟且独立,因此这些研究主题为了获得新的发展,就需要有效的提升动力。此类研究主题需要拓宽研究范围,寻找与其它主题合适的契合点,从而形成新的知识研究点,为此类主题的研究注入新鲜的血液,从而促进该主题领域的发展。

⑶位于第三象限的研究主题可以作为馆藏资源研究新的研究思路和研究方向。存在于战略坐标第三象限的研究主题包括馆藏电子资源的研究,高职院校图书馆基于教育职能的馆藏建设,以及在当今时代背景下的图书馆服务研究等等,从发展状况上来看,这些主题内部结构松散,研究尚不成熟;但是从研究内容上来看,这些主题均是馆藏资源研究结合当今的时代背景、研究主题以及社会需求发展起来的新兴研究主题,它们可以作为馆藏资源研究新的发展方向,为馆藏资源的研究发展提供借鉴和思考。因此该类研究主题为了取得进一步的发展,一方面要加强自身的理论研究,夯实研究基础,为后续研究发展做铺垫;另一方面要抓住时机,寻找与发展成熟的研究主题完美的结合点,成为馆藏资源研究新的发展思路与研究方向。

⑷馆藏资源的开放存取、知识管理、虚拟馆藏以及信息化建设等研究要提高主题的一致性。第四象限的研究主题多而分散,包括了馆藏资源的开放存取、知识管理、虚拟馆藏以及信息化等主题。经过分析发现,这些主题大多都是馆藏资源研究与其他领域通过结合而形成的研究主题,研究的新颖性强。但是这些主题也存在着致命的弱点,即内部联系不紧密,易分裂分化相关主题。为了克服这一缺点,这些研究主题在研究的过程中要注意主题一致性,寻找研究主题的共性,将所有研究围绕这一共性去展开,使主题内部形成稳定的结构,从而促进该类研究主题的发展成熟。

5 结语

本文系统的分析了我国馆藏资源研究的主题分布情况以及发展状况,但是由于本文分析的数据源仅限于学术论文,没有统计专著、研究报告等其它类型的数据,此外由于检索策略以及共词分析固有的缺陷,本文中的分析难免有片面或者疏漏的地方。在后续研究中,笔者将致力于改善这一状况,以便更全面客观地反映馆藏资源研究的发展状况。

[1]梁立明等.科学计量学:理论探索与案例研究[M].北京:科学出版社,2006.

[2]杨颖,崔雷.基于共词分析的学科结构可视化表达方法的探讨[J].现代情报,2011,(1):92-96

[3]钟伟金,李佳.共词分析方法研究(二)[J].情报杂志,2008,(6):141-143.

[4]冯路,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,(2):88-92.

猜你喜欢
象限聚类馆藏
树德娃的太空之旅 学习设计
复数知识核心考点综合演练
基于数据降维与聚类的车联网数据分析应用
名家书画:浙江省文史研究馆馆藏书画作品选刊
常数牵手象限畅游中考
基于模糊聚类和支持向量回归的成绩预测
平面直角坐标系典例分析
基于密度的自适应搜索增量聚类法
三角函数核心考点综合演练
2004年~2012年档案馆与图书馆馆藏量发展比较