基于共词分析的国内高校数字图书馆研究主题分析

2016-04-23 07:48王焕景孙兴敏
河南图书馆学刊 2016年4期
关键词:共词分析

王焕景 孙兴敏

关键词:高校数字图书馆;共词分析;主题分析

摘要:文章从共词分析的角度分析我国高校数字图书馆的研究现状,以CNKI为数据源,选取2000—2015年发表的数字图书馆领域的期刊论文和学位论文为样本数据,借助BICOMB2书目共现分析系统以及SPSS21.0统计分析软件等工具,利用共词分析、因子分析、聚类分析等方法,得出目前高校数字图书馆领域存在的7个研究主题。

中图分类号:G251.5文献标识码:A文章编号:1003-1588(2016)04-0034-03

1文献来源和方法研究

文章从CNKI选取中国学术期刊网络出版总库、中国博士论文全文数据库和中国优秀硕士学位论文全文数据库作为数据统计来源,利用高级检索功能,设定检索条件“‘篇名=数字图书馆并含‘高校”并选择“精确匹配”,将检索时间限定为“2000年1月1日”到“2015年5月31日”,共检索到1,049篇文献。笔者借助BICOMB2、EXCEL、SPSS等软件进行数据处理。

2数据统计与分析

2.1文献增长规律研究

笔者统计了2000年到2015年5月31日各年份的发文总量和累计发文量,如图1所示,以2011年为分界点,2011年之前的各年份发文量呈上升趋势,2011年之后各年份的发文量呈逐年下降的趋势(2015年是部分调查)。该领域的研究文献累积量呈逐年递增的态势,并逐步趋于平缓。经过多年的研究,数字图书馆研究渐渐进入平稳期,已经积累了相当数量的研究成果,在此基础上增速会减慢。

根据普赖斯对科技文献增长阶段的划分,国内高校数字图书馆领域的研究已跨越起步阶段和大发展阶段,趋向于学科成熟阶段。

2.2期刊来源统计

2000—2015年5月31日发表的有关高校数字图书馆领域的1,049篇文献共分布在415种期刊上。其中,《科技情报开发与经济》和《现代情报》的刊载论文数量最多,仅此两种期刊即刊载了近11%的论文,足见它们对高校数字图书馆的关注度较高。前36种期刊的累计发文量超过总数的50%。S.C.布拉德福在《文献工作》中写道:“如果将科学期刊按其登载某个学科的论文数量的大小,以渐减顺序排列,那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。这时,核心区与相继各区的期刊数量成1:a:a2……的关系。”[2]将415种期刊按其累计发文量降序排列,按照核心区、相关区和外围区的载文总量n1:n2:n3=1:a:a2的比值关系,经测算a=4.5,据此确定累积发文量占总论文数34.6%的前16种期刊(见表1)为该领域的核心区文献来源。其中,《图书情报工作》《图书馆学研究》《图书馆论坛》《大学图书馆学报》等属于北大期刊目录cssci(2014—2015)来源期刊,其累积载文量占整个核心区期刊载文量20.9%,符合二八定律,这20%左右的高质量期刊可以弥补该领域文献质量整体不高的不足。为检验期刊分区的准确性,绘制布拉德福分散曲线,如图2所示,核心区分界点C的坐标为(1.2363),曲线AC拟合指数增长的拟合优度达0.971,CB拟合直线的拟合优度达0.9827,因此,可判定高校数字图书馆领域的期刊分布符合布拉德福定律。

3基于共词分析的高校数字图书馆主题内容分析

3.1高频词的选定

主题词频分析直接从知识的产生、发展上正面剖析科学文献的动态规律,是研究知识运动轨迹的最有效的方法。关键词作为主题词的一种,既可以揭示论文的精髓,又可以通过其词频的高低揭示某一领域的学科发展热点。笔者利用BICOMB2.0从1,049篇论文中共提取关键词3,177个,对关键词进行筛选后,共得到有效关键词2,816个。在高频关键词的选定问题上,笔者借鉴杨爱青等经过实证分析提出的词频g指数,以此确定高频关键词的阈值。根据词频g指数的定义,某一个研究主题关键词的数量分值为g,当且仅当此研究主题的关键词总量N中,有g个关键词其累计出现频次不少于g2次,而g+1个关键词其累计出现频次小于(g+1)[3],计算出g=40,确定该领域的前40个关键词作为高频关键词,如表2所示。

3.2因子分析

为了解决聚类分析时聚类个数难以确定的问题,借鉴相关学者的研究经验,参考因子分析所确定的因子个数寻找聚类分析的分类点来解决这个问题。[4]为了降低主题关键词对聚类效果的影响,笔者剔除了“数字图书馆”“高校数字图书馆”“高校图书馆”和“高校”等四个关键词,构建36×36的矩阵。对新构建的矩阵进行正态分布检验,发现其Lilliefors显著性水平小于0.05,拒绝正态分布假设,且通过判断变量的峰度系数和偏度系数并结合观察变量的Q-Q概率图,也发现其不符合正态分布规律。鉴于矩阵数据不满足正态分布,本研究采用Spearman分析法分析36个关键词之间的相关关系,并抽取相关分析中的相关系数形成相关矩阵。基于相关矩阵,利用主成分法、协方差矩阵与平均正交转方法进行因子分析[5],共提取8个公因子,如表3所示,前8个公因子的累积贡献率为91.389%,前6个公因子的累积贡献率接近80%,结合因子个数碎石图,可以将高校数字图书馆领域的研究主题确定为6~8类。

3.3聚类分析

共词聚类分析法是将距离较近的主题词聚集在一起,形成概念相对独立的类团。通过聚类分析关键词之间的亲疏关系,可以进一步反映高校数字图书馆研究热点与趋势。[6]考虑到相关关系矩阵过于离散的情况,笔者用1与相关关系矩阵相减,得到相异矩阵进行分层聚类分析。结合因子分析的结果,聚类结果共分为7类。

3.4主题内容分析

3.4.1高校数字图书馆的海量资源存储技术。目前,DL中流行的海量信息存储主要有三种实现技术:DAS、NAS和SAN[7]。DAS适用于数据量较小,资源共享要求较低的数字图书馆早期阶段。随着发展的不断深入,数字图书馆开始采用可以实现网络资源共享的NAS。以数据存储为主的SAN很好地满足了数字图书馆系统的扩展性需求,其强大的存储、共享及数据备份能力,更是吸引着数字图书馆的眼球。DAS存在于DL的早期发展阶段,必将被NAS和SAN所替代,而SAN或SAN与NAS的融合将是未来几年网络环境下海量存储的发展趋势。

3.4.2云计算时代的高校数字图书馆的网络数据安全问题。云计算技术的兴起给高校数字图书馆带来全新的发展空间,并由此催生了移动图书馆,促进了高校数字图书馆的资源与软硬件共享,使数字图书馆逐渐朝着一站式服务迈进。同时云计算的复杂性、开放性等问题也给数字图书馆的网络数据安全带来全新的挑战。部分学者从软硬件安全风险、管理风险等角度研究云时代高校数字图书馆面临的安全问题,提出了数字水印技术、VLAN技术等技术并通过构建云存储的安全分层模型等以解决数字图书馆面临的安全瓶颈。

3.4.3高校数字图书馆建设与评估研究。高校数字图书馆建设主要包括数字信息资源建设、服务网络建设、服务体系建设等方面。数字图书馆建设的核心是信息资源。信息资源建设中遇到的首要问题就是信息资源的知识产权问题,[8]基于高校数字图书馆的建设现状,建立有效的评估机制,有利于图书馆的发展。目前,学界多是基于实证分析探究高校数字图书馆的建设情况,或是提出新的评估对策,或是构建新的聘雇体系,以期为高校数字图书馆建设评估提供借鉴意义。

3.4.4Web2.0环境下高校数字图书馆个性化服务模式探究。目前,有关高校数字图书馆个性化服务的研究主要包括个性化检索、信息定制与信息推送、数据挖掘、虚拟咨询服务等方面。基于高校图书馆用户需求的RSS技术、本体、数据挖掘技术等逐渐成为高校数字图书馆研究的重点。移动图书馆的出现促使高校数字图书馆进入了一个新的发展阶段。目前,伴随着微信等社交应用的发展,高校数字图书馆开始谋求全新的发展空间。

3.4.5高校数字图书馆馆员素质要求和用户教育。高校数字图书馆以用户为中心,强调为用户提供个性化、人性化的服务,这就为数字化时代的图书馆员提出了更高的要求。图书馆也越来越重视馆员的职业道德与服务能力的培训。目前,高校图书馆多是通过讲座、会议、参观等形式,对馆员开展培训工作,但培训工作存在形式单一、力度不足等问题,对此,郝晓梅从培养馆员人文精神、完善馆员培训机制、创造和谐文化氛围等方面讨论馆员的培训策略,[9]王秀华依据实践经验,介绍了一条馆员培训多元化与个性化模式。[10]数字图书馆的发展同样也对用户提出了更高的要求,目前,用户教育的途径主要有集中培训、远程辅导、用户交流等,新媒体技术的发展,扩大了用户教育的途径,用户的信息素养日益提高。

3.4.6基于高校数字图书馆联盟的资源共建共享。以信息资源的共建和共享为核心的高校数字图书馆联盟的出现,极大地减缓了高校图书馆的经费来源和海量数据的存储的压力,有效地促进了资源的最优配置。实现数字化信息资源的共建共享是高校数字图书馆联盟建设的出发点和核心理念。目前有关高校数字图书馆信息资源建设和资源共享的研究,主要是从资源共建共享的经验介绍、策略建议、知识产权保护、评估与保障机制等方面展开讨论。

3.4.7高校数字图书馆知识服务的对策研究。依托网络技术、信息挖掘技术、可视化技术等高校图书馆知识服务呈现泛在化、社会化、嵌入式等特点。有学者指出,高校图书馆知识服务尚不成熟,存在个性化、主动性、专业性不足等问题。目前,学者们从不同的角度探讨高校数字图书馆知识服务,如:张雅男从服务科研人员的角度,构建了高校图书馆知识服务体系架构,并就各模块提出了相应的对策。[11]王根探讨了知识服务过程中可能遇到的知识产权问题,提出了规避知识产权的建议。

笔者结合该领域的发文数量走势和文献来源统计分析,得知该领域的研究已进入趋于成熟的阶段,但同时存在着理论研究与实践相脱节的现象,今后各高校数字图书馆应进一步致力于服务图书馆用户的实践,促使高校数字图书馆的持续发展。

参考文献:

[1]邱均平,马凤.我国数字图书馆研究论文的计量学分析[J].图书情报工作,2010(17):27-31.

[2]邱均平.信息计量学(四)第四讲文献信息离散分布规律:布拉德福定律[J].情报理论与实践,2000(4):314-315,316,320.

[3]杨爱青.我国图书情报学科研究态势的可视化研究[D].曲阜:曲阜师范大学,2012.

[4]马费成,宋恩梅,张勤.IRM-KM范式与情报学发展研究[M]武汉:武汉大学出版社,2008:24.

[5]李武,董伟.国内开放存取的研究热点:基于共词分析的文献计量研究[J].中国图书馆学报,2010(6):105-115.

[6]王佑镁,陈慧斌.近十年我国电子书包研究热点与发展趋势:基于共词矩阵的知识图谱分析[J].中国电化教育,2014(5):4-10.

[7]景民昌,鲁玉珍.数字图书馆中海量存储分析与实现[J].现代情报,2004(1):114-115,183.

[8]宁风英.高校数字化图书馆建设现状及对策[J].图书馆工作与研究,2002(5):41-42.

[9]郝晓梅.高校图书馆的馆员培训策略[J].情报杂志,2011(S1):251-252.

[10]王秀华.馆员培训多元化与个性化模式的实践与探索:以滨州学院为例[J].高校图书馆工作,2012(6):91-93.

[11]张雅男.高校图书馆面向科研知识服务研究[J].图书馆工作与研究,2015(5):109-112.

(编校:马怀云)

猜你喜欢
共词分析
基于德温特数据库的关键共性技术分析
国内图书馆嵌入式服务研究主题分析
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
基于共词分析的近年国内O2O研究主题分析
国内移动用户行为研究热点与前沿
国内MOOC学术研究热点领域构成的共词可视化分析
关键词共词分析法:高等教育研究的新方法
基于共词分析的我国档案信息化研究热点探讨