王旭
关键词:图书馆学;情报学;大数据;文献计量;CiteSpace
摘要:文章以CNKI期刊数据库收录的2008—2015年图书情报领域大数据相关论文为依据,利用文献计量方法,借助CiteSpaceIV,以绘制知识图谱的形式,对论文时间分布、期刊分布、高产作者分布以及研究热点(关键词)等进行分析,为今后国内学者对图书情报领域大数据深入研究提供参考。
中图分类号:G250文献标识码:A文章编号:1003-1588(2016)04-0129-04
1背景
大数据被称作是“信息时代的新石油”,大量数据正以每年50%的速度在增长,大数据已经成为图书情报学科领域研究的热点问题。笔者采用文献计量方法,以绘制知识图谱的形式,分别从文献、期刊、作者及关键词4个角度,分析近8年我国图书情报领域大数据的研究进展及未来发展趋势,期望能为该领域的相关研究者提供参考。
2研究方法
笔者采用文献计量方法对国内图书情报领域大数据研究发展现状进行分析,借助文献的各种特征,采用数学与统计学方法来描述、评价和预测该领域研究的现状与发展趋势。通过绘制科学知识图谱来反映国内图书情报领域大数据研究热点及发展趋势,可为该领域研究提供切实、有价值的参考。
2.1数据收集
笔者选取中国知网的中国学术期刊网络出版总库,检索式为:主题=大数据(精确匹配),学科类别为:图书情报与数字图书馆,检索时间:2008—2015年,期刊范围选取全部期刊,共得到论文1,080篇,经去重、剔除、整理后得到1,019篇。
2.2可视化工具
笔者使用由美国德雷塞尔大学陈超美教授开发的CiteSpace4.0R1版本进行分析,该软件在Java语言环境下运行,被广泛用于引文网络分析。利用CiteSpace分析国内图书情报领域大数据的研究现状、进展、前沿,试图从科学文献中发现其发展的新趋势和新动态。
2.3统计工具
笔者利用Excel软件,对通过中国知网检索到的有关图书情报领域大数据研究,时间段为2008—2015年的发文数量进行统计,以呈现国内图书情报领域大数据研究相关文献的时间分布趋势,并利用IBMSPSS进行曲线回归拟合分析,预测其发展趋势。基于文献计量方法,以CiteSpaceIV软件可视化的效果,分别对图书情报领域大数据研究的期刊分布、高产作者以及关键词等进行分析。
3我国图书情报领域大数据研究的时空知识图谱及其分析
3.1年代分布分析
文献计量分析方法中,从文献历时性上可以分析出学科的发展趋势,发文量的多少代表了在一定时期内该领域的研究的冷热程度。从图1所示的年代分布情况来看,国内图书情报领域大数据研究文献
数量(2015年文献数量只统计至11月份)整体上处于增长的趋势,呈现出一片繁荣景象。2008—2012年为该领域研究的起步探索阶段,5年所发文总量只有14篇,经分析这些文献,发现数据挖掘、数据仓储及语义网络是该阶段图情领域主要的研究内容,其为大数据研究奠定了基础。2012年以后,国内图书情报领域大数据发文量呈现爆炸式的增长态势,截至2015年11月,发文量已达522篇,学术成果丰硕,可见大数据在图情领域备受关注,已成为当前研究的热点。
回归分析法是通过试验和观测来推断变量之间的关系,并预测研究对象未来数量状态的统计分析方法。用IBMSPSS做曲线回归分析并进行拟合,同时选用多种曲线回归模型来进行拟合,拟合结果见表1和图2。
通过观察图2和表1,经比较可以确定出与原始观测值拟合度最好的是三次曲线模型,表达式为:y=16.857+3.113x-12.306x2+2.533x3。由此可预测,未来几年图书情报领域大数据研究文献数量将会呈现出增长趋势。总体上看,我国图书情报领域大数据研究已经积累了大量文献,随着该领域研究的持续发展,可以大胆预测未来几年该领域研究热度不会减,国内图情领域对大数据将进行更深入、更广泛的研究。
3.2来源期刊分布分析
为了解图书情报领域大数据研究的空间分布特点,并进一步为相关研究者深化对该领域研究提供情报源分布,有必要对有关图书情报领域大数据研究论文的来源期刊进行分析。根据布拉德福定律的区域分析法,将经计算,a值为4.4,确定的核心区期刊为10种,相关区期刊有44种,外围区期刊有198种(见表2)。从表2可以看出,核心区10种期刊发文342篇,占论文总数的33.57%;相关区44种期刊发文336篇,占论文总数的32.97%;外围区198种期刊发文341篇,占论文总数的33.46%。因此,总体上看,国内图书情报领域大数据研究文献的期刊分布基本符合布拉德福定律,呈现一种相对集中却又高度分散的特征。图书情报领域大数据研究的核心区期刊名称如表3所示,图书情报领域大数据研究的10种核心期刊中,6种是CSSCI来源期刊,2种是CSSCI扩展版来源期刊,这说明该领域大数据研究的集中程度较高,已经开始形成该领域研究的核心期刊群。
3.3高产作者知识图谱
由于发文量是衡量作者学术水平和科研能力的重要指标,高产作者对该领域发展及演变产生根本且深远的影响,因此对其研究具有重要意义。根据普莱斯定律,高产作者的论文下限为:M=0.749(Nmax)1/2,其中Nmax为最高产作者论文数。经IBMSPSS统计得知,马晓亭为最高产作者,其论文数为19篇,可得到M值为3.3,M取邻近最大整数为4篇。因此,将发文4篇以上(含4篇)的作者称为高产作者(由于篇幅有限,高产作者分布表未列出)。
为了更好地了解我国图情领域大数据研究的高产作者分布情况,在2008—2015年,以1年为时间段,取每年该领域研究发文数量最多的30位作者,经最小生成树算法修剪处理后,运行CiteSpaceIV软件,生成图书情报领域大数据研究发文作者的知识图谱(见图3)。图中节点越大,表示该作者发文量越多,图中共有104个节点,27条连线,网络密度为0.005。结合由普莱斯定律确定的高产作者分布和图3可知,兰州商学院的马晓亭(19篇)和陈臣(14篇),桂林理工大学的张兴旺(10篇)和李晨晖(5篇),南京大学信息管理学院的苏新宁(6篇)、陈雅(6篇)和郑建明(5篇),武汉纺织大学管理学院的吴金红(6篇),中山大学资讯管理学院的黄晓斌(5篇),武汉大学信息资源研究中心的张斌(4篇),北京大学信息管理系的李广建(4篇)等为高产作者。总体上来看,高校图书馆员和专业教师仍是我国图书情报领域大数据研究的主要力量,他们具有浓厚的大数据研究底蕴,拥有较强的科研实力和科研队伍,是国内该领域大数据研究的主力军。但是,该领域公共图书馆的相关研究人员较少,因此,还需要更多的专业人员加入公共图书馆,给予更好的理论分析及实践研究。
3.4关键词知识图谱
关键词是文章研究内容的直接体现,对关键词出现的频次进行统计,可以确定图书情报领域大数据研究的热点和发展动向。在2008—2015年,节点选择关键词,运行CiteSpaceIV,生成图书情报领域大数据研究关键词知识图谱(见图4),其中,共有58个节点,80条连线,网络整体密度为0.0484。总体上看,关键词知识图谱节点联系较为紧密,图书情报领域大数据研究主题较为集中,图书馆和高校图书馆是当前图书情报领域大数据研究的主要机构,并且相关研究人员也多集中在图书馆或从事图书馆学研究。
同时,经清理,整合关键词,利用IBMSPSS统计出包括“大数据、图书馆”在内的高频关键词(由于篇幅有限,统计结果未列出)。大数据时代下,国内图书情报领域围绕大数据研究产生了一系列的关键词,包括图书馆、高校图书馆、信息服务、数字图书馆、数据挖掘、云计算、数据分析、竞争情报、数字资源、情报分析、数据处理等。大数据推动着图情机构服务模式的改变,要求服务创新,提供个性化、信息化的知识服务、数据服务、学科服务。大数据环境下,作为信息中心的图书情报机构,在数据分析、情报分析、数据处理、资源建设、数据存储、决策支持等方面面临巨大考验。
结合图4和关键词统计结果可以总结出我国图书情报领域大数据研究的几个方面:①图书情报领域大数据研究面临的机遇和挑战。海量数据将对图书馆的存贮能力提出挑战,对信息服务、数据挖掘、数据处理、数据分析提出了更高要求。吴金红等人认为:全面、社会化、真实、准确、及时有效的数据给竞争情报带来机遇,但情报存储、情报安全、情报分析、人才紧缺等问题也是竞争情报不得不面对的挑战。②大数据时代图书情报的创新服务与发展。大数据时代图书馆的服务可能更具有针对性和鲜明性,其服务方式、途径、模式等都将发生改变。李广建等人认为:大数据时代下情报研究的发展趋势可以总结为5个方面:多种数据源综合利用、全方位的情报研究、新型信息资源的分析、情报研究的严谨性和智能化。③大数据时代图书情报的资源建设。图书情报机构一直将资源建设作为工作重点,资源建设也是其开展个性化服务的基础和保障,大数据时代下资源利用和开发程度得到空前深化,同时意味着资源组织和建设工作力度也必将加大。大数据时代下,重视用户需求资源显得十分重要,而云计算、物联网等技术正是为用户资源需求的决策处理与应用提供了技术支持。
4结语
笔者对近8年国内图书情报领域大数据研究论文进行统计,采用文献计量方法,利用知识图谱工具,以可视化的效果展示并分析了当前国内图书情报领域大数据研究的现状。总体来看,得出以下结论:①从国内图书情报领域大数据研究的时间及期刊分布来看,该领域大数据研究已经积累了大量文献,未来几年该领域研究热度不减,国内图情领域对大数据将进行更深入、更广泛的研究。同时,该领域研究的核心期刊群已经开始形成,但缺乏交叉学科的研究,因此,应该多吸收其他学科的专家加入。如:计算机学科、经济学、管理学等专家,更深入地进行图书情报领域大数据研究,获取更好更多的研究成果。②从国内图书情报领域大数据研究核心作者来看,高校图书馆员和专业教师仍是我国图书情报领域大数据研究的主要力量,但该领域公共图书馆的相关研究人员较少。因此,还需要更多的专业人员加入公共图书馆,给予更好的理论分析及实践研究。相关研究人员在大数据研究的创新性和持续性方面有待加强,应将情报机构及信息服务工作的实践应对策略研究作为研究重点。③从国内图书情报领域大数据研究关键词来看,其研究内容主要总结为3个方面:图书情报领域大数据研究面临的机遇和挑战、大数据时代图书情报的创新服务与发展、大数据时代图书情报的资源建设。但是,总体来说,该领域研究侧重于理论探讨,在技术和实践应用上还有待加强。
参考文献:
[1]肖明,孔成果.大数据:何去何从:基于文献计量学的视角[J].图书馆学刊,2014(11):110-117.
[2]樊一阳,许京京.基于CiteSpace文献计量法的石墨烯研究文献可视化图谱分析[J].现代情报,2015(8):81-91.
[3]Chen C.CiteSpaceⅡ:Detecting and visualizingemerging trends and transient patterns in scientific literature[J].Journal of the American Society for information Science and Technology,2006(3):359-377.
[4]许智.图书情报学知识服务的知识图谱分析[J].现代情报,2013(2):166-170.
[5]夏丽华,谢金玲,等.SPSS数据统计与分析标准教程[M].北京:清华大学出版社,2014:191.
[6]余少瑛.我国图书馆知识产权研究的文献计量统计分析[J].情报科学,2012(2):183-189.
[7]邱均平.信息计量学[M].武汉:武汉大学出版社,2007:105.
[8]宁宝英,宋敏红,申巧南,等.1982—2011年《高原气象》论文发表趋势:基于文献计量分析结果[J].高原气象,2012(1):285-293.
[9]陈悦,陈超美,胡志刚,等.引文空间分析原理与应用:CiteSpace实用指南[M].北京:科学出版社,2014:69.
[10]王春华,李维,文庭孝.我国图书情报领域大数据研究热点分析[J].图书情报知识,2015(4):82-89.
[11]吴金红,张飞,鞠秀芳.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1):5-9.
[12]李广建,杨林.大数据视角下的情报研究与情报研究技术[J].图书与情报,2012(6):1-8.
(编校:崔萌)