司莉 王雨娃
摘要大数据已成为图书情报领域研究热点之一。论文使用Citespace软件,对CNKI中图书情报领域关于大数据的研究进行分析梳理,研究其发文力量和主题演进,分析结果表明我国图书情报领域对大数据的研究数量持续增加,但尚未完全发展成熟,目前存在着发文力量分散、研究主题联系紧密、新主题较少等特点。大数据研究目前主题可聚为7类,其中大数据时代、竞争情报、个性化服务、数据素养和情报学的研究持续发展。
关键词 大数据 研究演化 知识图谱
分类号 G259.2
Analysis of Big Data Research Evolution in Library and Information Science of China
Si Li, Wang Yuwa
Abstract Big data has become one of the research hotspots in library and information science. This paper uses Citespace to analyze researches on big data in the field of library and information science in CNKI, and studies important institutions and theme evolution. Results show that the research volume of big data in Chinas library and information science field continues to increase, but it has not yet fully developed and matured. At present, research institutions in this area are scattered, the topics are closely related and new topics are few. Current topics of big data research can be clustered into seven categories, among which the era of big data, competitive intelligence, personalized services, data literacy and information science continues to develop.
Keywords Big data. Research evolution. Knowledge map.
信息和网络技术的发展使得如今互联网内的数据量激增,“大数据(Big Data)”成为了众多学科领域共同关心的话题。2008年,《Nature》杂志的“Big Data”专刊开启了学术界对这一话题的广泛讨论[1],2011年《Science》的专刊“Dealing with Data”继续了对科学研究中海量数据处理的讨论[2]。自2012年以来,大数据对各领域的影响日益明显,同时也迅速成为学术界的研究热点。关于大数据的学术研究成果逐年递增,仅在图书情报领域已经有上千篇文献对从各方面对大数据进行研究。因此,有必要对现有的研究成果进行梳理、对研究趋势进行分析。本文以Citespace为工具,选取CNKI收录的国内图书情报领域大数据研究进行分析,以期梳理国内大数据这一主题在图书情报领域的研究演化过程,总结当前的研究现状,并为未来的大数据研究提供参考。
1 数据来源与研究方法
1.1 数据来源
本文选取中国知网(CNKI)的论文作为数据来源。在CNKI的期刊论文数据库、博硕士论文数据库及会议论文数据库,以“题名”为“大数据”,文献分类目录“图书情报与数字图书馆”进行检索,共检索到1702条结果,检索时间为2017年6月。对检索结果筛选去重后剩余1693条文献记录。
1.2 研究方法与工具
本文采用的研究方法主要包括文献计量法、文献分析法和可视化分析方法。文献计量法是利用数学和统计学的方法,对文献的数量、词汇等属性进行统计与分析的定量分析方法。文献分析法则是通过研读文献,对文献内容进行分析的方法。二者结合可以较好地揭示大数据研究领域的文献特征与现状。可视化分析方法则是将数据统计与分析结果进行可视化,用图片的方式更加清晰、直观地呈现出结果,便于阅读与理解。
数据分析工具选用Citespace,将文献计量的结果可视化,對于关键文献,则采取文献分析法,进行文献内容的深入阅读。
2 大数据研究发文力量分析
2.1 发文时间分析
发文时间及发文量能够直观地体现出学术界对某一主题的研究开启时间和研究进展。对经检索及筛选后1693条文献记录的发表时间进行统计,得出结果如表1:
在2011年及之前,国内图书情报领域尚无对大数据的研究。这一时期,计算机领域有少量文献涉及对大数据集的处理,但其所指的“大数据集”或“大数据块”含义与今日的“大数据”并不相同,数据的特征、规模及处理方式上都存在着很大的区别。
对于如今讨论的“大数据”,目前尚无一个统一的明确概念。应用较为广泛的是IBM提出的大数据“4个V”特征:即规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值密度低(Value)[3]。2012年,新的“大数据”的概念逐渐进入国内,部分学者开始在图书情报研究领域引入这一IT领域的新概念,其中杨海燕发表的《大数据时代图书馆服务浅析》是图书情报领域第一篇论及大数据的文章,开启了我国图书情报领域对大数据的研究[4]。这一时期的文献偏向于介绍性、探讨性的文章。2013年,研究数量增多,研究领域拓宽,包括大数据时代图书馆的新服务模式、大数据给图书馆带来的挑战及应对、大数据时代的企业竞争情报、大数据在图书馆的应用等。此后,从2013至2014年,文献数量呈现高速增长趋势,2015、2016年文献数量增长趋势减缓,但保持持续增长,对大数据的研究也拓展到图书情报领域的方方面面,与原有研究问题密切结合。
2.2 发文机构分析
使用Citespace生成2011-2017年机构合作图像,结果如图1。从图像结果来看,国内目前的发文较为分散,机构间较少形成稳定的合作网络关系。
对研究机构发文量进行排名如表2,结合图1,可以看出目前我国图书情报领域在大数据研究方面大致有五大学术研究群体:武汉大学信息管理学院,兰州商学院信息工程学院与兰州商学院网络中心,兰州财经大学信息工程学院,南京大学信息管理学院、吉林大学管理学院与吉林省图书馆,北京大学信息管理系。总体而言,对大数据的研究目前以各高校信息管理学院为主,其次是各省市公共图书馆及高校图书馆。在论文数量排名前40的机构中,高校信息管理学院的论文量占到44.8%。
2.3 发文作者分析
使用Citespace对文章作者进行分析,可以发现大数据研究领域的作者也较为分散。其中,马晓亭(28篇)和陈臣(19篇)是该领域的领军人物,研究重点在数字图书馆、云计算、大数据在图书馆的应用方面。其次较为关注大数据研究领域的学者还有张兴旺(7篇)、王浩(5篇)、吴金红(5篇)等。
在作者合作方面,马晓亭和陈臣有较为密切的合作关系,武汉大学信息管理学院的唐长乐、张晓娟、邓胜利、陈晓宇和安璐,山东科技大学信息科学与工程学院的苏文斌和冯胜男之间也存在合作关系。除此之外,大数据研究领域的学者们彼此合作关系较少,呈现出单打独斗、研究力量分散的局面,这可能是由于大数据这一研究主题在国内兴起不久,尚未形成稳定的研究体系和合作网络。
3 大数据研究演进分析
3.1 关键词时序演进
关键词体现出文章的主题与核心内容,关键词的演化也体现出研究主题的变迁。笔者利用Citespace软件统计2011-2017年论文记录中的关键词与主题两项,将抽取阈值设置为top50,并将关键词进行时间线排序,得出结果如下图。其中,节点的大小表示关键词的影响力,向外扩散的年轮表示其被引用的时间序列,节点所处的位置则代表关键词出现的年份。节点间连线代表词间关系。
如图可见,2012年“大数据”这一主题词初次出现,随之出现的还有云计算、数据挖掘、数据分析等关键词。2013年,图书馆、高校图书馆、数字图书馆等关键词的出现,证明大数据领域的研究已经与图书馆研究相结合,这一时期的研究热点是大数据对不同类型图书馆的影响与挑战,以及伴随大数据时代而来的新型服务方式,如知识服务、信息服务、竞争情报、服务创新等。2013年关键词众多,证明着这一年是图书情报领域的大数据研究全面展开的一年。2014年仍旧延续对这些主题的研究,并出现了大数据环境、服务模式等关键词。2015年,出现了新的关键词“数据素养”,证明对大数据的研究已经开始从图书馆服务领域向图书馆教育领域进行迁移。在2016、2017年,从连线可知,仍有大量的研究延续了对大数据、图书馆和各类服务的探讨,但没有出现新的具有影响力的关键词,也即没有拓展出新的具有影响力的研究领域。这也可能由于2016、2017年的研究距今时间较短,新的研究主题尚未形成一定规模。
总体而言,我国大数据研究领域自云计算、数据分析等计算机与数据科学研究而起,并迅速与图书馆研究相结合,重点探讨大数据与各类图书馆的影响,及大数据环境下的新型服务方式。大数据研究与本学科原有研究方向结合密切,研究重点为数据服务,但后期较少出现新的研究主题,研究领域尚有进一步扩展的空间。
3.2 突变词分析
突变词分析是一种用词频的变化来探测研究前沿的计算方法。Citespace的突变词探测功能可以探测某个关键词的词频是否在短时间内有较大的变化,这有助于分析正在兴起或突然涌现的新热点主题,了解某一时期的学术前沿话题。使用Citespace对数据集进行突变词探测后,得到4个突变词,结果如表3:
可以看到,这四个突变词的开始年份均在2011,而2011年图书情报领域尚未开始对大数据领域的研究,这一开始年份实际上是这些词语当时在其他领域文献的分布。2012年,对大数据的研究开始之后,云计算、数据挖掘、數据处理、数据分析等词立刻成为研究的前沿内容,图书情报领域的研究者从计算机、数据科学等领域的文献中将这些概念引介入图情领域的大数据研究。直到2014年,数据计算与分析方面的探讨仍是研究前沿内容。2014年之后,图情领域的大数据研究中延续已有的研究方向,没有出现新的突变词,即没有新的研究前沿热点出现。
3.3 高频关键词分析
关键词的出现频次可以很好地反映出某一主题文献的研究热度。在Citespace中选取“keyword”和“term”两项,对top50的关键词进行排序,得到频次在2以上的关键词共127个,对关键词进行频次降序排列,摘取部分结果如表4。
可以看出,表中关键词分为明显的三个类别:第一类为数据科学主题,包括大数据、大数据时代、数据挖掘、云计算、数据分析、大数据环境、大数据思维、数据素养,词频相加共1627频次。第二类为图书馆主题,包括图书馆、高校图书馆、数字图书馆、图书馆服务、公共图书馆,词频共897频次。第三类为服务主题,包括信息服务、知识服务、图书馆服务、服务创新、个性化服务、服务模式、服务,共372频次。需要指出,这三个类别并非泾渭分明,而是彼此交叉重叠的,如图书馆服务既属于图书馆、也属于服务,而各类新型服务同时也和大数据密切相关,因此词频统计时无法将这些词语简单合并。同时可以看出,大数据这一主题是贯穿始终的关键话题,而“图书馆”与“服务”则是衍生出的高关注话题,同时也是目前的研究热点,如图4。
除词频外,节点的中心度也是衡量节点重要性的关键指标。中心度是用于量化节点在网络中地位重要性的概念,中心度高的点往往连接两个不同的聚类,是引文网络中的关键节点。对关键词进行中心度排序,摘取部分结果如表5。
将表4、表5进行对比,可以发现部分词频较高,但中心度低的词语,如图书馆服务、数据分析、服务创新等,这些关键词大多从属于某一个特定的中心聚类,自身并非独立成为主题。同时,也有一些词频相对较低而中心度较高的关键词,如情报学、信息素养教育、物联网等,这说明围绕这些关键词已经展开了一定的研究,但目前研究数量较少,关注度不足,尚未得到充分的讨论。这些领域有潜力成为未来的研究中心主题。
3.4 关键词聚类分析
在Citespace中,对于词语聚类的清晰度评价采用两个指标,即模块值(modularity,Q值)和平均轮廓值(silhouette,S值)。其中,Q值评价的是类间的差异性是否明显,取值范围为[0,1];而S值评价类内的相似性和关联性是否明显、是否受到其他类的影响,取值范围为[-1,1]。
笔者使用Citespace对“keyword”进行分析,并通过不断试验不同阈值,选取最优的聚类结果。最终选取阈值为top 40,得到的聚类结果如图5,将目前国内图书情报领域的大数据研究分为7类。此时的Q=0.4052, S=0.4317,Q和S均大于0.4,可以认为分类结果成立,但类间差异性和类内相似性不太明显,各类间仍存在密切关联。
对聚类结果进行时间轴的划分,如图6。由图可见,这7类中,大数据时代、竞争情报(大数据被归入竞争情报类中)的研究最早开始,并持续发展。个性化服务、数据素养和情报学的研究起步较晚,在大数据引入一段时间后才逐渐兴起。对于智慧图书馆和资源建设的研究在2013-2015年持续了一段时间,但研究后继无力,2016、2017年没有更多继续这一主题的研究。就关键词互引关系来说,早期的大数据、图书馆、云计算、数据分析、信息服务等关键词是基础性的关键词,对各类研究都产生密切的引用关系,类间互引频繁。
可以认为,目前而言,我国图书情报领域对于大数据的研究主题关系密切、彼此重叠,交叉领域的研究较为多见,其中对于数据科学、图书馆及各类信息服务的研究持续成为研究热点。近年来部分研究主题后继乏力,新的热点产生较少,缺乏具有影响力的前沿话题,但有一些中心度较高的主题有成為新研究方向的潜力,包括情报学、信息素养教育、物联网等。
3.4.1 大数据时代
大数据极大地颠覆了社会各行各业原有的生产与服务模式。图书情报领域将会受到怎样的影响,又该如何抓住机遇、迎接挑战是研究者们所关注的话题,尤其是大数据对数字图书馆的影响更加受到关注。陈传夫,钱鸥,代钰珠指出,大数据带来的变化将会挑战数字图书馆现有的资源组织、信息服务与成本管理[5]。温浩宇,李京京提出了一种基于NoSQL中间件模型的异构数据集成方法,该方法应用于数字图书馆可以更好地适应大数据带来的海量数据分布式存储[6]。此外,袁芳,马晓亭,沈杰等多位学者分别从图书馆的文献资源建设、敏感数据保护、信息服务工作等方面分析了大数据带来的挑战与应对策略[7-9]。
3.4.2 竞争情报
竞争情报是一个企业、团体及国家为了在市场上赢得竞争优势所需要的经过加工的信息[10]。大数据为竞争情报的收集和分析带来了巨大的影响与变革。吴金红、张飞,鞠秀芳指出大数据有利于提高竞争情报的真实性、精准性以及实时性,但同样会带来新的挑战,包括情报存储、情报分析、情报安全以及人才紧缺方面的问题,企业在情报意识、情报组织团队、竞争情报系统以及安全制度等方面需作出相应的变革以应对挑战[11]。刘高勇,汪会玲,吴金红认为大数据能够提升竞争情报的地位、情报源价值和情报分析能力,并降低分析成本,但企业也需要在情报认知、数据处理能力和体系组织模式等方面应对大数据带来的挑战[12]。顾涛提出,面对与以往截然不同的海量数据处理,各组织机构可以进行竞争情报的协作共享,并提出了三种大数据下的竞争情报协作共享模式,即自主协作模式、中心协作模式或分级协作模式[13]。
3.4.3 智慧图书馆
智慧图书馆是未来图书馆发展的新模式。它通过提供融理性智慧、价值智慧和实践智慧为一体的公共智慧服务,从而打造更具魅力的公共文化环境和更大的信息共享空间。图书馆可以使用大数据的分析方法建立起新的服务体系与资源体系,以提供更好的读者服务。樊伟红等学者分析了图书馆的主要数据源与图书馆信息服务现状,探讨了大数据给图书馆带来的挑战、机遇和可能的帮助,并分析了当前的研究现状与热点,指出大数据可能在许多方面给图书馆带来帮助,包括建立业务风险模型、用户分析、新型知识服务引擎,预测资源故障等[14]。杨海亚指出,图书馆可以通过推进大数据应用、维护发展图书馆制度、强化图书馆的人文关怀、培养智慧图书馆员等方式提供公共智慧服务[15]。李恬认为大数据提供了一种全新的大数据理念,从世俗局的视角发现问题、重视数据整体、从数据中寻找关联。建议图书馆以大数据理念处理馆藏数据、书目数据、用户数据及工作数据,提供更加深入、高效的服务[16]。韩翠峰认为大数据时代的图书馆需要创新图书馆服务,包括重视用户数据与信息、增加大数据分析服务、利分析技术与工具、提高服务智能化[17]。
3.4.4 个性化服务
通过使用大数据带来的种种数据分析思想与技术,图书馆可以利用用户信息,更好地定位用户需求,实现针对性更强的个性化服务。研究者们对大数据时代下图书馆的服务创新、服务模式变化以及服务对象拓展均进行了研究,并提出了大数据环境中用户数据的安全问题。栾旭伦认为大数据有助于解决目前个性化服务遭遇的需求感知不足、针对性弱、用户流失的危机,并构建了了大数据环境下图书馆的个性化信息服务系统模型[18]。马晓亭关注大数据时代图书馆用户数据的隐私保护问题,认为图书馆在利用大数据的同时,也应当注意避免对用户信息无限制的采集与使用、立法规范隐私数据使用问题、加强数据清洗、采用云技术保护隐私[8]84-89。程刚研究了大数据对科技型中小企业知识服务体系的影响,将现有的中小企业知识服务体系归为六类,并提出优化知識服务体系的对策,包括提升服务中小企业的意识,提高服务人员素质,利用技术手段,优化服务基础设施[19]。
3.4.5 资源建设
大数据时代,图书馆资源采购重心逐渐向数字资源转移,数字资源的甄选、建设、整合与保存都成为新的挑战。学者们总结了大数据对图书馆的挑战与机遇,并对图书馆的数字资源特点,数字资源新的采购、管理、保存、服务、共享模式,传统文献资源的数字化,以及数字图书馆的建设模式等进行了研究。王晓燕认为图书馆可以通过提高数据素养、建设大数据资源、开展大数据创新服务等方式应用大数据[20]。苏新宁从大数据的角度出发,用大数据思维全面分析了数字图书馆的资源建设、技术应用、产品与服务模式、以及定位,提出了大数据时代数字图书馆的应对与改进措施[21]。胡海鹰分析了大数据背景下地方文献数字化建设策略,包括选题策略、共建策略以及多形式策略[22]。
3.4.6 数据素养
全新的数据处理、分析和使用方式要求人们具备利用大数据的能力和思维,对人们应对数据的能力提出了新的挑战,因此,如何培养大数据下的数据素养也成为学者们讨论的话题。数据素养包含三个方面,即数据意识、数据能力与数据伦理,其中的数据能力即指处理、分析数据所需要的技能。研究中,图书馆员、教师、学生与普通大众的信息素养教育均受到关注。黄如花,李白杨对国外各类高校、组织及机构进行调查,发现大数据时代的数据素养教育与信息素养相比,内容、主体和对象都更加广泛,开展形式更加多样化[23]。张晨认为,大数据时代图书馆职能发生转变,图书馆将成为数据服务中心,开展的数据素养教育应当包含意识教育、技能教育、应用教育等方面,并可通过区分用户群体,进行针对性培训和嵌入式教学,开展相关活动等方式展开数据素养教育[24]。杨晓琼提出,图书馆可以与专业教师、与学生创新学习过程、与数据库商合作,通过不同的合作路径实现数据素养教育[25]。李军指出,高校教师比学生更加需要信息素养,教师需具备敏锐的信息意识、坚实的信息知识、强大的信息能力和良好的信息道德[26]。
3.4.7 情报学
除了大数据给竞争情报分析带来的影响之外,也有一部分学者关注大数据给情报学本身带来的新挑战和新方法,包括大数据视角下的情报思想、情报分析方法、情报运行机制、及情报工作在各领域的应用拓展等。贺德方认为,大数据给科技情报工作带来的机遇和挑战主要在于研究方法的突破、情报分析模型工具的开发、全新应用场景的设定,工作与创新主体结合、以及国家科技情报服务体系的构建,并提出了大数据时代科技情报工作未来发展的思考[27]。罗繁明,杨海深提出了一种基于多级统计特征的关键词提取(TFIDF-SK)算法,可应用于大数据时代的网络情报监测[28]。李本先等研究了大数据在反恐情报工作中的作用,认为大数据可以为反恐情报提供数据源、提供及时的舆情信息、并拓展反恐情报的综合分析能力。在实际应用中,大数据可以用于追踪恐怖分子、预测恐怖组织活动、监测恐怖分子行动以及进行可视化分析[29]。
4 结论
本文以CNKI中大数据研究论文为数据来源,以Citespace为工具,从发文力量分析和研究演进分析两个角度总结了我国图书情报领域大数据研究的演化过程,将图书情报领域的大数据研究分为大数据时代、竞争情报、智慧图书馆、个性化服务、资源建设、数据素养、情报学7个大类,认为我国图书情报领域大数据研究自2012年起持续增长,目前研究主题之间联系密切,已经形成了较为稳定的核心,目前的研究热点主要是大数据对各类型图书馆的影响,以及图书馆的新型服务模式。但现有大数据研究尚未完全发展成熟,研究力量较为分散,缺乏新的研究前沿,情报学、物联网、信息素养教育等主题有进一步深入研究,拓展研究领域的潜力。
参考文献:
[1] Specials:Nature. BIG DATA [EB/OL]. (2008-09-03)[2018-5-10]. http://www.nature.com/news/specials/bigdata/index.html.
[2] Science. Special Online Collection: Dealing with Data[EB/OL].(2011-02-11)[2018-5-10]. http://www.sciencemag.org/site/special/data/.
[3] IBM Big Data & Analytics Hub . Infographic: The Four V's of Big Data[EB/OL]. (2014-12-15)[2018-5-10]. http://www.ibmbigdatahub.com/infographic/four-vs-big-data.
[4] 杨海燕. 大数据时代的图书馆服务浅析[J].图书与情报,2012(4):120-122.
[5] 陈传夫,钱鸥,代钰珠. 大数据时代的数字图书馆建设研究[J].图书情报工作,2014(7):40-45.
[6] 温浩宇,李京京. 大数据时代的数字图书馆异构数据集成研究[J].情报杂志,2013(9):138-141.
[7] 袁芳.大数据环境下图书馆文献资源建设模式的变革[J].图书情报工作,2015,59(18):91-94.
[8] 马晓亭. 大数据时代图书馆个性化服务读者隐私保护研究[J].图书馆论坛,2014(2):84-89.
[9] 沈杰.大数据与图书馆信息服务工作的變革[J].图书馆,2015(9):107-111.
[10] 邱均平,段宇锋. 论知识管理与竞争情报[J].图书情报工作,2000(4):11-14.
[11] 吴金红,张飞,鞠秀芳. 大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1):5-9.
[12] 刘高勇,汪会玲,吴金红. 大数据时代的竞争情报发展动向探析[J].图书情报知识,2013(2):105-111.
[13] 顾涛. 基于大数据的竞争情报协作分析研究[J].情报科学,2013(12):114-118.
[14] 樊伟红,李晨晖,张兴旺,等. 图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68.
[15] 杨海亚. 提供公共智慧服务:大数据时代图书馆服务模式创新[J].新世纪图书馆,2014(3):10-14.
[16] 李恬. 大数据理念与图书馆大数据[J].世纪图书馆,2014(6):24-27.
[17] 韩翠峰. 大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[18] 栾旭伦. 大数据环境下高校图书馆个性化信息服务系统研究[J].图书馆学刊,2014(8):118-121.
[19] 同8,84-89.
[20] 程刚. 大数据环境下科技型中小企业创新发展的知识服务体系研究[J].情报理论与实践,2016(3):42-46.
[21] 王晓燕.图书馆应用大数据的文献分析与思考[J].大学图书情报学刊,2015(1):55-60.
[22] 苏新宁. 大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015(6):4-12.
[23] 胡海鹰. 大数据背景下地方文献数字化探讨[J]. 图书情报论坛,2014(6):31-33.
[24] 黄如花,李白杨. 数据素养教育:大数据时代信息素养教育的拓展[J].图书情报知识,2016(1):21-29.
[25] 张晨. 大数据时代的图书馆与数据素养教育[J].图书与情报,2014(4):117-119.
[26] 杨晓琼. 大数据时代高校数据素养教育的合作路径[J].情报资料工作,2015(3):98-102.
[27] 李军. 大数据时代高校教师的信息素养[J].当代教育理论与实践,2014(9):152-154.
[28] 贺德方. 基于大数据、云服务的科技情报工作思考[J].数字图书馆论坛,2013(6):2-9.
[29] 罗繁明,杨海深. 大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013(3):64-68.