文/周生傲(广西民族大学)
在2011年5月,世界著名的咨询公司麦肯锡(Mckinsey)发表了《大数据:创新、竞争和生产力的下一个前沿领域》[1]报告,第一次正式提出了“大数据”这一概念,各个行业和领域的数据量的增长也极其迅速,美国的学术界和企业界也对这种现象的意义进行了激烈的探讨。“大数据”这个名词变得越来越流行,越来越重要,最后成为国家和政府层面的发展战略[2]。图书馆,可以说是一个社会信息服务的中心场所,不仅需要有较高的技术,而且还面临着较高的管理风险[3],不仅如此,图书馆还面临着来自内外部环境的激烈竞争与重重挑战。从内部环境来看,除了上面提到的主要挑战之外,还存在许多图书馆不得不面对的挑战因素,例如图书馆的基础设施,运营的经费,人力资源与管理制度等都是图书馆面临的问题;从外部环境来看,各种信息服务机构和各大 IT 厂商都已经专注于对大数据应用的研究[4],图书馆在大数据的应用竞争中,已经落后于他们一步,尽管图书馆在资源方面占据优势,但是图书馆在技术应用方面的劣势使得其追上其他机构的步伐受到了极大的限制。如何提高技术水平,避免与其他竞争者的差距越来越大,将是图书馆必须要考虑的一大问题。图书馆学界对大数据进行了一些学术研究和实际应用,并取得了显著成效。本文将对CNKI中有关大数据在图书馆领域应用的文献进行分析,并运用文献计量分析、直观分析和内容分析等方法对期刊文献在图书馆大数据应用研究领域进行直观分析,从而清晰、全面地展现图书馆大数据研究的时空分布特征和研究热点,使研究结果更加直观、科学。通过对研究结果的分析,希望能够清楚地看到大数据在图书馆领域应用的现状,以及研究的重点和不足,对研究中遇到的困难提出建议,并指出今后的研究方向。
以“大数据”与“图书馆”为检索词进行主题检索,时间跨度为所有年份,共检索文献 376 篇,因为都属于核心期刊或 CSSCI 中的文献,有很强的代表性,经筛选最终得到的 360 篇文献符合本研究的研究范围。
研究了文献的描述特征和内容特征,运用文献计量分析方法,分析了大数据图书馆应用领域相关文献出版的时间分布、作者和出版机构的描述特征,并探讨了该领域的研究热点和研究方向。CiteSpace是一种基于Java环境的科学文献数据测量与分析的信息可视化软件。它是近年来在信息分析研究中最具影响力和特色的信息可视化软件。将以上三种方法结合在一起,对有关图书馆大数据应用的文献进行分析,能客观科学地得到该领域研究现状及发展趋势等信息[5]。
在某一领域的研究之初,由于缺乏相关的理论基础,文献数量较少。随着研究的深入,越来越多的研究者加入,研究成果增多,相关论文的发表量也会上升,渐渐地机构增加,发文量增长较快,研究成熟后,发文量趋于稳定[6]。通过对从 CNKI 中的核心期刊和 CSSCI 数据库中检索得到的 360 篇有关图书馆大数据应用的研究文献进行年代分布统计分析,统计得到图1所示结果。
图1 图书馆大数据应用研究领域文献数量变化趋势
由图1可以看出,大数据在图书馆的应用研究文献数量在核心期刊和 CSSCI 中发表的较少,最早始于 2006 年,发文量为两篇,该年发表的两篇文献分析探究了数字图书馆中常见资源特点和描述需求,可见当时大数据的概念还并没有开始普及。
在接下来的几年时间中,关于该领域研究的文献几乎没有。直到2012 年,发文量持续上升,该领域越来越受到关注。到目前为止,每年发文的总体数量保持平稳,说明我国图书馆大数据研究进入相对稳定阶段,上述现象与我国大数据的发展有密切关系。最合适的大数据概念是在2008年提出的,2008年之后,特别是2012年以来,大数据的研究越来越受到重视。论文发表量迅速增长,成为当前研究的热点。这与图书馆大数据应用的发展是一致的。
(1)笔者分析。某一领域的研究人员经常通过发表论文的方式发表和传播他们的研究成果。通过对文献作者分布的分析,可以清楚地看到该领域研究者发表论文的总体情况[7]。2006年至今,在图书馆大数据应用研究方面取得了许多科研成果,其中渗透着众多科研人员的心血。运用社会网络分析方法对图书馆大数据应用领域的作者分布与合作进行了分析,得到了作者共现网络图(又称作者与合作分布图,见图2)。
图2 “图书馆大数据”主题研究领域作者共现网络图谱
从图2可以看出,在图书馆大数据应用研究领域,形成了以马晓亭、陈臣、熊太纯为中心的作者群,表明这些学者是该领域的领军人物。为了更具体地展示我国图书馆大数据研究领域主要研究学者的学术成果,表1列出了文献发表量排名前十的学者名单。从表 1 可以看出,马晓亭、陈臣是目前图书馆大数据研究领域的核心研究人员,经统计,他们共发表论文 52篇,占该主题领域发文量的 14%。另外,从表1可以看出,大部分作者的发文量是 4篇、3 篇或者 2 篇,说明该领域绝大多数的研究者进行的并不是长期研究。由此可见,我国大数据在图书馆的应用领域的研究核心作者群还没有真正的形成,对该领域的研究人员还比较少,比较分散,研究成果也较少,因为大部分研究者都是短期研究,没有深入研究,没有对该领域长时间的关注。
表1 “图书馆大数据”主题研究领域高频次发文作者统计表
(2)发行机构分析。每个研究机构在研究领域都有一定的差异和联系,研究机构的合作促进了相关领域的发展[8]。为了了解图书馆大数据研究领域的机构合作情况,利用CiteSpace可视化软件生成研究机构的共生网络图,如图3所示。
此次研究的数据也是 360 篇文献,共来自 37 个发文机构。由图3 可知,几所机构对该领域的研究时期较长,尤其是兰州财经大学信息工程学院和兰州商学院信息工程学院,走在该领域的研究前沿。可以看出兰州的高校对该领域的研究比较重视,是该领域的代表机构。表2列出了发文量前二十的研究机构。从表 2 可以看出,兰州商学院信息工程学院、兰州财经大学信息工程学院、兰州商学院信息中心、兰州商学院网络中心、兰州财经大学信息中心发文数量排在前五位;排名第六的南京大学信息管理学院对大数据在图书馆的应用作了较多的研究,发表了较多论文,占总数的16.3%。仔细研究这些发文机构,发现绝大多数是高校的信息学院与图书馆,除此之外还涉及其他专业与研究中心等。
图3 “图书馆大数据”主体领域研究机构共现网络图谱
表2 “图书馆大数据”主题研究领域的文献来源统计表
论文的关键词是对文章思想的高度概括,某领域或主题论文的关键词频次能够反映学界对该领域或主题的关注度和重视度,也能够从中窥探该领域或主题研究的热点[9]。为了对我国大数据在图书馆应用领域的研究热点有更清楚的认识,运用词频统计分析法对该领域的 360篇文献进行关键词统计,最终形成了该领域的关键词共现图谱(图4)。表3列出了频次在前 20 的关键词,通过分析,以期更清楚地认识该领域的研究热点和研究方向。在纳入统计的 360 篇文献中出现了 622 个关键词,出现3 次及以上的有 39 个,可见该领域研究角度较多,范围比较广泛。
表3 “图书馆大数据”主题研究领域高频次关键词统计表
图4 “图书馆大数据”主体研究领域关键词共现图谱
将所有的关键词进行处理,相同意思的关键词进行合并,并将“图书馆”与“大数据”这两个高频次但对研究意义不大的词语剔除,最终将频次至少 6 次的关键词共有 14个绘制成表4。从表4可以看出,该领域的研究者对大数据在图书馆的应用的研究主体,面向的对象和研究内容等的认识比较一致,关注点也比较集中。从关键词的词频统计,还可以看出大数据在图书馆的应用对象大多为高校的图书馆,公共图书馆相对较少。
随着科技的进步,各种技术的发展应用,图书馆的大数据技术的应用也在不断发展,研究热点也在不断地更新前进[10]。如图5所示。图5所示是8个突变关键词的年代分布。通过观察突变词的年代分布,可以看出该领域随着研究热点、时间的变化前进。在表5中,红线段表示该时间段内突变关键字的频率突然增加,而浅线段表示该时间段内突变关键字的频率较低。由图5可知,该领域的关键词包括:知识服务、数据主体、数据挖掘、图书馆数据、数据立法、数据处理、所有权关系、图书馆等。在 2006 年,突变的关键词有数据主体、权属关系、图书馆数据、数据立法,表明当时的研究前沿在数据的规范化方面。 2012、2013 年突变的关键词为:数据挖掘,数据处理,知识服务等,表明这个时期,大数据技术开始成熟,开始注重知识服务的重要性。2017年突变关键词为:图书馆。表明各大高校开始把大数据技术引入图书馆,更好地为学生提供专业的服务,满足学生越来越高的需求。
图5 图书馆大数据研究领域突变关键词的年代分布
在大数据时代的今天,大数据在提高图书馆服务质量等方面显示出了明显的优势。因此,充分利用图书馆大数据可以为图书馆优化服务提供必要的数据支持。然而,大数据的作用需要解决数据采集的问题。同时,图书馆中的数据也呈现出无序的特点,各种数据是否具有使用价值、使用价值有多大等都需要图书馆进行识别,这给图书馆工作人员带来了更多的工作内容和更大的工作压力。
图书馆工作人员是图书馆大数据服务的主体。因此,图书馆工作人员的大数据素养直接影响到图书馆大数据服务的质量。显然,在大数据时代,图书馆基于纸质图书的馆藏资源很难与图书馆受众的信息获取需求实现很好的对接。同时,在利用大数据技术开展图书馆服务的过程中,图书馆工作人员对大数据的态度和利用大数据开展服务工作的能力有待优化和提高。另外,图书馆人才流失现象导致图书馆大数据服务工作难以满足需要,这对充分发挥大数据在提高图书馆服务质量中的作用有一定的制约。
对于图书馆受众来讲,图书馆服务与大数据技术的融合具有两面性。一方面,图书馆可以利用大数据技术为读者提供更加个性化、高效的服务;然而,在利用大数据技术开展服务工作的过程中,受众因素会面临一定的安全风险。具体来说,数据共享是充分发挥大数据技术优势的重要基础。在此背景下,图书馆的数据则呈现出了发展的特点。虽然有利于图书馆各类数据的充分利用,但如果大数据服务的某个环节出现差错,将导致图书馆受众数据的外泄,因此,图书馆数据安全和读者隐私保护也是图书馆在开展大数据服务时需要注意的重要内容。
大数据时代,图书馆数据呈现出类型多样化、内容定量化的特点。面对无序的数据资源,图书馆必须有效地建立和识别,在充分利用数据的基础上,充分发挥大数据技术和大数据服务的优势。在这个过程中,图书馆可以建立大数据服务管理部门,主要负责收集图书馆的各种数据,并制定数据分析和存储的标准。因此,图书馆需要认识到大数据技术和大数据服务对图书馆发展的重要性,通过强化现代管理意识,加大对现代图书馆建设的投入,为图书馆数据管理平台建设提供资金支持,从而有效提高图书馆数据信息的收集、整理、存储和利用效率,为提高图书馆大数据服务质量提供保障。
从图书馆人才队伍建设的角度看,图书馆有必要着眼于大数据技术的运营和应用,做好图书馆人才队伍的培养。同时,要引导图书馆工作人员加强自身的服务理念,充分利用大数据技术,了解受众的信息需求和信息接受习惯,从而有效提高图书馆读者的满意度;优先图书馆人才引进体制,增强图书馆工作的吸引力,为有效吸引人才加入图书馆队伍,为图书馆增添更多的积极思想和数字人才,为大数据服务的发展打下良好的基础。
在大数据时代,与侵犯受众隐私相关的新闻事件已是屡见不鲜,比如之前爆出的谷歌、Facebook、亚马逊、bat等互联网巨头擅自将用户数据用于商业目的,这一点早就饱受诟病。虽然图书馆不具备上述企业的商业性质,但并不意味着图书馆如果不主动公开受众隐私,受众隐私就不会泄露。然而从受众的角度看,如果由于自身问题而泄露了受众的隐私,那么图书馆的良好形象将会大打折扣。因此,大数据服务中的隐私管理已经成为图书馆需要面临的一个重要问题。在这个过程中,图书馆需要从制度的角度明确工作人员的职责。
本文中以 CNKI 中“图书馆大数据”为主题的核心期刊和 CSSCI数据库文献为数据源,利用文献计量分析法、可视化分析法和内容分析法等,对我国大数据在图书馆的应用研究领域近 15 年研究的研究成果和研究现状进行全面的梳理和总结分析,得出以下结论:一是以图书馆大数据为主题的文献数量呈曲线增长的趋势,这十几年来该领域的研究者和研究成果都有了很大的提升,表明越来越多的人开始关注该领域,尤其随着大数据技术的不断发展,该领域的研究也在不断发展。到目前为止,每年的发文量总体保持平稳,说明我国图书馆大数据研究进入相对稳定阶段;二是在图书馆大数据领域的研究中,比较早期的研究者以马晓亭为代表,并出现陈臣、何胜、熊太纯等在该领域中占有举足轻重地位的研究者;三是图书馆大数据研究领域的内容比较广泛,研究热点在知识服务、数据挖掘、图书馆、数据处理、个性化服务等方面,随着大数据技术的逐渐成熟,其在图书馆的应用也越来越深入,并将相关的数据技术应用到图书馆管理中。本文中的数据源为 CNKI 中核心期刊与 CSSCI数据库中的中文期刊文献,没有涉及相关领域的外文文献,所以结果还有待补充完善。由于 CNKI 数据库自身的限制,没有办法运用Citespace 可视化软件进行文献的引文分析,所以分析的结果并不完善,具有一定程度的局限性。另外,本文仅以图书馆大数据作为主题进行分析,可能忽略了其他领域的主题,所以分析结果有待补充。大数据技术有助于分析当前图书馆管理的现状,为图书管理与服务的改革指明了发展的方向,进一步提高了服务读者的针对性,优化了图书馆运转的体系,提高了图书馆管理的效率,降低了图书馆服务的成本。新时代还要大力引进大数据技术,完善图书馆管理工作的机制,发挥大数据技术的基础价值,依托大数据技术开发专业图书管理平台,提高图书馆管理的质量与有效性。