张双双
(长春财经学院 吉林 长春 130000)
大数据时代最早由全球知名咨询公司麦肯锡,在2011年5月发表的一篇报告《大数据:创新、竞争和生产力的下一个前沿》中提出,从这一刻起,大数据开始备受各行各业的关注。2012年,美国政府认为大数据已经能够影响国家经济结构和产业升级,变得像“石油”等自然资源一样重要。到了2013年数据已经成为科研活动的核心,如果不能善于利用数据,就会造成大量的资源浪费。智慧图书馆是未来的发展趋势,针对“大数据”和“智慧图书馆”这两种新兴事物进行研究,对图书馆的发展具有重要意义。本文通过此研究热点进行分析,从而为智慧图书馆的发展提供帮助。
麦肯锡公司给出的定义:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合[1]。
目前,大数据没有统一的定义,本文认为大数据可以简要概括为海量数据+处理办法,实际上就是利用先进的处理数据的办法,将海量数据挖掘出有价值的数据,并将这些有利用价值的数据进行可视化,还能利用一定的技术方法存储这些海量数据,对数据安全做好防护等一系列的问题。
智慧图书馆是指把智能技术运用到图书馆建设中而形成的一种智能化建筑,是智能建筑与高度自动化管理的数字图书馆的有机结合和创新[2]。智慧图书馆是未来图书馆发展的必然趋势,是智能图书馆的升级,将云计算、大数据、物联网与智能设备结合在一起,能像人一样提供智慧化服务,除此之外更要包含图书馆馆员的智慧服务。
本文利用中国知网数据库,采用高级检索方式,设定“主题词=(大数据and智慧图书馆)”进行检索,检索出648条结果,检索时间为2021年4月12日。由图1可知,关于“大数据”并含“智慧图书馆”的文章是从2012年开始出现的,2012年出现了1篇,2013年出现了3篇,发文量从2014年开始缓慢上升,一直到2017年,这4年每年发文量都在50篇以内;在2018年至今,发文量增加比较显著,经中国知网预测2021年这方面文章将达到271篇。我们将这648条数据导出Refworks格式作为此次基于CiteSpace研究的数据来源[1]。
图1 主题词“大数据and智慧图书馆”在中国知网中年发文量
此研究利用CiteSpace5.7.R5版本软件进行知识图谱的可视化分析,主要分析在大数据环境下智慧图书馆研究热点。经中国知网检索出的数据可知,在2012年开始出现这方面的文章,所以时间节点取2012到2021年近10年的词频进行分析。将648条Refworks格式的数据存放到input文件夹中,将txt文件改成CiteSpace可以识别的文件名称,如“download1_converted”,利用CiteSpace软件先转化成其可以识别的数据,存储在data文件夹中,再建立一个project文件夹用来跑数据。数据准备完成后,进行关键词分析,选择裁剪的算法,时间切片选“1”,以1年为单位进行研究,点击“go”,最后得到CiteSpace可视化图谱见图2。
图2 基于CiteSpace关于大数据环境下智慧图书馆的主题分布图
通过这种可视化图谱,可以将热点清晰地呈现出来,图中大圆点代表比较火热突出的主题词,主要有智慧图书馆、大数据、图书馆、高校图书馆、智慧服务等。各主题词的高频词分析如下:(1)围绕智慧图书馆的高频词主要有云计算、物联网、手机图书馆、大数据思维、大数据平台、智能+智能生态系统、大数据分析技术、数据安全、总分馆服务体系、功能拓展、实现路径、用户需求、图书馆智慧应用等;(2)围绕大数据的高频词主要有智慧服务体系、关联主义学习理论、服务模式、Python、图书馆构建、个性化服务、云田智慧云平台、党校智慧图书馆、AI、5G、聚类分析、共词分析、因子分析等;(3)围绕高校图书馆的高频词主要有:智慧校园、智慧阅读、5G阅读、Web4.0、图书馆4.0、“双一流”建设高校、物联网技术、RFID技术、云计算技术、技术驱动、功能架构等;(4)围绕图书馆的高频词主要有:智慧化服务、个性化智慧服务、智慧图书馆体系、大数据时代、发展趋势、建设策略、场景化知识推荐、微知识自动问答、图书馆系统、用户画像等;(5)围绕智慧服务的高频词主要有:区块链、大数据环境、云技术、智能说、信息融合、nlsp、solomo、信息融合、文献计量等。
CiteSpace软件根据本文在中国知网检索的648条数据,还自动生成了一个关于词频高低的排序,见图3。排在前15位的分别是:智慧图书馆、大数据、智慧服务、高校图书馆、图书馆、人工智能、物联网、云计算、高校、大数据时代、知识服务、建设、“互联网+”、智慧化、公共图书馆。通过这些词频排行榜,我们可以很容易看出,在大数据环境下智慧图书馆研究的方向所在,为日后学者开展此方向的研究打下良好基础。
图3 研究热点中关键词排行榜
在CiteSpace软件中,点击Burstness按钮,再点击view,可以生成一个关于大数据环境下智慧图书馆研究的引用次数最多的词频排序,见图4,可以清晰地看出排在前4位的分别是:物联网、云计算、“互联网+”、学科服务。而且它们有个共同的特点,这4个词都是从2012年开始凸显的,这也是随着大数据和智慧图书馆的兴起而出现的现象。
图4 关键词强度排行榜
数据作为信息、知识的基础性加工材料,它的种类繁多,来源渠道多,如文本、图像、视频、机器数据等,也可以是结构化、半结构化或非结构化的数据,不连贯的语法或者语义。
数据的数量庞大,其中充斥着有价值和无价值的数据,由于它的种类多样性,使得它的数量更加庞杂。在数据的海洋中挖掘出有用数据,犹如大海捞针一般,它的价值密度很低。
全世界各个地区、各行各业每分钟每秒钟都会产生海量数据,有的是人为数据,有的是机器数据。机器数据自动会产生海量数据,它的增长速度惊人。
数据是实时产生就可以利用的,不像信息和知识是在数据的基础上利用人的思维、智慧提取出来的,因此数据的时效性非常强,产生之时即可利用。
大数据环境下的智慧图书馆的重点就是大数据的利用,机构知识库是根据各个机构自身需求建立的存储数据、信息、知识的地方,可见建立机构知识库对于大数据环境的重要性。机构知识库可以针对每个图书馆不同的特点进行有针对性地建设,宗旨就是将一切图书馆中产生的有利用价值的数据全部收录,当用户需要某项数据时,通过检索该图书馆的机构知识库,可以快速、准确地查找到所需数据的过程。图书馆在建立机构知识库时需要考虑的问题很多,目前全国有图书馆正在建立机构知识库,将数据放到机构知识库中,其难点在于怎么样对这些数据进行保护,为哪些人提供哪些数据这是值得各个图书馆深思的问题。如果图书馆能将机构知识库做大做好,也能为地方政府提供数据支撑,还能为政府乃至国家做出重大决定提供预测等,同时也能提升图书馆自身的地位[2]。
在大数据环境下,图书馆可以从传统的“认为用户需要”转变为“知道用户需要”,这是依靠大数据才能提供的精准服务,这种智慧服务比以前人提供的服务还要让用户舒服,让用户毫无违和感,这就是好的智慧服务[3]。建立用户画像的过程实质是通过收集用户的特征数据、兴趣数据、行为数据等,分析用户的数据信息,将用户进行分类,再通过数学建模预测用户喜好和未来的行为。图书馆从一对多变成了一对一类人,随着用户画像技术的提高,甚至可以达到一对一个人的个性化推送服务,这样能更有针对性、更精准地为各类用户提供服务。
数据素养是在信息素养的基础上发展起来的,信息素养是快速获取、利用信息的能力,数据是信息的原材料,因此可见数据素养是信息素养的高级模式,比信息素养更复杂。提高馆员的数据素养,才能为智慧图书馆数据管理提供人才,才能更好地将有价值的数据从海量数据中挖掘出来,更好地为用户提供高质量的数据。智慧馆员应加强专业知识学习,可以通过提高学历、参加慕课、参加行业内的培训或者利用图书馆丰富资源,培养自己的数据意识,提高自己数据方面的能力,例如数据挖掘、数据分析、数据可视化、数据软件使用等[4-5]。
在大数据环境下,智慧图书馆虽然面临技术和人才的双重挑战,但大数据也给智慧图书馆带来了新的机遇,通过大数据和智慧图书馆热点分析,可见在大数据环境下智慧图书馆的研究前景非常广,为智慧图书馆的发展及用户服务带了很多可能性,让我们图书馆人在大数据环境下砥砺前行。