大数据背景下对图书馆工作的思考

2020-04-07 03:37孙海晶
科技资讯 2020年2期
关键词:大数据技术图书馆大数据

孙海晶

摘  要:随着信息技术和互联网技术的快速发展,大数据技术已普遍融入到了每一个行业之中,人们已步入了大数据时代。大数据技术的广泛应用会使图书馆的知识管理体系进行重新构建。该文将大数据技术与图书馆的工作相结合,从各种不同的角度分析了大数据技术在图书馆中的应用,同时,也提出了大数据背景下,读者隐私信息的安全问题及解决方法,以促进图书馆的建设和发展,实现对读者的精准服务。

关键词:大数据  大数据技术  图书馆  应用

中图分类号:G258.6;G251    文献标识码:A 文章编号:1672-3791(2020)01(b)-0174-03

提到“大数据”,每个人都不陌生。因为当我们在进行网络购物时,会发现网站会根据我们浏览或购买过的商品,个性化地向我们推荐类似的商品,甚至会在我们的电脑桌面间断性地跳出相关广告页面。这就是典型的商业网站依据用户的行为信息建立个性化的用户行为模型,再对模型中存在的规则进行挖掘,在此基础上为用户提供个性化服务。而且一旦发现新的商品数据就向用户及时通知。在此之外,还对用户兴趣的转变及时跟踪,根据用户的最新需要及时推送[1]。这就是基于大数据技术的应用。目前大数据技术已渗透至每一个行业,而且和我们的生活紧密相连。

如在医疗行业:在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取,通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产儿夭折。现在,很多图书馆已经开始借鉴这种成功的实践经验,将其应用到图书馆建设和发展中,为读者提供了个性化的精准服务。

1  大数据的含义

目前,对大数据还没有统一的定义。维克托·迈尔-舍恩伯格及肯尼斯·库克耶对大数据的提出定义是:大数据(big data,mega data)或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。维基百科对大数据的定义是:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。

从这些解释中,我们不难看出所谓大数据,它是一种信息资产。这里的数据只有少数以储存在数据库中的结构化数据存在,90%是以邮件视频、微博等产生的大量的半结构化和非结构化的数据存在。并且这些数据的价值不是存储,而是获取和应用。

2  大数据技术在图书馆中的应用

2.1 服务理念的主动性增强

我们工作的目的是尽其所能地帮助读者解决问题,而非做了多少数量的工作。即解决问题为主,基础工作为辅。

在传统模式的图书馆管理和服务中,管理员的工作内容主要集中在加工、整理纸质书籍、期刊、报纸等类型文献,定期更新数据资源,举办各类读者活动、线上线下课堂讲座、网上咨询等服务。通过资源共享的方式,在读者提出问题的前提下,然后查找相应资源为其提供回复,为读者提供所需要的信息,管理员处在被动模式。这种状态已经很难适应现代社会信息化快速发展的需求。但如果采用大数据技术,可以利用收集读者的相关信息,再把收集的信息进行整合处理成具备某些意义的电子信息,为读者提供个性化的服务[2]。通过这种方式不仅大大提高了馆藏资源的利用率,增强了管理员的服务主动性,对潜在需要服务的读者群体也进行了有效的扩展。

2.2 更加精准地服务读者

在图书馆的日常工作中,可以收集很多类型的数据信息,其中比较重要的数据有:图书馆在对读者进行服务时产生的业务数据;加工处理文献产生的文献数据以及读者群体在自助式阅览、借阅以及活动等方面产生的用户数据。其中用户使用数据是指用户在使用图书馆信息资源或信息设施的过程中可以被计算机所记录的用户信息行为数据,既包括网络环境中的信息行为数据,也包括物理空间中的信息行为数据。图书馆通过统计读者的用户数据,分析出读者的阅读周期和规律,利用大数据技术为读者提供精准、个性化的服务。

2.2.1 在文献资源服务方面实现精准化

随着信息技术和网络的快速发展,文献资源的数量和种类呈现幂级增长的趋势,数量大到无法估量。但这些数据却有很大的冗余度,价值密度极低。无论在时间上还是空间上都大大增加了读者查阅的难度。为解决这个问题,我们可以通过对读者借阅习惯、对馆藏资源的点击率、下载率甚至社交方式等数据的统计与分析,对馆藏资源进行文献信息的分類与排行,预测读者喜好,有针对性地向不同类型的读者实现精准推送,实现个性化的精准服务。

有些图书馆已经把读者的年度阅读情况以报告的形式向读者开放。对于读者而言,不仅使读者从宏观上定期地了解了自己的阅读情况,而且有助于读者进一步完善自身的知识体系,根据需要调整资源结构,提高了读者的阅读兴趣;对于图书馆而言,不仅提高了图书馆工作者对信息处理的服务技能,合理地利用了图书馆的文献资源,更增强了读者对图书馆的好感度,推进了对读者更好地进行精准服务。

2.2.2 在读者活动方面实现精准化服务

现代图书馆为了营造社会文化氛围,提高公民文化素养,不断提高馆舍场地的利用率,已将各类展览、专题讲座、大众培训等多种服务内容纳入到了其重要业务范畴。图书馆可以针对不同的读者群体、不同的业务领域,将大数据的分析、预测功能,渗入到各项读者活动中。图书馆可采用大数据技术对参加图书馆各类活动的读者展开数据分析,这种分析结果将成为未来活动策划的重要依据。现场问答、读者意见单等都可以为图书馆获取有效数据提供支持,通过对这些数据的深层次挖掘和具体分析,我们可以从中获取有价值的信息,这对图书馆各项读者活动的发展方向、规模大小等都具有参考价值。

2.2.3 在资源采购方面实现精准化

通过大数据技术在图书馆系统中的运用,图书馆可以通过收集读者的图书借阅记录、数据库访问、检索、下载记录、留言等信息,收集相关有用数据,进而更加有效地了解与分析读者对各种资源的使用情况,特别是通过挖掘用户检索日志,对那些多次被读者检索而本馆又缺藏资源的采购提供了重要的信息。尤其在一些区域型中心馆分馆型图书馆中,通过网络技术可以全面掌握整个区域读者的需求情况,为图书馆文献资源的采访决策、优化配置和数据库的删选调整提供科学的依据,也为图书馆再造文献采访模式提供有力的保障。

2.3 利用大数据构建新型知识体系引擎

目前的公共图书馆中,几乎都通过自己的查询系统实现了馆藏书目联合检索,但仍无法做到对本馆资源整体的资源检索。如读者检索某一知识点时,除了通过书目检索系统检索相关书目信息外,还需要通过不同数据库的不同检索引擎,经过多次检索才能获取此知识点相关的完整文献信息。为避免这一问题,可以通过大数据处理技术的支撑构建动态的知识体系,以供读者从多视角、全方面地浏览相关资源[3]。在这方面,谷歌知识图谱、搜狗知立方、百度知识图谱等搜索引擎的推出,为用户的搜索关键词返回多种媒体形式、多种知识点组成的知识关联结果,大大扩展了用户搜索的知识体系,值得图书馆界的学习和借鉴。

如“谷歌知识图谱”:利用搜索引擎查找一词多义的词语,“维多利亚”,它既是一位前英国的女王,又是加拿大的一座城市,还是一部电影的名字。Google会在搜索结果的右侧给出维多利亚女王的介绍,在更下面的位置,会给出维多利亚城市的简介,还有维多利亚电影的简介等。

借助知识图谱,Google在搜索结果的右侧将这些由同一个关键词所表示的不同事物根据特定的优先级算法罗列出来。用户借助这种信息组织形式就能方便地缩小搜索范围,快速找到真正关心的内容。

知识图谱还可以根据相关度给用户做出推荐,例如,当用户搜索一本书时,知识图谱知道这本书获得哪些奖项,就会把同样获得这些奖项的图书也推荐给用户。当用户搜索某个科学家时,知识图谱会把和他同一个年代、同一个领域的科学家展示给用户。除了回答用户已提出的问题,还能根据其他人的搜索行为预测当前用户接下来会问什么问题,直接把这些接下来用户可能关心的问题答案摆放在“用户还搜索了”下面。

3  大数据背景下读者信息的隐私安全问题

通过大数据技术在图书馆中的应用,可以给读者带来个性化的精准服务,但在服务的同时,由于图书馆对读者各种信息数据的采集、数据挖掘、预测服务,以及与第三方增值服务合作等过程中,难免存在对读者隐私数据的侵犯问题,这给读者的信息安全带来了隐患。据中国互联网信息中心(CNNIC)提供的2013年《中国网民信息安全状况研究报告》显示,74.1%的网民在过去半年内遇到过信息安全问题。另据2012年的调查,绝大多数网民对个人信息安全处于无助状态,有近九成网民在信息泄露后无任何补救办法。

3.1 图书馆与第三方增值服务运营商合作过程中出现的读者信息泄露

图书馆在对读者进行用户注册信息、读者借阅数据、读者活动数据、读者社交数据等信息进行采集操作后,还需要与第三方增值服务运营商合作,为读者在移动阅读、用户数据管理、个人图书馆等方面提供服务。而有些IT系统的规划和建设过于注重功能性需求,却忽略系统在安全、稳定、可维护等方面的非功能性需求,致使大数据系统在安全方面防护能力不足,在系统设计、技术手段和运营管理等方面存在各种漏洞。还有的系统过于强调开放性和便利性,忽视对数据关键信息的保护。比如代理商可以直接访问系统核心数据库,调用客户资料,查阅信息等。这都可能造成读者隐私数据的泄露。

3.2 图书馆在对读者管理和服务过程中出现的读者信息泄露

图书馆为了给读者提供精准的服务,首先要进行信息的收集,如姓名、性别、出生日期、文化程度、工作单位、联系方式、职业等信息;读者在参加图书馆的各项活动和社会培训中,也会提交各种相关信息;读者在图书馆的阅览、借阅、上网浏览下载、定位、网络社交等行为所产生的数据信息也会被在图书馆所记录。这些读者信息在收集的过程中难免存在安全漏洞,导致读者信息的泄露。

3.3 图书馆自律不足会使读者信息泄露

国内图书馆在某些方面对读者信息保护措施还不够健全,所以很多图书馆员在对读者信息的处理问题上没有准确的依据和范围,不确定哪些信息需要保护、哪些信息可以公开,存在模糊与漏洞的状态。一项针对我国151所各种类型图书馆的研究表明,制定并公布隐私权政策的图书馆仅占13.9%。所以在图书馆员的信息安全方面也存在一定的问题。

4  大数据背景下图书馆对读者隐私数据的保护措施

4.1 图书馆与第三合作方建立完善的责任机制

图书馆在与第三合作方达成协议前,应根据需要与其对信息安全方面达成书面责任制约协议。其内容可以包括法律规定、管理与服务需要把数据划分为不同等级,严格设置访问机制,对不同人群的访问采取等级制度,从而达到保护读者数据安全的目的。

4.2 按需求严格筛选读者数据

大数据具有数据量大、冗余密度低的特点,针对这些缺点,在对读者进行数据采集的过程中,应尽量避免多余、利用率低的数据,只采集与读者管理和相关服务有关的数据。在实现用户个性化精准服务过程中,图书馆应交付用户应有的数据知情权、拥有权、选择权和使用权,不应过分强调个性化精准服务的质量而侵害用户隐私。图书馆应实现用户数据的透明采集,并明确告知读者相关数据采集的内容、方式和使用方向。在利用傳感器、监控设备和网页搜集用户数据时,应通过技术手段过滤掉读者的姓名、住址、电话,阅读终端类型、账户密码、职业、身份、收入等隐私信息。

4.3 加强图书馆自律

图书馆工作人员负责采集读者信息,在读者的信息安全方面负有很大的责任。图书馆在隐私权法律知识方面进行普及,提高图书馆员和读者对个人信息的自我保护意识。比如可以在定期的法律讲堂或前台服务处介绍相关的信息安全知识,对图书馆的特定岗位进行信息安全培训,帮助读者和馆员理解法律法规,学习图书馆隐私权政策,提高自我保护隐私的意识和能力。

5  结语

在《奇葩大会》中,李开复说:“未来,人类有50%的工作将会被人工智能替代。”“所有的行业都会颠覆,而且很多的职业正在慢慢消失。”但文化、娱乐、文艺、考古学或者一些跨领域、深度的工作是机器所不能替代的。特别是服务者,在未来是非常有价值的。所以,我们这些图书馆的服务者,在看到自己的危机感的同时,更重要的是提升自身的服务质量。

参考文献

[1] 王玫.大数据在图书馆的应用研究[J].管理纵横,2016(10):49-50.

[2] 徐寅哲.大数据在图书馆管理与服务中的应用[J].科技资讯,2017,15(31):254-256.

[3] 陈国兰.如何利用大数据构建图书馆新型知识服务体系[J].现代情报,2014,34(9):149-157.

猜你喜欢
大数据技术图书馆大数据
图书馆
大数据技术在电气工程中的应用探讨
大数据技术在商业银行中的应用分析
基于大数据背景下的智慧城市建设研究
去图书馆