严浪
(肇庆学院图书馆,广东 肇庆 526061)
大数据在图书馆的应用与对策
严浪
(肇庆学院图书馆,广东 肇庆 526061)
大数据可以提高图书馆的智能化水平,为用户提供个性化服务,为科研和资源建设提供帮助,同时又存在不可预知的事件、用户隐私难以保护、数据所有权容易丧失、结果缺乏因果关系等局限,为此提出要坚持资源为王的理念、保护用户隐私、构建社会各领域参与的数据联盟、坚持定性和定量相结合的原则、树立做大数据应用的后进者思想等对策。
大数据 图书馆 局限 对策
近段时间以来,“大数据”成为继云计算后最火的词语。大数据具有大价值,这似乎是每个人都认同的观点,但人们往往总是关注事物好的一面,认为大数据完美无缺,忽视大数据的局限性。不可否认,大数据能够给很多企业、事业单位带来不可估量的经济价值和利益,直接影响他们的未来走向。但是如果人们看不到大数据的劣势,对它魔幻化,这是不客观的,也不利于大数据的发展。其实大数据是一把双刃剑,在给企业、事业单位等带来无往不利的前进动力的同时,往往也会对其造成伤害。因此,辩证地看待大数据的优劣,有着重要的现实意义[1]。笔者基于图书馆应用的角度来探讨其前景和局限,树立人们正确的优劣观,并探讨大数据在图书馆应用的对策。
目前对大数据还没有统一的定义,研究机构cartner认为大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集[2]。虽然大数据还没有统一的定义,但目前通常认为有下述4大特征,称为“四V”特征:①量大(Volume Big);②多样化(Variable Type);③快速化(Velocity Fast);④价值高和密度低(Value High and Low Density)[3]。
2.1 提高图书馆的智能化水平
顺应时代发展趋势,提供智能化服务以更好地满足用户需求是图书馆必须考虑的重要问题。在大数据时代,要求图书馆必须采用更好的软硬件和更好的技术以便自动收集处理高级和复杂的数据,这样一方面能在一定程度上节省人力物力,另一方面也能解决人力无法实现的工作需求,如对海量信息数据的关键词抽取、智能抓取等,从而提高图书馆自身的智能化水平;随着图书馆服务智能化程度的提高,智能化决策所需的视频、图片、文本等信息及生活数据、社交信息等大量的非结构化、半结构化数据都容易取得,从而有利于提高智能化决策水平;智能化水平的提高,可对用户数据资料进行智能分析,快捷地得到精准的调查内容,并为用户提供各种智能服务;同时图书馆服务智能化程度有利于智能发现和挖掘知识,把隐性知识转变为显性知识[4],提高图书馆知识服务水平。这种智能化的工作方式提高了图书馆的管理效率和服务效益。
2.2 更好地为用户提供个性化服务
图书馆个性化服务是在数字环境下利用各种技术分析用户偏好、使用习惯和背景的基础上为用户提供的差异性服务。用户的需求是图书馆发展的动力和源泉,不论是科技图书馆还是公共图书馆和高校图书馆,都应该为用户提供个性化服务以提高图书馆的服务水平。图书馆为了更方便、更有针对性地提供个性化服务,应当先了解用户的个性化需求[5]。但是如何精准地把握用户具体的个性需求却不容易,现在有了大数据,可以根据用户数据精准析出有用信息,建立用户模型,预测用户偏好、需求和习惯,为用户提供个性化服务。
2.3 为科研用户把握研究热点以及研究动向提供帮助
科研部门和科研工作者的科研选题、立项、决策都离不开本学科研究热点和研究动向,图书馆可以利用大数据通过建立基于时间轴的趋势分析和以学者为中心的知识关联网络等为他们提供最新的科研走向及相关研究领域其他科研人员的研究进展。通过这种大数据的分析,有利于科研部门与科研工作者掌握和了解本学科的发展趋势,从而提升图书馆在科研领域中的作用[6]。如清华大学图书馆利用分析数据集合海量文献特点,获取清华大学目标学者及合作者的学术出版物、期刊会议等信息,应用开放链接技术准确定位清华学者学术出版物的全文,采用可视化视图的方式直观展示学者的学术历程,以及以学者为中心的科研网络,为用户了解该学科的发展脉络、预测未来的发展方向提供帮助,得到用户的良好反馈[7]。
2.4 为资源建设及评价提供意见
文献资源建设是图书馆依据用户的文献情报需求,有计划地选择、收集、组织、管理文献资源,从而建立满足用户需求的藏书体系的全过程,它是图书馆的重要组成部分。文献资源建设目标的确定取决于需求的性质,数量是否合理,以及文献资源建设的可能条件。文献资源建设中无论对现有文献资源状况的调查、分析和研究,还是定期进行文献资源建设评估活动都需要对馆藏状况和使用状况进行定量分析[8],以前这是比较棘手的工作,现在通过大数据分析可以简单有效地评估用户对各种资源的使用情况,并且通过对用户平日访问历史数据的收集,可以预测用户关注的热点,这为有效评估图书馆已有文献的质量以及用户对未购买文献的需求提供了支持[6]。
3.1 不可预测不可预知的事件
大数据的核心功能之一就是预测。但它只能基于过去的数据来预测将来,当过去不可掌握时,它便无计可施,大数据没法预测不可预知的事情,或者是毫无先兆的事情。即便是过去看似可以掌握,以大数据为标尺的预测决策也不一定准确。大数据从来都不可能是“原始”的,数据总是依照人的倾向和价值观念而被构建出来的。这让数据的生产往往也掩盖了价值观念。人们所见的大数据分析结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。从这个意义上讲,大数据也不能成为人们决策的精准标尺。真正的“黑天鹅”隐藏于无形之中,是很难被发现的[9]。
3.2 用户隐私难以保护
隐私权是指自然人享有的私人生活安宁与私人信息秘密依法受到保护,不被他人非法侵扰、知悉、收集、利用和公开的一种人格权[10]。而图书馆利用大数据必定要分析用户,分析用户过程中会收集、分析、传输个人用户的身份特征、消费习惯等个人隐私,这对于个人用户来说是很难接受的事情。图书馆在传输这些个人用户数据时可能会遇到麻烦,如很有可能有人对这些个人用户数据进行了监控等操作,这就加大了其泄露的可能性,数据一旦泄露,很可能为个人带来难以挽回的损失,而个人却又不知道自己的数据是如何泄露出去的,这使个人用户的隐私权受到挑战。
3.3 数据所有权容易丧失
大数据时代图书馆无法自主研发数据分析工具,主要由专业的系统商和数据商来承担开发,他们拥有更多的专业人员、资金等,图书馆购买系统商和数据商软硬件时容易被他们绑定。系统商和数据商为了取得商业利润,在推出解决大数据方案时常提供兼容性不强的软件、硬件设备,使得图书馆很难去改变一个提供商,尤其是在软件方面,很容易被一个系统商和数据商绑定[11]。这样图书馆本身的大数据就被数据提供商拥有,图书馆蜕变为大数据使用者,随着数据的迅速增长,图书馆作为数据所有者的社会地位日渐式微,作为数据使用者的社会地位日趋高涨。数据被系统商和数据商占领,最后图书馆的发展不再完全由图书馆人主导,更多是由系统商和数据商驱动[12]。
3.4 大数据的结果缺乏因果关系
世界上一切事物都是普遍联系的,整个世界就是一个有机的整体。任何现象都会引起其他现象的产生,任何现象的产生都是由其他现象所引起的,图书馆学也是一个有机的整体,是一门综合性的学科。图书馆学研究中运用的方法是在哲学基础之上的各种科学方法交叉应用和有机结合[13]。而大数据的研究方法只能统计某件事情发生的频率和相关性,不能得出因果关系[14]。因此大数据只能解决阶段性问题,而对于图书馆规划战略等问题束手无策,甚至随着这些没有实际意义的相关关系数据的增多,由此得出的结果可能将人引入歧途。
4.1 坚持资源为王的理念
随着大数据技术在图书馆的应用,有人认为它无所不能,甚至将其功能扩大化,这是在淆乱图书馆的使命,模糊图书馆的价值。大数据是一种技术,无论什么时候,拥有资源都比获取资源更重要,这是图书馆赖以存在和发展的根基。任何幻想以获取资源取代拥有资源的企图,都将使图书馆走上一条不归之路[12]。图书馆的生命力在于资源,特色资源建设能够显现一所图书馆的学术地位,特别是对于高校图书馆来说,学科建设的发展很重要,学校拥有了这些资源也就拥有了学科的制高点[15]。技术在变化,但是图书馆收集、整理、保存和利用人类文化遗产的职能不会改变,因为这是社会赋予图书馆的天职和神圣使命。
4.2 保护用户隐私
图书馆要在业务中应用大数据,不可避免地会侵犯用户个人信息、行为记录等个人隐私权,而用户又不想隐私权丧失,因此如何避免保护过度而影响图书馆业务的开展,如何在开发个人信息的同时加强用户隐私保护就成为一个重要的问题。笔者认为可以从以下几个方面着手:保障用户知情权,图书馆在使用用户的个人相关信息时一定要征得用户的同意,并且使用目的发生变化时要告知用户;加强法制建设,通过立法保护个人隐私;加强政府对个人隐私保护的行政监管;加强对个人隐私权的技术保护,技术手段是法律措施的重要补充,要鼓励隐私技术的研发和创新[16]。
4.3 构建社会各领域参与的数据联盟
图书馆利用大数据技术必须更新软硬件设备,需要投入不少的资金,而图书馆的资金有限,应把资金主要用于购买文献资源上,因此为了节省财力物力,可以走联盟发展的道路,建立数据联盟,共同购买软硬件,这样既便于联盟内单位开展如通借通还和联合目录查询等业务,又可开发大数据分析所需的软件,避免被系统商和数据提供商绑定。在大数据时代,要不断提升图书馆的核心价值,就必须加强馆际联盟、跨领域合作与国际合作,同时还应建立包括学术研究者、出版界、基金等社会各相关领域的数据联盟[17]。
4.4 坚持定性和定量相结合的原则
大数据只能统计某件事情发生的频率和相关性[14],是对现象的数量关系、数量特征与数量变化的分析,只能揭示和描述图书馆用户、资源建设、学科研究发展趋势,是定量分析。而图书馆学作为一门科学,是研究图书馆的发生发展、组织管理以及图书馆工作规律的科学,其目的是总结图书馆工作和图书馆事业的实践经验,建立科学的图书馆学理论体系,以推动图书馆事业的发展,提高图书馆在人类社会进步中的地位和作用。所以研究图书馆学必须运用归纳和演绎、分析与综合以及抽象与概括等定性的研究方法,对获得的各种材料进行思维加工,从而能去粗取精、去伪存真、由此及彼、由表及里,认识事物本质、揭示内在规律。总之研究图书馆学不但需要定量分析而且还需要定性分析,二者结合起来灵活运用才能取得最佳效果[18]。
4.5 树立做大数据应用的后进者思想
图书馆应该做大数据应用的后进者,所谓后进者,不是落后者,而是绝不冒进,绝不充当大数据产品的试验者[12]。大数据在图书馆的应用可以提高服务质量和管理效率,但投资大数据分析所需的3种技术工具(软件数据库设备、硬件数据库设备和分布式数据库设备)需要不少的经费,这是作为公益性机构的图书馆所不具备的;并且多数的大数据项目都以失败而告终[19]。如果试验失败,将造成不可估量的损失。图书馆可以在其他行业取得成功应用后再进行使用,做成功经验的践行者。目前大数据在医疗、能源、交通和金融等行业的应用较为普遍,积累了很多经验,如对隐私等方面的处理,图书馆可以向这些行业学习,避免走弯路。
随着大数据在图书馆应用实践的推广可能还会出现更多的不足,图书馆要不断地总结并提出改进策略,以便更好地为用户提供服务,同时也为其他行业应用大数据提供参考。
[1]隐私权受威胁 大数据到底有哪些弊端?[EB/OL]. [2013-12-24].http://tech.hexun.com/2012-12-26/149514 539.html.
[2]大数据概念[EB/OL].[2013-12-24].http://bbs.pinggu.org/ bigdata.
[3]陈如明.大数据时代的挑战、价值与应对策略[J].移动通信,2012(17):14-15.
[4]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[5]杨涛,曹树金.图书馆用户的个性化服务需求实证研究[J].大学图书馆学报,2011(2):76-85.
[6]姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013(4):52-54.
[7]邓景康.大数据环境下清华大学图书馆的实践[N].中国新闻出版报,2013-08-29(005).
[8]文献资源建设.百度百科[EB/OL].[2013-12-24].http:// baike.baidu.com/link?url=USsM53fyp9UTJgmMMAeQnGHk0ENW3K8JDj9T__s7Axx0U1eWb7bIAP7an_sN_h4K.
[9]万能的大数据 技术不是最精准的决策标尺[EB/OL]. [2013-12-24].http://mobile.163.com/13/1213/16/9G056EA R001166V8.html.
[10]隐私权.百度百科[EB/OL].[2013-12-24].http://baike.baidu.com/link?url=CJLedbgwNt2ZzqT-73aX0x7iY2Li5F6vj OGMPTIkrJ-iZzhK79SNOyjOePvwAey.
[11]给大数据泼点凉水 辩证看待大数据[EB/OL].[2013-12-24].http://www.d1net.com/cloud/news/201595.html.
[12]程焕文.知识因发现而更加美丽[EB/OL].[2013-12-24]. http://blog.sina.com.cn/s/blog_4978019f0102e2if.html.
[13]因果关系[EB/OL].[2013-12-24].http://baike.baidu.com/ link?url=rQIC3rj1akLk-F1_eRSUkp7uUwLn843Gt4Dv2-_iqdtHJoV1lPjIm59KTW7tQM09.
[14]卢朵宝.美国学者质疑“大数据”[N].理论经济参考报,2013-06-14(08).
[15]苗松,等.我国移动图书馆热的冷思考[J].图书馆建设,2013(4):13-16.
[16]大数据时代网民隐私如何保护[EB/OL].[2013-12-24]. http://www.cnii.com.cn/wlkb/rmydb/content/2013-03/11/c ontent_1106579.html.
[17]王玉梅.学术型图书馆如何适应大数据[EB/OL].[2013-12-24].http://data.chinaxwcb.com/epaper2013/epaper/d56 08/d5b/201308/36674.html.
[18]图书馆学[EB/OL].[2013-12-24].http://baike.baidu.com/ link?url=D0wfPPF11KqdPiCcE2hib_rvLhQJC7oDUBV75 q1iHKmAPnpI3Rz-7vuJxN7TjvTB.
[19]为何多数的大数据项目以失败告终?[EB/OL].[2013-12-24].http://www.thebigdata.cn/JiShuBoKe/7534.html.
严 浪男,1972年生。本科学历,副研究馆员。研究方向:信息服务与评价。
G250
2014-01-29;责编:王天泥。)