大数据背景下图书馆知识咨询服务策略

2014-02-12 06:56马娜梅
图书馆研究 2014年4期
关键词:咨询服务结构化图书馆

马娜梅

(首都图书馆,北京 100021)

1 何谓大数据

随着物联网、移动互联网、智能便携终端和云计算技术的发展,数据正以前所未有的速度不断增长和累积,人类社会进入了大数据时代。关于大数据的概念,目前还没有明确的一致的看法,大数据的基本概念、关键技术以及对其的利用上均存在很多的疑问和争议。维基百科将大数据称为巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息[1]。钟瑛、张恒山认为,大数据,一方面反映的是规模大到无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合;另一方面主要是指海量数据的获取、存储、管理、分析、挖掘与运用的全新技术体系。这一定义指出了大数据不仅包括大量化、多样化具有可追踪、可分析、可量化特性的数据,而且包括大数据技术及其应用,即从各种各样类型的数据中,快速获得有价值信息的能力[2]。大数据研究机构Gartner认为:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[3]。综合以上各种观点,笔者认为,大数据的概念内涵包括大数据本身的含义和大数据技术两部分。大数据中的数据量大,是结构化数据、半结构化数据与非结构化数据的总和,具有规模大 (Volume)、数据种类多 (Variety)、数据要求处理速度快 (Velocity)、数据价值密度低(Value)四V特性。大数据主要来源于服务器生成的数据(如各类日志文件)、网站用户创造的信息、各类数字设备产生的数据(如各类传感器、物联网设备、智能手机等)。世界各个角落的电脑、传感器、移动设备、在线交易和社交网络每时每刻产生大量数据。根据互联网数据中心 (IDC)的监测,2011年全球数据量达到 1.8 ZB,预计到 2020年,全球将总共拥有35 ZB的数据量。大数据的数据类型多样,以非结构化数据为主。非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10倍到50倍。要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。大数据对数据实时处理有着极高的要求,需要实时反馈结果,捕捉、分析、处理每一个瞬时出现的数据。大数据的价值虽然巨大,但价值密度却很低,有效的信息相对于数据整体是偏少的。大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术,具体包括数据采集技术、数据存取技术、数据处理技术、统计分析技术、数据挖掘技术、模型预测技术等。解决大数据问题的核心是大数据技术。大数据的应用,可提升政府的提升服务能力和运作效率,有助于“智慧城市”的打造,帮助商家开展针对性的营销活动,以抢占商品销售市场份额,争取更多客户的关注。

2 大数据给图书馆知识咨询服务带来的机遇

知识咨询强调嵌入用户的管理决策、教学科研、科技开发的全过程,提供以智力、知识、专业、工具的应用为特征的深度知识服务。图书馆知识咨询是图书馆针对用户工作、学习与生活中的信息与知识需求所提供的一种专业化知识服务。大数据时代的到来,意味着我们进入到了一个以密集型数据的相关挖掘、分析、处理来推动社会创新发展的时代。图书馆在大数据时代已具有大数据特征,图书馆数据种类繁多,信息资源总量日益庞大,用户规模尤其是网络用户规模逐步扩大,利用大数据开展知识咨询服务,必将推动图书馆知识咨询服务水平和层次的提高。

2.1 为图书馆知识咨询服务带来了更加多态的数据资源

知识咨询是在对相关知识信息进行提炼、总结的基础上,为用户提供专业性强的系统化知识服务,需要大量知识信息做支撑。在大数据背景下,非结构化数据、半结构化数据大量激增,夯实了图书馆知识咨询服务的资源基础。从图书馆角度分析,除了可利用的纸质出版物外,各种学术研究机构的结构化数据库以及学术研究类网站资源、个人博客(微博)中的文本、图片、XML、HTML、各类报表、图像和音频/视频信息等半结构化、非结构化数据,是图书馆知识咨询重要的参考情报源。据美国互联网研究机构Netcraft发布的最新调查结果显示,截至2012年3月份,全世界活跃网站数量已超过6.44亿个[4]。这些网络蕴藏着众多的、动态的、有价值的数据资源,且数据量逐年增加,对这些数据资源进行存储、分析与利用,丰富了图书馆知识咨询服务的参考源。

2.2 为图书馆知识咨询服务提供了更为先进的数据分析技术

及时准确地从海量数据中提取信息和知识,面向社会开展知识咨询服务,这就需要对海量数据进行处理和分析。现有的数据仓库、数据挖掘技术等只能对结构化数据进行处理,并不能挖掘更深、更多的隐含信息,进而得到更能揭示事物发展本质以及发展规律的知识。大数据技术的出现,为有效处理非结构化数据提供了技术保证。通过高速捕捉、发现和分析,从大容量、多类型的数据中获取价值的大数据技术架构将为数据分析业务带来更多的变化与支撑,如目前广泛关注和应用的分布式系统基础架构 Hadoop、非关系型数据库技术NoSQL等大数据技术。

2.3 为图书馆知识咨询服务带来了新的服务流程

传统图书馆知识咨询业务流程是:问题接收—提问解析和分派—咨询馆员作出答案—答案发送—跟踪,是一种逆向思维模式。在大数据背景下,图书馆知识咨询流程是:收集数据—量化分析—找出相互关系—提出优化方案,使用户的问题解决方案从成功跃至卓越,是一种正向思维模式。知识生产方式和传播方式发生了变革。这种解决问题思维方式将为图书馆的知识咨询服务带来发展机遇,改变了图书馆被动接受咨询者咨询的做法,从数据分析入手,得出用户知识需求特征,从而主动提供知识服务。

3 大数据时代图书馆知识服务策略

3.1 知识资源的挖掘与组织

图书馆知识咨询服务是一种基于一切信息资源(包括馆藏物理资源和网络虚拟资源),以用户需求为目的、面向知识内容的、融人用户决策过程并帮助用户找到或形成问题解决方案的知识增值服务。对现有知识资源进行收集、整理、组织,是成功开展知识咨询服务的关键。目前,各个图书馆都引进了数量不等的商业数据库和自建了一些特色数据库,如首都图书馆引进CNKI学术资源总库和ABI/INFORM商业和经济管理期刊数据库、牛津在线学术专著数据库、Emerald管理学期刊数据库和自建“首图讲坛资源库”等。这些数据库在图书馆知识咨询服务中发挥了积极的作用。但在大数据时代,完全依靠现有的数据库作为知识咨询服务的信息源,难以为用户提供最新的知识信息。在大数据背景下,海量化的大数据中存在着各种学科的最新知识及研究动态,是咨询用户急需了解和掌握的知识。因此,图书馆要挖掘与组织各学科的大数据,建立知识存储系统,为用户提供新颖的、前瞻性的学科知识,帮助用户解决各种问题。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,利用分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等数据挖掘方法,能处理结构化数据,如商业型 Oracle、Sql Server、开源型MySql等,均具备了强大的结构化数据管理功能、数据仓库功能,但针对复杂的结构化和非结构化数据处理需求,Sql语言表达能力就暴露出了一定局限性。需要把数据从数据库中读取出来,借助于统计分析软件进行大数据深度分析和决策,导致大量数据的移动。随着Hadoop开源框架及其相关技术的逐步完善,采用Hadoop分布式文件系统的可靠大数据存储服务及基于MapReduce编程模型的高性能并行大数据处理服务,能够提供对结构化和复杂数据、非结构数据的快速、可靠分析变为现实,让图书馆更容易地分析和研究复杂数据[5]。图书馆在挖掘学科大数据的基础上,可建立知识存储系统。鉴于图书馆人力和技术应用的局限性,笔者建议可通过与软件开发商合作,建立基于云计算的知识存储系统。

3.2 用户数据的分析

根据用户需求偏好,提供个性化知识服务,是大数据背景下图书馆知识咨询服务的初衷。收集和分析用户正确的数据、切实理解用户体验及用户行为已成为图书馆的当务之急。用户利用图书馆所产生的借阅信息、查询信息以及用户网络信息行为等,是图书馆分析用户需求偏好、了解用户需求特征的可靠信息源。云计算、物联网、社交化媒体、GIS提供了丰富的数据来源。数据中包括每个用户的身份、地点、时间、喜好、厌恶、社会关系等大量的信息。对用户个人信息、浏览信息、借阅方式、行为爱好、搜索历史、搜索时间等信息以及社交网络产生大量的与用户有关的非结构化数据进行分析处理,可发现用户的个性化知识需求。在大数据时代,图书馆尤其要收集用户在网站上发生的所有行为,如搜索、浏览、打分、点评、参与讨论、社交媒体上的交流、与好友互动等行为,这些行为深度地反映出用户的知识需求心理和倾向。由于大数据的特殊性,大数据分析技术还处于发展阶段,目前可利用可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量和数据管理等技术对用户数据进行分析。国外的数据分析市场相对比较成熟。美国有近万家专门从事数据分析的服务公司,英国有三千多家,日本有一千多家,瑞典也有五百多家有影响的数据分析服务公司[6]。印度班加罗尔已有超过100家以数据分析为主要业务的新型数据公司,如 Analytic Edge、Zinnov以及自称是全球最大的专业性数据分析公司的 Mu Sigma[7]。这些数据公司重点开展大数据分析业务,为企业分析产品流向信息及客户需求信息,从而使企业开发出客户所需的产品和构建新的营销战略,促进企业的发展。我国数据分析行业经过10年的快速发展,目前已经形成遍布全国的专业数据分析机构。一些企事业单位开始接触数据分析行业,了解了数据分析的价值,并加入到数据分析应用行列中来,通过数据分析使各种难题得到了解决。数据分析包括数据的采集、存储、处理、分析、呈现及应用,每一个环节都涉及专业知识的应用,图书馆单独进行数据分析,其成本非常高。图书馆可与国内外数据分析公司合作,开展用户数据分析业务,既可减少数据分析方面的投入成本,又能把握用户知识需求方向,实现双赢。

3.3 知识咨询服务形式的多样化

一是提供准确的知识推送服务。知识推送服务是指图书馆根据拥有的需求,主动将其所需要的知识内容推送到用户访问网页、电脑终端、移动设备等。在大数据环境下,因为有了准确的用户需求信息和兴趣爱好、兴趣变化曲线、用户需求预测信息,从而为图书馆的资源采集、资源更新提供依据,最终将用户最需的知识利用最快捷的手段推送到用户的使用终端上。如利用My Library进行推送,My Library是一种基于Web数据库平台的图书馆个性化信息服务系统。图书馆可建立学科知识库,挂接在图书馆的网站上,用户从图书馆网站上所提供的全部数字资源里,选择自己需要的信息组织在My Library中,之后访问My Library,用户将获取与此相关的具体内容。

二是细粒度个性化服务。目前,图书馆主要依靠读者调查问卷、读者基本信息、读者的研究领域、读者检索集等方式来对个人定制服务策略,无法满足读者更细粒度的个性化需求。在大数据背景下,图书馆将利用大数据技术,参考目前盛行的大数据环境下的”猿题库”模式,捕捉用户的动态操作行为,自动监控用户行为的变化情况进行分析,自动调用不同层次、类别的数据智能式推送给用户。同时,咨询馆员可以将符合大数据特征的咨询课题融入大数据系统,系统将根据咨询主题,利用数据分析技术、可视化技术,瞬时以图形展示查询结果,从而缩短了咨询馆员获取资源的时间,扩大了咨询馆员对资源的获取面,最大限度的满足用户需求,提高了参考咨询的效率。

4 大数据背景下图书馆知识咨询服务需正确处理的几个问题

4.1 成本问题

图书馆利用大数据开展知识咨询服务,需要投入较大比例的资金。数据采集、数据分析、数据预测等需要强大的软硬件的支撑。无论是公共图书馆还是高校图书馆,经费紧张问题始终存在。因此,在利用大数据时,需要综合考虑技术成本,最好采取业务外包的方式,对重点用户进行分析,提供知识咨询服务。如利用云计算技术,为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,以解决基础设施投入不足的问题

4.2 隐私问题

因对用户的各种信息进行分析,涉及用户的一些隐私。如何有效保护用户隐私权,已成为加强图书馆与用户之间信任感和用户群忠诚度的重要保障。图书馆如果利用大数据技术开展知识咨询服务,泄露用户大量的隐私信息,这不仅使用户远离了图书馆,而且还面临侵犯隐私权而被起诉的困境。因此,图书馆在有效采集、整合、分析与挖掘用户数据的同时,需加强用户数据的安全管理与保密工作,加强数据的安全管理和监控,避免对用户信息无限制的采集和使用。图书馆在用户隐私数据采集和使用中,应保证用户具有知情权和控制权,对图书馆存储的用户隐私数据拥有管理、利用、修改、分发和删除的决定权。利用云计算技术保护用户个人隐私,与具有较高安全保障能力和技术水平的云服务商签署云服务协议,明确双方在用户隐私数据管理、使用过程中的权利、义务与责任。

4.3 人才问题

《中国大数据技术与服务市场2012-2016年预测与分析》[8]认为:“大数据专业人才,特别是数据分析专家这类复合型人才的稀缺将会影响该市场的发展。”在大数据时代,图书馆知识咨询馆员既要掌握信息检索、信息分析、信息组织及相关平台与工具使用等知识,还要掌握大数据环境下的数据挖掘、数据组织等大数据技术,但目前这方面的人才十分奇缺。IT行业与大型互联网公司早已意识到了大数据人才紧缺的问题,都在积极建立专门的大数据科学团队。图书馆可以采取与专业的数据处理公司合作,通过合作培养方式,建立图书馆大数据服务人才队伍。另外,也可从国内外高校中引进大数据人才。清华大学于2014年秋季招收首批大数据硕士,并且还与山东省青岛市合作成立“清华—青岛数据科学研究院”,以开展大数据科学研究,培养具备大数据思维和创新能力的复合型人才,推出具备自主知识产权的大数据分析开源软件和服务[9]。

[1]大数据[EB/OL].[2014-04-15].http://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A.

[2]钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播(中国传媒大学学报),2013(7):104-109.

[3]姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013(4):52-54.

[4]今年3月全球活跃网站数量达6.44亿个[EB/OL].[2014-04-23].http://www.sootoo.com/content/252016.shtml.

[5]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志.2012(11):63-68.

[6]浅析数据分析行业未来发展趋势[EB/OL].[2014-04-25].http://www.data-analyse.com/data-news/2014032963.html

[7]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.

[8]IDC《中国大数据技术与服务市场2012-2016年预测与分析》发布 [EB/OL].[2014-04-25].http://www.5lian.cn/html/2012/xueshu_1129/35805.html.

[9]清华大学今秋招收首批大数据硕士 [EB/OL].[2014-04-28].http://news.xinhuanet.com/yzyd/local/20140427/c_1110 427377.htm.

猜你喜欢
咨询服务结构化图书馆
环保咨询服务与经济的融合发展研究
浅析建设工程全过程造价咨询服务
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
图书馆
为“一带一路”建设做好咨询服务
去图书馆
积极为构建“多点多极”战略提供咨询服务