田 宁
(天津农学院,300384)
近年来,IT技术和网络的快速发展及广泛应用产生了海量的数据和复杂的数据形态,这标志着大数据时代的来临。目前还没有关于大数据的标准概念。本人总结了一些专家学者的意见[1][2][3][4],认为大数据应该从以下几方面阐述其内涵:第一,数据规模庞大。大数据从数量上说是极其庞大、超大规模、海量的数据。市场研究机构IDC研究显示:全球电子数据的存储量会从2011年的180万PB上升至2020年的35ZB[5]。第二,数据形态的复杂性。大数据的数据不仅包括传统数据库等形式的结构化数据,还包括图片、视频、动画、音乐和网络日志、读者位置信息、数据链接信息等半结构化和非结构化的数据。据统计,前几年结构化数据增长率约为32%,非结构化数据增长率是63%。到2012年,非结构化数据占有比例已达到互联网整个数据量的75%以上[6]。第三,数据处理复杂。大数据形态的复杂性和结构内容异构性的数据结构是不固定和不规则的,这导致传统的存储和计算方式已经很难对数据进行统一描述和处理。第四,数据更新速度迅猛。人们每天一睁眼就会有铺天盖地的信息迎面而来,这些数据持续不断地呈指数级别迅猛增长,要求人们迅速分析这些数据。第五,数据处理的高速性。数据更新的迅猛性要求数据分析人员需要对数据进行高速的收集分析和处理,否则这些数据很快就会过时。目前,大数据的研究已经成为世界的热点,世界各国都对其研究予以高度重视,一些西方国家甚至推出了国家战略层面的研究计划。大数据标志着人类社会从信息时代迈向智能化时代。大数据对图书馆服务提出了更高的要求,图书馆面临新的机遇和挑战。
大数据时代,高校图书馆核心用户对信息质量和信息时效性的要求不断提高,这对图书馆核心用户服务提出了更新更高的要求。图书馆需要以核心用户的个性化需求为中心作出相应的服务策略的调整。
虽然高校图书馆的服务用户包括范围较广,但是高校发展的要求和目标决定了图书馆的服务用户主要集中在教学和科研两个方面。据统计,占用户数量20%的教学和科研用户群对图书馆的信息需求占整个用户信息需求量的80%,因此,教学和科研用户群成为高校图书馆的核心用户。高校图书馆核心用户是高校图书馆信息服务的重点服务对象,一般是指具有较高信息素养和较好知识结构的教师和科研人员,他们在本校教学和科研中起到至关重要的作用,具有较强的辐射力和影响力,主要包括重点学科的骨干教师(即学科带头人)、学术声望显著的专家学者、主持重点科研课题的科研人员及部分优秀的硕博研究生等。由于他们自身的信息活动更具专业性和学术性,核心用户的信息需求较一般用户而言更具深度和广度,他们的教学和科研活动都迫切需要他们不断地获取新的前沿信息和知识。
大数据环境下,核心用户面临以下几个问题:(一)高价值信息发现困难。大数据的特点就是数据规模庞大且更新速度迅猛,要想从规模庞大且急速增长的信息中发现对核心用户有价值的、深层次的专业性信息和知识是比较困难的。这就是大数据数据体量巨大和价值密度低之间的矛盾。图书馆存储能力的增长落后于大数据数量的增长,导致核心用户收集高价值信息困难。(二)海量数据清洗难度大。图书馆采集大数据渠道的多样化导致采集到的数据会有较大差异,如果对海量的大数据直接使用,则数据处理分析的难度可想而知,因此需要对超大量的数据进行清洗。在清洗过程中,需要设置过滤标准,对采集到的大数据进行过滤、删减、合并整理、一致化来进行数据清洗,减少数据冗余。并对清洗后的数据进行评估以调整过滤标准,否则容易导致过滤掉有用价值,或者达不到数据清洗要求。随着核心用户、个性户服务不断深入,大数据的结构复杂度不断增加,更加深了数据清洗的难度。(三)用户数据安全难以保证。传统的图书馆数据管理是以结构化数据为主的管理,大数据时代产生的海量的半结构化和非结构化数据导致数据的复杂度和存储难度大幅度增加,成为传统数据管理的软肋。现今图书馆大部分采用集中式存储数据管理模式和传统的安全管理工具,已经不能完全满足大数据时代图书馆海量信息高效存储的需求,容易导致网络安全和系统漏洞,这样很容易被黑客攻击,导致核心用户敏感数据的泄露,不能保证大数据平台和用户服务的安全性。大数据时代,图书馆主要通过对核心用户使用过的数据进行采集分析来获得核心用户的信息需求。这些数据面临着被泄露和滥用的威胁,同时,分析这些数据可以获得核心用户的个人隐私信息。大数据时代的移动阅读在方便核心用户随时阅读的同时,也泄露了核心用户的个人信息、地理位置和阅读终端等重要隐私。
用户信息需求是开展用户服务的基础,高校图书馆应该随时了解把握其核心用户的信息需求。大数据环境下,用户的信息行为不仅仅限于图书馆内各类信息管理系统,而且用户还经常访问图书馆外的其他信息机构。图书馆通过馆内各管理系统和学校网关用户使用日志文件将散落在不同地方的用户信息行为数据(包括系统管理与服务数据、用户阅读行为数据、用户阅读模式、用户阅读位置、用户阅读过程等)进行收集,建立图书馆用户大数据。图书馆在对搜集到的用户大数据进行分析处理的同时,联合图书馆提供的核心用户判定标准,判断出哪些信息行为的用户为核心用户,录入核心用户信息数据库。通过对核心用户大数据的迅速挖掘整理分析得出核心用户信息需求,以此为基础,为核心用户提供满意的个性化信息服务(见图1)。以大数据为基础的核心用户信息行为分析,不仅需要关注核心用户信息行为本身,还需要关注核心用户的整体信息行为。研究核心用户需求特点,建立核心用户资源需求分析模型,掌握核心用户需求规律,从而可以真实地挖掘出核心用户不断变化的信息需求。
图1 高校图书馆核心用户信息分析流程
大数据为图书馆核心用户服务带来了新的挑战,也提供了新的机遇。我们从大数据的采集、整理、分析、决策等几方面入手,制定大数据时代高校图书馆核心用户服务策略。
图书馆利用大数据技术整合所有馆内外资源和图书馆技术工具,构建一个集成的动态的一站式检索服务平台,对图书馆核心用户的信息需求进行调查研究、分析预测,制定出相应的服务策略并对核心用户的反馈意见和评价进行分析整理,再返回去调整核心用户信息需求,这是一个循环闭合的过程。此平台需要屏蔽异构数据间的差异,联系各网络节点上的孤立的数据,提供一个统一的一站式的透明的访问界面,并对大数据进行统一管理。此服务平台分为四个层次:资源层是指搜集用户大数据涉及的各信息层面,是服务平台的基础,它包括用户使用图书馆管理系统、重点学科数据库、核心用户知识成果库、电子期刊、电子图书数据库等各类数据库产生的痕迹数据和各数据库的知识,用户通过学校网关访问图书馆外的网络所产生的数据和核心用户通过使用移动设备所产生的数据;技术层是指大数据所涉及的各种技术,包括云计算技术、可视化分析、数据挖掘、知识发现、人工智能、预测分析、语义引擎、分布式缓存和各种NOSQL分布式存储方案,以及机器学习、模式识别、聚类分析、移动定位、无线射频识别等。根据核心用户提交的检索请求和数据选择原则,利用数据挖掘、预测分析、分布式存储等技术可以对信息进行大数据的采集、整理、分析、挖掘、输出知识等行为,并对异构数据进行集成化管理,其中包括关联数据、激活休眠数据、挖掘高价值数据等;管理层包括对核心用户的判定、管理、核心用户数据安全的维护以及对各种数据库的管理和维护,采取的是关系型数据库RDBMS和非关系型数据库NOSQL并存的形式;服务层是图书馆对核心用户提供服务的界面,它以可视化、全功能、一站式检索的方式为用户提供各种服务,是用户与图书馆相互交流的窗口。要求其操作界面简单明了,检索查询等操作简单易用,可实现核心用户与图书馆之间的智能交互。它整合了大数据下所有的数据资源,将这些资源聚合在一个检索框架内,真正实现大数据下的检索、浏览、维护、帮助、反馈等为一体的一站式检索平台,并能以可视化的图形形式呈现给核心用户。
图2 高校图书馆核心用户一站式检索服务平台
图书馆将以各种途径,如问卷调查、网关用户行为日志记录、移动服务终端、读者阅读行为监控等收集到的核心用户信息都集中存储于核心用户信息数据库,包括用户阅读爱好、访问习惯、用户注册信息、用户评判标准、核心用户知识成果等信息,利用数据挖掘、知识发现、预测分析等技术对核心用户信息行为、用户个性、使用习惯、用户特征和阅读行为、用户社会关系等进行分析,挖掘核心用户变化的信息需求,构建动态的核心用户信息数据库,以此为基础对大数据资源进行搜集分析整理。
大数据时代用户的各种数据信息随时都在图书馆的采集和监控之下,为了提高用户服务的安全性和用户数据使用的满意度,核心用户信息库还需兼顾用户数据安全性、用户隐私保密。提高用户隐私数据的使用透明度,允许用户查看和删除与自身密切相关的隐私数据,并享有知情权和决定是否被采集、存储这些数据的权利。同时,图书馆应该保证对用户隐私数据的采集符合相关法律,并严禁采集与用户个性化服务无关的数据,严禁随意泄露用户隐私数据。最后,图书馆应该采取一些措施,例如基于PKI技术的隐私加密、数据分片、用户表示匿名化和网络管理安全认证等措施,来保护用户隐私数据的安全[7]。同时设立数据监管员监管核心用户隐私数据。
资源建设是高校图书馆工作的基础。图书馆核心用户资源建设包括下面几个部分:(一)在有限的资金状况下,为了更好地满足核心用户需求,图书馆可以建立核心用户荐购系统,核心用户可以在系统里推荐购买某本图书或期刊,其他用户也可表明自己的看法。核心用户推荐的属于必购资源。(二)做好重点学科专题数据库的建设。重点学科是一个学校教学和科研的研究重点。高校核心用户为了更好地完成教学和科研任务,需要随时了解重点学科的发展动态和课题研究现状,以及学科的发展趋势。建立重点学科专题数据库,可以系统地为核心用户提供专业性较强的专题研究信息,为核心用户的教学和科研提供持续的信息追踪。(三)建立以核心用户的知识成果为主体的精品数据库。用户服务反馈分为两部分,一是用户对图书馆服务质量评价,二是成果统计和汇总。高校图书馆的核心用户大多是某专业的权威人士,他们的研究成果具有很高的科学价值。图书馆建立基础设施用来收集管理从教学中产生的海量的资源和分散在各处的核心用户科研成果,并电子化,形成既有成果全文,又有前期参考文献的元数据,建立拥有自己的知识产权和专业特色的精品数据库[8]。在大数据时代,产生于教学和科研过程的数据是学科研究重要的可以再利用的数据,教学和科研数据也在不断地增长中,核心用户知识成果集中体现了图书馆的价值,图书馆有义务对它们进行收集整理,并为核心用户提供检索、分析等服务,这样也可以保护教学和科研数据免于丢失,节约科研成本。(四)数字化馆藏资源。大数据环境下,图书馆要将各种纸质载体的资源数字化,与已有数字资源一起进行组合整理,这是大数据的来源渠道之一。(五)大数据共享。对于大部分中小型图书馆来说,仅凭自身力量很难支持大数据运行所需的信息和配套设施等,因此,利用外部力量实施数据共享,是一种更切合实际需要的方式。例如与社会各类型信息机构合作,实施云计算与云服务、移动终端服务、个人图书馆服务等。
图书馆需要设置以核心用户需求为导向的信息服务工作流程,与核心用户保持随时沟通,保证核心用户随时获取深层次服务。不同的核心用户和同一核心用户在不同阶段的信息需求和服务反馈会存在差异。课题立项阶段,强调相关课题的查全率。课题研究阶段,强调准确率和时效性。因此,图书馆员需要随时捕捉核心用户不断变化的服务结果评价,来修正核心用户的信息需求。通过对来自多渠道、全方位的大数据进行价值挖掘和分析,来满足核心用户的个性化服务,并对个性化服务的效果进行评估。图书馆员需要结合本校发展战略和重点学科研究,预先对核心用户的研究方向进行建议和预见性分析,并保证对核心用户研究成果和服务评价进行收集整理分析。大数据环境下,图书馆员不仅要注重数据的收集分析整理,还需要关注个性化信息服务的全过程,利用大数据了解信息服务中现在发生了什么,分析预测教学和科研创新过程中将来会发生什么,从而为核心用户教学和科研创新提供智能化服务。
图3 高校图书馆核心用户服务流程
此流程需要图书馆各部门紧密配合,加强大数据资源的流动、融合、关联和共享。防止发生数据的割裂和孤立,提高数据的过滤、挖掘和分析的有效性。分析核心用户大数据的相关性,根据核心用户群行为特性和需求,实现用户群的精细化分,并按照核心用户群教学和科研的信息行为和思想的变化分别建立核心用户群分类标签,保证个性化服务内容更加清晰、全面的匹配核心用户需求,以提高核心用户服务质量。核心用户一般身兼数职,比较繁忙,因此对资源获取的便捷性要求较高。图书馆应为他们提供快捷的信息获取方式,如一站式检索服务,发现系统、可视化服务、原文传递服务、移动终端服务模式、基于“个人门户”概念开展个性化信息推送服务等,以便核心用户可以随时随地获取所需信息。
大数据时代,数据成为图书馆提供用户服务的关键资产,核心用户随着大数据的出现对图书馆提出了更高的要求。从海量的数据中及时高效地进行关联,挖掘分析其更高的价值是图书馆为核心用户提供服务的一项重要业务,也促进了图书馆的发展水平。对于图书馆来说,应该加强大数据的采集、处理和分析,提取高价值数据,为核心用户的教学和科研提供更加安全可用的信息服务。
[1][5]王新筠,王海欣.大数据背景下图书馆知识服务的思考[J].图书馆工作与研究,2014,(11):75-78.
[2]毛晓燕.大数据环境下图书馆信息服务走向分析[J].图书馆工作与研究,2014,(3):72-75.
[3]陈 臣.大数据时代图书馆用户服务保障研究[J].图书馆,2014,(2):85-86.
[4]许碧文.大数据时代图书馆与档案馆深度融合发展研究[J].图书馆工作与研究,2014,(10):13-16.
[6]霍 娜.非结构化数据来袭[EB/OL].http://www2.ciw.com.cn/h/2562/375443-17627.html,2013-12-19.
[7]陈 臣.大数据环境下数字图书馆安全威胁与对策研究[J].图书馆工作与研究,2014,(11):34-38.
[8]郭新红.高校图书馆核心用户信息服务策略浅析[J].现代企业教育,2009,(18):128-129.