朱维乔
(广州航海学院图书馆,广东 广州 510725)
随着云计算、传感网络等信息技术的蓬勃发展和多种移动终端、社交网络的广泛使用,数据量呈爆炸式增长之势,“大数据”概念应运而生,一些研究机构将其定义为数量超出传统关系数据库系统收集、存储和分析能力的数据集[1],其所产生的影响已渗入社会生活的诸多领域。美国政府宣布的“大数据研究与发展倡议”将大数据定位为未来信息技术发展的核心,预示着其将对全球知识创新与知识服务形式产生深远的影响。时至今日,大数据技术的广泛应用使海量多结构数据的即时获取、深度挖掘和精确分析成为现实,也将为正在兴起的知识服务注入更多服务增长点。国内外图书馆界均对其展开了如火如荼的研究与应用。
国内图书馆界的大数据应用以清华大学图书馆为代表,其应用大数据技术为读者提供知识服务,在检索平台上综合运用多来源数据,将书、刊、文章等元数据汇聚在一起用于检索,用户可通过开放链接技术定位及获取资源[2]。国外图书馆界的大数据应用由美国哈佛大学图书馆率先发起,其将图书大数据公开并在国家公共数字图书馆中提供下载,内容包括书目数据、音频、视频、图像、手稿等多种类型的非结构化数据,共计一千多万种资料[3],该项大数据服务旨在促进全球图书目录的开放共享与大数据技术的研发,满足急剧扩张的知识服务需求;此外,新加坡国家图书馆管理局采用大数据技术对持续增长的大量非结构化数据进行分析,并在其门户网站上将读者最感兴趣的信息实行自动推送,目前已完成对“新加坡记忆”特色资源网站的上百万篇文章的文本分析,并为解决存储与计算设备扩展性的问题建立了一整套分布式系统基础架构集群,由在主机上虚拟的数十台服务器组成,这使其拥有了可扩展的分布式计算平台,解决了应用大数据技术挖掘和实现用户知识服务需求的难题[4]。
图书馆特色资源服务平台架构以用户的个性化和专业化需求为出发点,提供面向用户的经过数据分析加工且能满足实际需求的特色知识信息。本文将针对特色资源平台架构的主要环节,将大数据作为一种技术方法与提供知识服务的新工具,如图1所示,分析其在每一环节的具体应用。
图1 面向大数据的特色资源平台体系架构
评价特色资源平台架构的重要因素之一是其内容与功能的设计科学性,内容设计应明确建设的重点方向与目标,基于用户的使用特点与需求分析而进行。OCLC(联机计算机图书馆中心)发布报告称,图书馆正在经受着技术障碍、人才瓶颈等问题的困扰,用户流失较为严重[5]。因此,如何在内容设计环节应用大数据技术进行用户分析,对特色资源平台的内容与功能进行合理定位,构建新型特色资源服务从而吸引更多的用户,将成为特色资源建设工作的挑战。图书馆应通过分析大数据的主要信息源——即隐含在用户检索、咨询等行为中的非结构化数据,如流通日志中的特色文献借阅数据、OPAC日志中的点击流数据、特色数字资源的浏览历史、用户信息反馈行为等可展示其偏好、习惯模式等特点的数据,进而识别、挖掘和推断用户的知识服务需求,按其需求进行特色资源的内容设计,使相同主题、专业与相关学科的各类文献重组、整合成完整的特色资源体系;与此同时,还应根据动态反馈用户需求的大数据进行知识更新,使特色资源平台的开发者、提供者和使用者实现在各个方面提高效率的目标[6],从而提高图书馆自身的核心竞争力。
数据收集环节的大数据应用,主要是为特色资源平台建设提供更丰富的资源类型与多维化的数据来源。除图书馆自身的馆藏资源,如数据库中的书目信息、特色文献数字化后形成的电子图书图像、自建特色数据库等之外,还包括动态的传感器数据、RFID射频识别数据、移动设备数据、移动互联网数据、用户社交网络交互数据等;另外,如网络出版与传播数据、馆际之间的共享数据等图书馆外部的开放知识源都将成为特色资源平台主要的大数据来源。但由于数据质量参差不齐,图书馆应设置必要的信息采集规则和机制,以确保进入特色资源库中的知识将得到有效利用[7]。可运用信息过滤技术,针对特色学科、专题进行信息收集分析、处理与存储,并按照一定的标准格式创建数字信息资源库,使特色资源平台建设得以创新并得到更多用户的肯定,体现出更高的价值。
根据数据生命周期理论与特色资源的被检索频率,特色资源库中的大数据可分为热数据与冷数据,若二者使用同一存储空间会影响数字资源的存储质量。因此,图书馆应根据存储成本、访问频度、数据容量与更新频率等因素将数据分层存储。可将存储空间分为三层:一为快速存储层,适用于少量热数据,特点为价格高、容量低、运行速度快;二为次级存储层,适用于中等价值的数据与知识,运行速度为中等;三为硬盘存储层,适用于冷数据,特点为价格低、容量大、运行速度慢。在系统中跟踪并记录特色资源库中数据与知识的被检索频度,同时设置相应的参数,当其符合某一存储层的访问频度时将自动分配知识元到该存储层,从而实现知识的效率存储,以提高大数据环境下特色资源平台的建设质量。
在知识组织与加工环节,大数据为其引入更为专业的数据分析技术,将分散、无序的大数据进行组织、加工与分析,对数据资源的产生、发展及波动规律进行归纳,可依据其对特色资源进行结构调整。特色资源平台的建设目标是实现资源共享及各种数据库之间的整合,为用户提供来源、结构、功能均不相同的多种数据库的一站式检索平台,构建综合化特色资源服务平台。这就要求各类数据在加工时严格执行统一且高质量的标准,在技术条件实现时才能使数据库加入到整合检索系统中。因此,需要对不同格式的数据进行处理和深层次加工,将其转换成数据库所要求的文件格式,从而使其符合建设特色数据库的规范要求。当大量数据存储于分布广泛、多种类型的服务器中时,需要借助新型处理手段进行动态数据集的收集、组织与加工和多格式数据的整合规范,将其转换为规律的有序数据并从中提炼价值,为特色资源平台建设构建良好的数据支撑体系[8]。
特色资源平台建设与特色资源服务共同发展、不可分割。基于大数据开展的挖掘数据价值、提取知识的理念为特色资源服务模式的创新发展提供了良好的契机。
传统的被动服务模式既阻碍了特色资源的有效利用,又背离了特色资源平台建设的初衷,因此向主动推送服务模式的发展势在必行,大数据应用使这一转变成为现实。通过了解关于用户情感状态及实际需求的实时大数据,进行用户行为智能分析与知识需求预测等新型特色资源服务,搜集与加工特色资源,并利用信息推送技术定期将相关特色资源主动推送给用户,能够提高特色资源的利用率及拓宽特色资源服务范围。
大数据环境下的海量数据资源,如文献资源、科研成果、访问日志、社交信息等各类网络资源,来源于不同的机构知识库与个体用户,具有数量大、类型多、无序化等特点,因而需要建立数据的统一标准,实现异构系统的有效整合,使整合后的数据更具应用价值,为特色资源服务的开展提供智力支持。在微观层面的数据整合,通过定位、连接各类数据源,对不同数据赋予统一的元数据格式与资源标识符(URI)来实现,使每个数字资源拥有唯一地址,从而构建元数据项目描述精确的数字资源库,使分布的各种异构数据资源汇聚、融合为中心知识库,并通过引擎的方式为用户提供简捷、快速的资源发现与获取服务,构建一站式特色资源服务平台;在宏观层面的数据资源库整合,通过将数据资源按照类型、学科、主题等区别进行分散聚合,形成跨数据库、跨平台的无缝链接的数字资源集成,力图在各种数据库系统之间建立多维度关联,允许用户通过集成的资源界面进入图书馆所有的资源、应用与服务入口,方便快捷地一站式完成信息获取[9]。
为了提升特色资源服务质量,图书馆应对所收集的大数据进行加工,基于数据进行知识发现与分析,满足用户的学科知识需求。如将不同学科用户的信息行为数据进行分类,进而分析用户检索、浏览和下载的文献特征并加入时间纬度,可归纳出某个学科用户在特定时期感兴趣的主题内容;利用数据挖掘、聚类分析、相关性分析、社会网络分析等大数据技术预测学科热点及进行交叉学科的分析研究;基于大数据进行关联关系分析,构建学者、合作者、会议、期刊、学术成果等元素之间的知识网络[10];为促进特色学科发展而对数据集合进行的分析,即从元数据仓储中提取文章关键词等信息,基于时间轴进行学科趋势分析,可以通过研究关键词在时间轴上分布的方法来分析特色学科领域在一个时间段的发展趋势并预测未来的发展方向。
随着知识经济的发展,用户的信息需求愈加个性化和专业化,而传统的大众化服务模式不但无法为个体用户提供有针对性的知识服务,也不利于图书馆资源、技术和人才的整合。可见,特色资源服务向个性化模式的发展势在必行。图书馆应基于对用户信息使用行为习惯的分析和对资源特定需求的预测,向其主动提供可能需求但难以获取的资源。通过对读者显式行为(如资源评分、赞/踩等)和隐式行为(如浏览下载记录、页面停留时间、社交网络数据、借阅记录等)的分析,建立用户剖面(user profile)进而精准把握其需求特点、规律和趋向。挖掘其隐性需求,并搭建交互平台进而提供特色知识服务,从而有针对性地开展特色资源服务的个性化推送,实现特色资源服务效益的最大化。应用知识发现、信息挖掘等大数据技术过滤各类信息源并对用户进行个性化知识推荐,包括基于内容过滤与协同过滤等推荐方法,通过加工整理、综合分析形成用户所需的个性化特色资源,并通过电子邮件发送、系统消息发布或频道推送等方式传送给用户。具体内容包括:个性化定制服务根据用户定制的目标构建个性化特色资源服务系统,通过挖掘和深加工特定专题的信息资源,查询并反馈满足用户需求的结果,并利用动态网页自动生成所定制的页面;个性化传递服务以用户需求为导向,利用信息推送技术定期为用户传送相关的特色资源信息。
大数据在特色资源平台建设与服务应用中存在一些制约因素,图书馆可采取相应对策缓解所受到的限制。
特色资源平台建设与服务中的传统数据处理方法在数据量不高于TB级时尚可承受,但其处理海量实时数据的时间与成本均至少增长几个数量级,这成为制约大数据应用的技术瓶颈。在数据量的增长与数据复杂性的变化远超过存储、计算能力增强的情况下,设计最合理的分级、分层数据存储架构成为特色资源服务体系中资源管理的重要环节。这对海量数据的存储与计算能力提出了更高标准,要求其具有高度的灵活性与可扩展性,能够支持PB级甚至更高规模的数据存储、组织及分析。可见,对特色资源服务技术架构的革新和存储、计算能力的提升成为大势所趋。
大数据分析需要强大的硬件设备作为后台技术支撑,设备存储和计算规模随着数据量的持续增加而增大,相应成本也随之提高,但作为公益性质的信息服务机构,图书馆在基础设施的资金投入上与大型IT企业相比差距甚大,从而使得大数据应用受制于软硬件成本而较难实现。为了解决成本问题,图书馆可将高端服务器设备转换为由中低端软硬件组成的大规模计算机集群[11],利用云计算技术为大数据创造弹性可扩展的基础设施保障,这就要求存储、分析非结构化数据的基础设施是根据大规模分布式数据的密集型应用而设计,具备将存储和计算需求分布到其中并可获取、存储及分析海量数据的性能。
调查显示,相关领域人才的稀缺是制约大数据技术发展的关键因素[12]。大数据作为一项前沿技术,其研究人才需要具有跨学科的学习经历,如需要集成信息技术、人工智能、数学算法等多个学科领域的技术成果。在大数据时代,图书馆要提升以知识应用为特征的特色资源服务效能,就需要馆员既具有特色资源服务工作必备的基本素养,更应当掌握大数据环境下的数据组织与数据挖掘等技术,对特色资源做出有价值的预测性分析,以制定切实可行的知识服务方案。国外专业教育已开始朝培养熟练驾驭大数据的“数据图书馆员”方向发展,我国图书馆界应密切关注国外同行进展,积极培养大数据技术人才,推荐优秀馆员加入科研团队中并承担大数据研究的任务,通过实践积累数据分析的技能。
在大数据应用的推动下,特色资源服务向以数据为中心的创新型服务转化,数据安全问题也随之显现。海量数据的产生、存储与分析意味着有更多数据可能被暴露,被黑客攻击的可能性随着特色资源数据价值的提高而增加。此外,为了将更优质的个性化知识服务提供给读者,图书馆从多种渠道获取用户个人信息、地理位置和搜索历史等数据进而分析其信息查询行为,这使其个人隐私在一定程度上受到威胁,成为制约大数据应用的障碍。因此,数据安全、隐私保护等均成为特色资源平台建设与服务中亟待解决的难题,应尽快采取应对方案。在知晓用户信息的同时需要保护其隐私权,这就要求馆员自觉规范其行为、提高专业素养和职业道德,并通过为用户设置权限,使其对个人检索历史等数据的保存时间和用途具有知情权,从而消除用户的顾虑。
综上所述,大数据这一新技术可为特色资源服务平台构建良好的数据支撑体系,可为特色资源服务模式转变等业务需求提供全新的解决方案,对加速特色资源的整合利用、提升图书馆数字化知识服务能力将起到积极的推动作用。作为未来图书馆领域无可置疑的技术发展形态,大数据应用尚处于初期的探索与实践阶段,其在特色资源服务平台架构方向的研究还有待进一步发展完善。
[1]张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2012(6):15-21.
[2]大数据环境下清华大学图书馆的实践 [EB/OL].[2013-11-19].http://news.tsinghua.edu.cn/publish/news/mobile/4207/2013/20130829152841109507827/20130829152841109507827_.html.
[3]WATTERS A.Strata Week:Harvard library releases big data for its books[EB/OL].[2013-08-26].http://strata.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html.
[4]Future Gov.Singapore library uses analytics and big data technology to ease users’search[EB/OL].[2013-11-6].http://www.futuregov.asia/articles/2013/sep/11/singapore-library-uses-analytics-and-big-data-tech/.
[5]MICHALKO J,MALPAS C,ARCOLIO A.Research libraries,risk and systemic change[R/OL].[2013-08-22].http://www.oclc.org/content/dam/research/publications/library/2010/2010-03.pdf?urlm=162937.
[6]王捷.大数据时代下图书馆开展信息服务的对策[J].现代情报,2013(3):81-83.
[7]孙卓.基于大数据构建图书馆知识服务引擎研究[J].图书馆学研究,2013(18):48-51.
[8]周杰,苏静,曾建勋.下一代数字图书馆的发展思考[J].图书情报工作,2013(8):35-39.
[9]张麒麟,陈雅.图书馆数字资源的服务模式比较研究[J].图书馆论坛,2013(4):28-31.
[10]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5):9-13.
[11]张兴旺,李晨晖,秦晓珠.构建于廉价计算机集群上的云存储的研究与初步实现[J].情报杂志,2011(11):166-171,182.
[12]潘永花,相斌斌,周震刚,等.中国大数据技术与服务市场2012-2016年预测与分析[R/OL].[2013-09-19].http://www.idc.com.cn/prodserv/detail.jsp?id=NTAx.