杜 璟
(华东师范大学图书馆,上海 200241)
大数据目前尚无统一定义,通常被认为是一种数据量很大、数据形式多样的非结构化数据。大数据种类繁多,数据量庞大,含有大量半结构化、非结构化的数据,对这些数据的深度挖掘成为时下研究的热点。在大数据时代,作为图书馆服务功能之一的文献传递服务,如何应对复杂数据的产生,并保存、分析这些数据从而挖掘出更有价值的信息,成为新环境下图书馆员面临的一大挑战。
1980年,著名的未来学家阿尔文·托夫勒在《第三次浪潮》一书中,热情地将大数据赞颂为“第三次浪潮的华彩乐章”;1998年《科学》杂志上一篇介绍软件HiQ的文章《大数据的管理者》(A Handler for Big Data)也应用了这一说法;大数据概念的首次提出,是在2001年5月全球知名咨询公司麦肯锡发布的报告《大数据:创新、竞争和生产力的下一个前沿领域》中[1],但大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇,尤其是2012年3月,奥巴马政府宣布推出“大数据的研究和发展计划”,投资两亿美元拉动大数据相关产业发展,推进和改善联邦政府部门的数据收集、组织和分析工具及技术,将“大数据战略”上升为国家战略[2]。大数据被称为“未来的新石油”[3],成为2012年最热门的词汇之一。
在大数据时代,信息技术飞速发展,数据成本下降促使数据呈数量级增长,尤其是非结构化数据。根据IDC监测,大数据量大约每两年翻一番,预计到2020年,全球将拥有35ZB的数据量,将比2010年增长近30倍[4]。非结构化数据的增加增大了数据的复杂性,提高了数据分析及挖掘的难度。IBM概括大数据有3个特性:多样化(Variety)、速度快(Velocity)、容量大(Volume),而以IDC为代表的业界将价值高(Value)也列入大数据的特性,即“4V”[5]。从大数据目前的应用实例中不难发现,对大数据的分析具有重要的研究价值和商业价值,这有助于推动以大数据为基础的科学研究。
在大数据时代,数据像企业的固定资产和人力资源一样,成为企业的生产力,这是大数据时代的独特现象[6]。数据容易共享,对数据不同方向、深度的分析,会产生新的知识和信息,且随着使用次数的增加,数据反而会增值。IBM的研究部门正在研发针对医疗文献的分析工具,对此类极具行业属性的非结构化数据展开研究,希望能够帮助医生解决复杂的医疗问题。通过对大规模数据的查询,提升机器学习的能力,最终达到提高分析决策水平的目的。IBM同时在探索将并行化处理技术扩展到统计方法中,从而更加有效地处理大量数据[7]。大数据价值目前主要体现在商业界,根据IDC和麦肯锡的研究结果,其价值主要体现在以下4个方面:细分客户群体,有针对性地采取独特行动;运用大数据模拟现实,发掘新需求,提高投入回报;提高大数据成果的分享程度,从而提高产业链的投入回报率;最后是进行商业模式、产品和服务的创新[6]。市场研究机构Gartner发布的《2013年10大科技战略趋势(Top 10 Strategic Technology Trends for 2013)中,明确将大数据战略列为最新科技潮流,《纽约时报》也有报道称“大数据时代”已经来临,在商业、经济及其他领域中,数据和分析将取代经验和直觉,成为决策的重要依据。
文献传递服务是馆际互借服务的延伸物,是指供应者以计算机、网络等技术,运用现代化的设备,将已确知的出版或未出版文献传递给使用者的一种服务,文献传递通常是非返还式的,传递内容包括期刊论文、会议论文、学位论文、报纸、标准、专利和报告等[8]。早期的文献传递服务主要是图书馆间的馆际合作,最先由科学技术发达的英美两国提出[9]。20世纪90年代,随着网络技术、远程通信技术和数据库技术的不断发展,电子出版物、数字图书馆和网络数据库成为文献资源的重要载体,电子文献传递服务也随之进入繁荣的发展时期[10]。进入21世纪,信息技术的大量介入使文献传递服务进入新的发展阶段,国内主流的5大文献传递系统CASHL、CALIS、NSTL、LCAS、中国国家图书馆[11],基本满足国内各高校图书馆、上海图书馆、国家图书馆及中科院系统的资源共享,同时也能实现向国外部分机构传递文献的服务。
在大数据时代的背景下,呈数量级增长的数据给信息技术带来新的挑战和机遇。图书馆作为知识信息服务的社会中心,为读者提供潜在的知识挖掘、知识评价、数据分析等增值服务成为新的趋势。目前,大量的研究报告对文献传递服务进行了充分而全面的探讨,主要从传递系统管理体制、服务模式、收费方式、资源整合等方面进行论述。大部分学者认为,面向最终用户的无中介文献传递服务是文献传递的发展方向,这种服务模式有利于节约人力,并减少读者使用费用,提高传递效率;在高质量、高准确率的目次数据库基础上,这样的服务模式更受读者欢迎。文献传递服务是图书馆知识服务的重要组成部分,但依托中介的文献传递服务中,图书馆员扮演的角色是比较机械而单一的,在相对稳定的文献系统中,图书馆员有限的拓展空间仅限于提高检索数据的速度和准确性,缩短索取文献的时间等。从长远看来,这并不能为文献传递服务带来新的生机,在大数据时代,从新的角度思考文献传递的发展方向显得尤为必要。
随着网络信息技术的发展,文献传递服务不仅限于主流的各大文献传递系统,读者需要的资源也不再只是传统的期刊文献、报纸、专利、报告等,文献传递服务中产生的非结构化数据如文字、图片等,传统的数据库无法做到系统的、长时间的保存。虽然云计算解决了海量数据的存储,但其自身仍存在一定的安全问题。在大数据时代,图书馆员只有掌握了读者用户的信息,包括个人身份、借阅记录等结构化数据,以及大量的存储信息行为、搜索方式等半结构化、非结构化数据,才能通过对海量的多类型数据进行分析而得到更有价值的信息。
目前国内对文献传递服务的研究讨论方法,主要是利用简单的Excel等工具对大量结构化数据进行浅层次分析。因此,文献传递中用户行为、文献需求等的挖掘分析,对主动掌握用户需求,改善文献传递服务将极具价值。在大数据时代的背景下,挖掘大数据的价值,分析其深层的意义,简单的定性定量分析已经不够,技术工具的作用将得到进一步发挥。聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等,尤其是聚类分析、可视化分析和数据挖掘技术,对于深层挖掘用户数据、主动掌握读者文献信息需求变化具有重要作用。
传统的文献传递服务中,图书馆员扮演的仅仅是中介的角色。而实际上,不需中介参与的文献传递系统更受到读者的欢迎。无中介的传递模式下,无需图书馆员代为发出申请,再将收到的文献转发给读者,这样的模式有效提高了文献获取效率,节省了人力物力,降低了资源利用成本。作为国内主要的文献传递系统,CASHL和NSTL是我国人文社科领域和自然科学领域最具代表性的集中式的无中介文献传递服务体系,有效地利用成员单位的原有馆藏和人力基础,节省经费,操作方便,能准确定位资源,受到读者的欢迎。建立有效的资源整合机制,构建知识资源导航体系,提供一站式、智能化的服务是文献传递服务新的发展方向。
随着学术研究环境的发展和研究形态的变化,科学研究所需要的资源已远远超出传统图书馆收藏的文献范围。在21世纪,用户的个性化服务成为企业研究的重点,对文献传递服务也不例外。读者对信息服务的要求越来越高,提供“交互、即时、精准、个性化”的文献传递服务成为图书馆员的内在责任[12]。张晓林在第11届International Conference on Interlending and Document Supply会议所作的主旨报告中提到,在新的科学研究形态和信息开放的环境下,文献传递应不再限于传递系统及其流程建设,应该将关注重点放在发现、筛选、获取所需信息对象以及有序可靠流畅经济地组织相关供应链[13]。大数据时代下,如何快捷经济地向用户提供所需要的信息而不仅仅是简单的传递文献本身,已成为图书馆员的内在责任。
[1] McKinsey&Company.Big data:The next frontier for innovation,competition,and productivity[EB/OL].[2011-05-02].http://www.mckinsey.com/Insights/MGI/Research/Tech nology_and_Innovation/Big_data_The_next_frontier_for_innovation.
[2] Tom Kalil.Big Data is a Big Deal[EB/OL].[2012-03-29].http://www.whitehouse.gov/blog/2012/03/29/big-data-bigdeal).
[3] 赛迪智库软件与信息服务研究所.美国将发展大数据提升到战略层面[J].中国电子,2012-07-17(003).
[4] 光大证券.数据或成重要投资主线[EB/OL].[2012-11-19].http://www.cs.com.cn/gppd/hyyj/201201/t20120106_319768 3.html.
[5] 韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.
[6] 陈宪宇.大数据的商业价值[J].企业管理,2013(3):108-110.
[7] 于翔.大数据价值实现任重道远[N].2012-07-16(40).
[8] 范秀凤.馆际互借文献传递服务中的原文获取[J].农业图书情报学刊,2008(4):103-106.
[9] 胡俊荣,郑永进.国际文献传递服务研究发展态势[J].图书馆理论与实践,2007(4):62-64.
[10]KleinerJP,HamakerCA,张沙丽.2000年的图书馆:采用文献传递服务需求评估和网络化资源的转型中的图书馆[J].大学图书馆学报,1998(2):1-11.
[11] 蔡文彬.国内五大文献传递中心服务状况的比较研究[J].现代情报,2005(12):123-126.
[12] 胡磊.基于用户需求的文献传递服务流程再造[J].图书馆理论与实践,2013(2):12-13.
[13] 张晓林.从文献传递到知识传递:面向未来的模式转变[J].图书馆杂志,2010(2):2-5.