韦晓凯
(南京理工大学图书馆 江苏 南京 210094)
大数据是继web2.0和云计算之后近年来最受关注的焦点之一,它受到了信息科技领域研究人员越来越多的关注。麦肯锡研究院于2011年在《大数据:创新、竞争和生产率的下一个前沿》[1]报告中,提出“大数据”时代已经到来。2012年奥巴马政府发布了“大数据研究和发展计划”[2]。联合国在2012年6月专门发布了大数据发展战略[3],这是联合国首次就一个单独技术问题发布报告。“大数据”已经成为当前研究热点之一。
目前,对大数据还没有统一的定义。大数据研究机构Gartner对大数据的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。而维基百科对大数据的定义是:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯[4]。
首先,大数据是结构化数据、半结构化数据与非结构化数据的总和。据DCCI统计,2010年全球数据量达到了1.2ZB(1ZB=1024EB,1EB=10亿GB),在如此庞大的数据中,只有10%的数据是存储在数据库中的结构化数据,其余则是由邮件、视频、微博等产生的大量的半结构化和非结构化数据[5]。
其次,大数据的“数据”并非数据存储,而是数据获取和数据应用。因为存储的数据并不具备价值,而大数据的数据是进行高速获取和应用的数据。目前美国需要14万到19万名以上具备“深度分析”专长的研究人员,而对具备数据知识的经理的需求则超过了150万[6]。
大数据主要有四个特点:(1)大量化(volume):大数据的数据量巨大。据统计,2011年全球产生的数据总量达到1.8ZB。预计到2020年这一数值将达到35ZB。可见大数据不但体量巨大而且增长速度极快。(2)多样化(variety):大数据的数据类型很多,包括网络日志、视频、声频、图片、地图等。在海量的数据中非结构化数据所占的比例很高,如何获取其中的价值,对传统的数据分析处理方法和软件提出了挑战。(3)快速化(velocity):大数据要求对多样化的海量数据进行实时处理,这对处理效率的要求非常高。这一点与传统的数据挖掘技术有着本质的区别。(4)密度低(veracity):价值是大数据的意义所在,大数据的价值虽然巨大,但其价值密度却很低,比如用户在查找资源时,搜索引擎会提供海量资料,但对用户有使用价值的可能只有少数几条。这正是大数据分析的难点,即对海量数据进行挖掘分析。
随着网络技术的不断发展,读者获取信息的途径越来越多,高校图书馆很难像以往那样仅靠馆藏资源来吸引读者。对大数据时代的高校图书馆而言,不但要提升馆藏资源的种类和质量,还要为不同类型的读者提供具有针对性的个性化服务,这样才能真正吸引读者,实现自身的可持续发展。
高校图书馆本身就拥有大数据,工作人员应注重对大数据的收集,高校图书馆的大数据主要包括:(1)数字化资源。目前数字化技术在高校图书馆的应用较为普及,经过多年的建设和维护,高校图书馆拥有了大量的数据库、电子书等资源,这些资源总量较大,而且增长速度也比较快,是大数据的重要组成部分。(2)读者浏览历史所形成的非结构化数据。高校图书馆的馆藏资源并不是大数据的全部,对读者各种数据的收集就是大数据的空白。高校图书馆应该重视对读者数据的收集工作,让这些数据为我们所用,从而提高自身的核心竞争力。
大数据时代的到来不但改变了传统IT结构和数据存储、利用机构的职能,也对作为存储信息、提供信息服务的高校图书馆产生了巨大的冲击和挑战。
大数据时代信息的产生方式日益增多,数据信息量激增。高校图书馆对这些复杂的数据进行存储、管理和应用存在诸多挑战。在解决这些问题的过程中,可能会促使高校图书馆管理模式、文献资源建设模式和发展模式的转变,但是实现上述模式转变上面临着两个问题:首先,云计算虽然解决了海量数据的存储和运算问题,但其自身存在的安全隐患等问题使用户不能完全信任[7];其次,大数据对图书馆数据存储范围的要求极高。早在2007年,沃尔玛就通过对消费者的购物行为等非结构化数据进行分析,创造了“啤酒与尿布”的经典案例[8]。因此,高校图书馆应在大数据时代主动尝试掌握读者、馆员甚至社会人员的信息。
随着社会信息化进程的加快,数字化、网络化、智能化服务已成为我国图书馆服务的主要内容。截至目前,国内图书馆大部分实现了信息化,这为图书馆拓展服务提供了资源基础和机制保障。但同时也发现了一些问题,一方面,图书馆特别是公共图书馆的服务主要还是依靠纸质资源的传统服务;另一方面,图书馆所提供的数字化服务主要是基于数据库以及纸质文献资源的数字化,大部分都是结构化数据[9]。因此,大数据时代的到来,图书馆所存的数据结构将发生巨大变化,非结构化数据、半结构化数据将占据较大比例,大数据的特性与优势将在日常的生活中逐渐凸显出其巨大的优越性。民众的需求也将随着这些人性化、个性化的高满意度服务出现而迫切希望图书馆等信息中心能提供大数据分析、处理等专业化知识服务。图书馆应紧跟时代步伐,把握事业发展主旋律,通过改善基础设施、提高人才素质,来拓展和完善图书馆的大数据分析、处理业务。
图书馆信息化程度的提高,使得信息服务成为了当前图书馆服务的主要内容之一,使得以互联网信息搜索、查询为基础的知识信息服务逐渐被更多的图书馆所吸纳与实践。但不管是简单的信息服务还是结合了信息检索、组织、分析等高级业务素养去完成的知识服务,都可归纳为只是就数据而进行的服务,尽管有了Web2.0等互动技术的推动后图书馆服务的个性化、人性化服务有了显著提高,但交互性程度并不高,个性化、人性化服务也只是简单的以用户的结构化数据,如根据服务诉求、专业特长等数据,去完成一定程度上的差异化服务。但大数据则要求图书馆不仅需要通过结构化数据了解现在客户需要什么服务,也需要利用大量的非结构化数据、半结构化数据在图书馆用户的服务关系中去进行数据挖掘,进而分析可能发生的信息行为,还需要利用数据对图书馆与科研机构在合作交互型知识服务过程中将要发生的趋势进行预测[9]。
随着大数据时代的到来,高校图书馆传统的服务模式以及文献资源建设体系已逐渐跟不上发展潮流,对读者的吸引力也日渐衰弱,导致到馆人数和借阅量逐年递减。为了提升图书馆的地位,充分利用馆藏资源,配合学校工作,高校图书馆应加强以下工作:
高校图书馆应转变观念,改进服务模式,增强主动服务的意识,不断探索、拓展服务体系。要实现以上目标,高校图书馆首先应该实现从“吸引读者到图书馆来”到“将图书馆服务送到读者中去”的转变,针对不同类型读者提供个性化的服务,通过对用户数据的分析,提高自身个性化服务水平,开展跟踪服务、上门服务、相关知识服务以及宣传推广等服务,做到能够及时从海量数据中提取有价值的信息,建立用户模型,从而提高服务质量。同时加强组织管理,完善文献资源建设管理以及培训、分析评价措施等科学管理体制,积极吸纳用户参与到图书馆的服务体系中,从而提高对读者的吸引力,提高读者对自身服务的满意度。
高校图书馆应该建立交互式信息共享平台并设置用户互助、论坛等栏目,为馆员与用户之间开辟交流渠道。开设上述栏目既可以发挥图书馆馆员的咨询作用,也可以吸纳读者参与到图书馆建设和管理工作中,同时也可以了解读者的最实际需求,进而切实地提高图书馆个性化服务的质量,并通过对信息平台中反馈的读者数据进行收集、分析,在宏观上掌握科研热点、教育重心等信息,为科研人员、学校教务部门提供决策支持,帮助他们尽早洞察科研和教育工作的最新走向,从而提高高校图书馆的作用和地位。
图书馆使用大数据分析可以更好地分析读者偏好,对读者进行个性化服务,提升服务品质。由于大数据分析难度较高,需要强大的硬件作为后台支持,而高校图书馆的经费以及人力物力有限,因此,高校图书馆可以通过加强与兄弟院校图书馆的合作来缓解这一矛盾,积极拓展高校图书馆馆际资源共享的覆盖范围,在此基础上掌握好资源质量,以满足读者的需求,并且可以根据需要购买,以解决基础设施以及人员方面的不足。
近年来,我国图书馆事业发展迅猛,数字化、智能化服务已成为高校图书馆发展的新方向,国家数字图书馆工程、CALIS、CADAL等数字资源建设项目极大地丰富了图书馆的馆藏数字资源,也为大数据时代高校图书馆的发展提供了物质基础和制度保障。图书馆应紧跟时代步伐,把握事业发展主旋律,通过改善基础设施、挖掘服务潜力、提高人才素质,来拓展和完善图书馆的大数据分析、处理业务。
传统高校图书馆的服务方式仅将文献信息检索出来,不能为读者提供价值参考。随着大数据时代的到来,海量的信息使读者难以分辨哪些是自己实际需要的,往往迷失在大量的检索结果中,白白浪费大量的时间和精力。针对诸如此类问题,高校图书馆需要在个性化需求和专业化资源组织之中寻求一个平衡点,既不能为了迎合用户的需求而使资源组织混乱,也不能只考虑规范问题而使资源组织专深化。图书馆需要在传统的学科分类、主题分类之外,增加一些人性化的资源组织方法,适当考虑用户的用词习惯。如提供自然语词的检索,在后台对自然语词和主题词进行匹配运算,然后给用户提供一些智能化的检索提示,增强用户的搜索体验。
大数据的产生使得高校图书馆的服务从以文献资源为核心转向以数据信息为核心的知识创新服务,数据信息的相关服务成为高校图书馆创新服务的新动力。但在转变过程中,用户将更加重视对于个人信息的保护,如何解决好这个问题是高校图书馆将要解决的难题。高校图书馆在处理信息安全问题时,必须遵守职业道德、建立完善的保障体系、提供高水准的专业服务、进行合法的数据信息利用和传播,从而实现既充分发挥大数据的优势,又不侵犯用户隐私的共赢目标。
大数据是变革性的高端技术,它对高校图书馆从业人员的素质要求非常高,因此,如何培养本土的大数据人才是目前亟待解决的问题。高校图书馆应该放开心态,努力学习先进技术,改变原有信息服务方式,积极培养数据处理人才,同时开展对可获取数据的收集工作,为日后的发展打好基础。
大数据技术的出现,改变了人们对数据的认识,人们可以凭借大数据技术探索隐藏在海量数据中的价值。高校图书馆在大数据时代的起步已经晚于其他行业。尽管高校图书馆有丰富馆藏资源的优势,但相比其他行业,高校图书馆在技术、资金、人力等方面的劣势约束了自身的发展,如何避免被边缘化将是高校图书馆即将面临的一个难题。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL]. [2012-12-09].http://www.mckinsey.com/Features/Big_data.
[2]Big data is a Big Deal[EB/OL].[2012-11-19].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
[3]Big data for Development:Challenges&Opportunities[EB/OL].[2012-11-19].http://www.unglobalpilse.org/.sites/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf.
[4] 百度百科.大数据 [EB/OL].[2012-09-10].http://baike.baidu.com/view/6954399.htm.
[5]海量数据爆发 大数据时代来临的五个转变[EB/OL].[2012-08-01].http://labs.chinamobile.com/news/76217.
[6]数据分析人才短缺问题造成当前CIO必须面对的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322816/shtml.
[7]黎春兰,邓仲华.信息资源视角下云计算面临的挑战[J].图书与情报,2011,(3):17-22.
[8]高勇.啤酒与尿布:神奇的购物篮分析[M].北京:清华大学出版社,2008:2-5.
[9]王天泥.大数据视角下图书馆的发展对策[J].图书馆学刊,2013,35(3):42-44.