李 明
(福建工程学院,福州 350108)
近年来,“大数据”一词经常出现,吸引越来越多的人关注与研究,大数据被誉为未来的石油和黄金,并已被广泛地开发和利用。大数据时代,在数据收集、存储、处理、挖掘及分析过程中,寻找数据中规律性的东西、提取有用的信息,是大数据的价值所在。高校图书馆在大数据时代,使用云计算、物联网、智慧城市、移动互联等新技术产生大量的数据,分析利用这些数据,改变现有读者服务方式,使之向知识型、智慧型的方向发展很有必要。
目前,对大数据还没有统一的定义。大数据研究机构Gartner对大数据的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。而维基百科对大数据的定义是:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯[1]。
首先,大数据是结构化数据、半结构化数据与非结构化数据的总和。据DCCI统计,2010年全球数据量达到了1.2ZB(1ZB=1 024EB,1EB=10亿GB),在如此庞大的数据中,只有 10%的数据是存储在数据库中的结构化数据,其余则是由邮件视频、微博等产生的大量的半结构化和非结构化数据[2]。其次,大数据的“数据”并非数据存储,而是数据获取和数据应用。因为存储的数据并不具备价值,而大数据的数据是进行高速获取和应用的数据。目前美国需要14万到19万名以上具备“深度分析”专长的研究人员,而对具备数据知识的经理的需求则超过了150万[3]。研究发现,大数据一般具有4个特点:数据量大(Volume)、类型繁多( Variety)、价值密度低(Value)、速度快时效高( Velocity)。大数据收集、存储、挖掘及分析需要新技术解决,如云计算即为大数据技术。
大数据时代信息的产生方式日益增多,数据信息量激增。高校图书馆对这些复杂的数据进行存储、管理和应用存在诸多挑战。在解决这些问题的过程中,可能会促使高校图书馆管理模式、文献资源建设模式和发展模式的转变,但是实现上述模式转变上面临着两个问题:首先,云计算虽然解决了海量数据的存储和运算问题,但其自身存在的安全隐患等问题使用户不能完全信任[4];其次,大数据对图书馆数据存储范围的要求极高。早在2007年,沃尔玛就通过对消费者的购物行为等非结构化数据进行分析,创造了“啤酒与尿布”的经典案例[5]。因此,高校图书馆应在大数据时代主动尝试掌握读者、馆员甚至社会人员的信息。
图书馆要了解自身的数据收集、存贮、分析和挖掘现状,还必须掌握用户对图书馆的信息利用与需求度,在知己知彼的前提下,开展数据分析服务。目前,图书情报界所熟知的聚类分析、数据挖掘、关联规则、可视化分析、数据融合与数据集成等,这只是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘非结构化数据和半结构化数据,更不能通过数据预测未来的发展趋势。一些学者开始思考去采集和利用网络社交等信息行为产生的大量非结构化数据、半结构化数据,如苏玉照等人就认为如果能够采集到Web日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制Web日志的数据模型、过程及方法进行探索。
随着网络化、数字化的发展,信息与知识的传播手段不断更新,读者的信息需求也呈现出多层次、多元化的特点。 网络化、数字化、信息化改变了人们的阅读方式和学习方式,读者的要求也从简单的信息检索、信息获取转变为信息的加工和分享、个性化的信息服务上。 读者的阅读方式由以往的纸质阅读转变为网络阅读、数字阅读。 数字阅读的内容也从文字和图片扩展到了音频和视频。 这种全新的阅读方式具有信息储存量大、检索便捷、便于共享等特点,可以使读者随时随地快速获取所需信息。但网络阅读也存在垃圾信息过多、阅读内容肤浅、碎片化等弊端,有时不能逼真反映原作品的艺术效果。 浅阅读、大众阅读成为一种隐患,它们在传统经典文化知识的吸取方式上有快餐化、愉悦化取向。
大数据时代,数据搜集与存储是必备条件,在商业市场中,数据分析被运用得淋漓尽致。如奈飞公司利用客户的网上点击记录,预测其消费需求,进行客户针对性精准营销。高校图书馆亦可参考这一做法,根据读者对馆藏资源的点击率,利用图书馆自动化系统,对馆藏资源进行分类与排行,预测读者喜好,在校园局域网平台上,对读者进行文献信息分类,实现信息精准推送。首先,建立馆藏资源大数据,对馆藏资源进行精细化分类。利用自动化系统,以学科、出版年、文献借阅率等不同的标准对馆藏文献进行划分重组,按照不同的知识体系,以专业性、时效性和读者喜好度等标准归类,建立馆藏资源的网状结构系统,使每类馆藏文献体系都有相对应的读者群,反过来,每类读者群都有相对应的馆藏分类体系,二者一一对应。其次,尽可能使馆藏资源体系全面而不失个性化。在文献采访过程中,挖掘出馆藏数据的价值与隐藏在读者背后的阅读需求,预测读者的阅读趋势。目前,市场上的图书采集器只能进行馆藏文献查重,无法实现按读者需求采购,结合国外读者主导式采购系统(简称PDA),利用书商提供的电子书单,通过图书馆网络平台,积极引导读者参与图书采购。
通过读者数据科学决策读者服务是大数据时代高校图书馆提升读者服务能力的重要路径。大数据时代,高校图书馆要充分利用读者数据,分析、评估和决策读者服务,营造一种“重视并回报利用大数据进行决策的文化”。这就要求图书馆必须有“数据优先”思维,把数据作为提升读者服务能力的首要因素,要充分认识到大数据时代数据的重要性,努力使结构化数据、半结构化数据和非结构化数据为推动读者服务发展发挥重大作用。为此,图书馆要有“数据驱动”和“数据决策”意识。所谓数据驱动意识,就是不能无视数据的存在及其作用,要在数据的驱动下积极作为。所谓数据决策意识,就是一切决策必须基于数据和数据分析,不能无根据地凭直觉盲目做决策。大数据时代,读者需求变化前所未有,通过数据分析技术,实时跟踪并适时分析读者的阅读偏好、借阅习惯、借阅记录、检索历史等各种大量的半结构化和非结构化数据,精准把握并准确预测读者需求及其变化规律,及时科学地做出调整,或变革读者服务理念、服务内容、服务模式、服务手段和服务时间的决策,适时为读者提供个性化推荐服务、个性化知识服务、学科化深层服务、嵌入式服务、动态服务、交互服务、电子邮件咨询、经常性问题解答、即时视像咨询、远程数字化合作咨询和便捷化定题服务等等,从而满足读者学习、教学和科研需求的多元化。
对于大数据的认识和应用,国内高校图书馆还处于起步阶段,没有针对大数据应用的管理结构进行调整,如建立读者数据仓库或设立数据馆员类岗位。而国外一些高校已经设立了与数据管理相关的岗位,如数据馆员、数据管理专家、社会科学数据服务馆员等[6]。设立特定的岗位,负责和完成数据管理和服务工作,便于让高校图书馆形成以数据为基础的资源信息管理模式,建立完善的数据管理服务系统。大数据仓库和大数据资源管理的建立和实施,都需要专业人才的技能和参与。整个数据收集、整合、集成、分析、共享等工作均需要专业人员的协助,因此,目前国内高校需要重视数据馆员的作用。图书馆若要建立以大数据为基础的采购系统或管理系统,不容忽视数据馆员的存在。
主要参考文献
[1]百度百科.大数据[EB /OL].[2012-09-10].http://baike.baidu.com/view /6954399.htm.
[2][作者不详]海量数据爆发大数据时代来临的五个转变[EB/OL].[2012-08-01].http://labs.chinamobile.com/news/7627.
[3][作者不详]数据分析人才短缺问题造成当前CIO必须面对的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322816/shtml.
[4]黎春兰,邓仲华.信息资源视角下云计算面临的挑战[J].图书与情报,2011(3):17-22.
[5]高勇.啤酒与尿布:神奇的购物篮分析[M].北京:清华大学出版社,2008.
[6]孟祥保,钱鹏.国外高校图书馆数据馆员岗位设置与管理机制[J].图书与情报,2013(4):12-17.