陈娜 祁宁 陈新
摘 要:文章简要论述了大数据的产生、基本特征及具体应用,探讨了图书馆数据是否属于大数据和哪些数据是大数据的问题,从图书馆的资源组织、数据发现、编目索引等优势和特长出发,分析了图书馆在大数据时代应重塑角色,为用户提供数据服务,满足用户的信息需求。
中图分类号:G250文献标识码:A文章编号:1003-1588(2019)01-0075-03
关键词:大数据;图书馆;数据服务
1 大数据概述
2011年5月,麦肯锡公司发布了研究报告《大数据:下一个创新、竞争和生产力的前沿》,自此大数据开始引起世界各行各业的广泛关注。大数据是科技迅猛发展的必然产物,随着互联网的普及、感知技术的应用及平板电脑、智能手机等移动设备的使用,人们日常生活的各类行为都会产生大量数据,如:网络购物的交易痕迹,微信、微博上的社交评论,服务器产生的各类日志,有关天气、水、智能电网的传感器数据,二维码、条形码及RFID的扫描数据,以及摄像头拍下的图像视频监控数据等。这些数据数量巨大,通常可达到PB级或EB级,且类型多样,其中结构化数据占20%,非结构化或半结构化数据占80%。此外,这些数据还具有移动速度迅速、价值密度低等特征,这就使传统的数据库软件工具无法对其进行有效获取、存储、管理和分析。随着云计算技术的出现,大数据的应用有了良好的运行平台,不断发展的云计算技术还能进一步降低大数据业务创新的成本。因此,公司及公共部门都希望利用大数据提高自身的生产力和竞争力,进而创造更多的社会价值和经济价值。
在营利性领域,大数据能够帮助企业创造巨大的商业价值。麦肯锡的估计数据显示,大数据能够帮助零售商提高60%的年营运利润及增加0.5%~1%的年生产效率。沃尔玛、亚马逊等公司利用大数据驱动市场营销,实现了创新商业的运作模式。在非营利性领域,大数据可被用于分析城市能源、废物、交通、污染、噪音及犯罪等情况。如:纽约大学的城市科学与进步中心(CUSP)是一个以提高纽约市管理效率为目标的大数据学术研究中心,该中心旨在通过传感器自动采集并分析数据,从而改善纽约市民的生活质量,创建智慧城市。大数据的有效利用能为政府部门节省大量的开支,英国政府通过有效利用大数据每年可节省开支330亿英镑;美国也表示大数据能使政府机关每年的预算节约14%,金额可达5,000亿美元。大数据还可被用于预测疾病的爆发和流行,公共卫生服务部门可通过自我跟踪设备采集监控数据,进而预防疾病的发生。在不久的将来,大数据会逐步影响社会各个行业和领域,大数据环境下的图书馆作为公共文化服务机构,要善于利用大数据,以适应用户的需求变化。
2 图书馆与大数据
图书馆的数据是否属于真正的大数据,是图书馆领域迫切需要探讨的问题。大数据除具有数量大、结构复杂、速度快、价值密度低等基本属性外,其最本质的特征还在于能够通过挖掘数据间的隐含关系,创造新的价值。图书馆拥有大量的馆藏书目数据,这些数据记录了各类型文献的详细信息,并以元数据的格式被存储。图书馆利用这些数据,提取有关作者、题名、主题、分类、团体机构及出版社等信息间的关联关系,从而创建关联其他作品、人物、事件等的知识脉络。从这个角度看,图书馆的书目数据应该属于大数据的范畴。图书馆已经通过科学的方法和特定的标识符对这些结构化的数据进行了有序组织和存储,因此,书目数据是目前图书馆记录最完备的数据资源,可作为大数据的有效数据来源。此外,读者的书目检索借阅记录、数据库的检索下载痕迹、门禁系统的刷卡记录、监控拍下的读者行为视频及读者通过图书馆微信公众平台产生的互动交流信息等,都将成为图书馆大数据的重要来源。图书馆應充分利用这些数据获取读者的实际需求,进而提升服务效率和服务质量。目前,图书馆应积极收集这些用户行为数据,并对它们进行有效组织、存储和管理。同时,图书馆还应尝试利用大数据技术创造新的信息价值,以扩大信息服务的范围,提高自身的核心竞争实力。
3 图书馆在大数据时代的角色定位
大数据时代,图书馆作为公共文化服务部门,不仅拥有大量的馆藏数据资源,还积累了丰富的数据管理经验,先进的数据发现、检索工具及编目技能都是图书馆为用户提供大数据服务的保障。图书馆新的数据服务项目必将催生出新的社会服务角色,就目前图书馆具备的优势和拥有的资源而言,图书馆在大数据环境下主要承担数据开放和数据管理的职责。
3.1 数据开放——网络大数据提供中心
大数据环境下,数据开放获取对于社会的创新发展具有至关重要的作用。近年来,各国政府陆续出台了数据开放共享政策,如:美国国家科学基金会于2012年公布了“开放政府计划”的纲领,美国白宫于2014年颁布了“开放数据行动计划”的命令,日本、法国、德国、加拿大、意大利等国也都公布了有关数据开放共享的政策,政府政策的出台将引领越来越多的社会服务部门向公众开放数据。图书馆是开放获取运动的倡导者和支持者,将馆藏数据公开,并发布在互联网上,使数据得到高效使用,进而推动人类文化知识的传承和科学研究的创新发展。
目前,图书馆应将书目数据整合到互联网上,使其能够被重复下载、存储及利用。长期以来,很多图书馆都是以《英美编目规则》(第二版)(AACR2)为标准,并以机读目录MARC格式描述馆藏信息资源,形成的书目数据虽然能在图书馆系统之间移动、使用和共享,但是这些数据不适用于目前的语义网,很难被重组和调用。为了适应数字环境的发展,国际图联提出了建立在关联概念模型上的资源描述和检索(RDA)编目规则,这就使图书馆的书目数据具备了关联数据的特质。关联数据采用RDF数据模型,利用URI(统一资源标识符)命名数据实体,能发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互关联、相互联系及有益于人机理解的语境信息。因此,关联数据能够对图书馆的书目数据进行语义描述和知识组织,解决书目数据缺乏语义的难题。图书馆将书目数据关联数据化,不仅能为读者提供数据服务,还能够融合其他数据,聚合更多的数据源,使数据资源得以共享。
世界各国图书馆都在尝试将书目数据发布成关联数据。2011年,英国国家图书馆发布了馆藏书目关联数据,目前已经发布了280万条,这些数据支持多种访问方式。2010年,德国国家图书馆将其规范数据发布为关联数据,2012年开始将馆藏书目数据与关联数据信息描述有关的特定元素进行转换,开放的数据支持图书馆专用协议访问和公开访问。2012年,联机计算机图书馆中心(OCLC)在WorldCat书目数据库中添加了描述性标识,实现了与其他关联数据的关联,且每个条目都被嵌入RDFa和Microdata,开放的数据资源都可被网页爬虫访问。2012年,美国国会图书馆提出了将MARC21书目格式转换为关联数据模式的倡议,发布书目框架的关联数据模型草案,推出书目框架格式,引起各国图书馆界的广泛关注和讨论。综上所述,图书馆发布关联数据是大势所趋,符合大数据寻求数据间关联关系的核心思想。因此,图书馆要不断探索研究关联数据,以实现用关联的方式组织信息并发布网络关联数据。
3.2 数据管理
大数据环境下,图书馆具备元数据规范和开发及对用户进行教育和需求分析等专业知识,有能力对数据进行有效管理,以实现数据的共享、传播。因此,图书馆在数据管理方面承担着数据资源组织和数据素养教育的职责。
3.2.1 数据资源组织。相关的调查研究报告显示,企业收集、组织数据的能力较差,致使他们的员工很难从数据库中获取有用的数据。《哈佛商业评论》(HBR)也提出,由于很多机构的数据缺乏一致性,人们很难获取需要的资源。图书馆拥有对信息进行有序化组织的实践经验,从最初的账本式目录到卡片式目录再到联机检索目录,不断的发展变革都是为了更好地满足用户发现和获取信息的需求。大数据时代,图书馆有能力和信心帮助企业、个人和其他组织制订完善的数据组织和存储方案,确保数据能够被有效访问和重复使用。图书馆的书目数据采用国际化通用标准进行著录,MARC的著录字段丰富,主题分类标引规范,能够详细展现资源的形态特征和内容特征。网络数字环境下,图书馆运用新的技术实现了书目数据在互联网上相互连通。如:图书馆采取为书目数据增添语义标识的方法,运用关联技术成功地将书目数据发布为关联数据。因此,图书馆拥有对书目数据进行组织的理论基础和实践经验,能够帮助个人或组织对数据资源进行有效组织,满足他们的实际需求。
3.2.2 数据素养教育。信息素养教育一直是图书馆的职责,图书馆也在信息素养教育方面取得了良好成效。大数据时代,数据成为一种重要的信息资源,其具备的创新价值更是日益凸显,无论是个人生活还是科学研究甚至是社会管理都需要利用数据驱动决策,因此数据素养对于人们理解、使用和管理数据具有重要的现实意义。数据素养是指人们在使用和处理数据时所具备的基本素养,是信息素养的组成部分。图书馆在扩大信息素养教育范围的同时,有能力和责任开展数据素养教育创新服务工作。图书馆数据素养教育主要包括以下三个方面的内容:①数据意识教育。数据意识教育是教导民众要有意识地利用数据,即培养公众对数据信息的敏锐性和对数据价值的认可。需要强调的是,数据意识教育要加强培养用户对第三方数据使用的认知,这些外部数据可以与内部数据进行关联,以获取数据的附加价值和创造新的见解,但实际情况却是只有小部分企业正在利用这些外部数据。②数据能力教育。数据能力包括数据处理能力和应用能力,数据能力教育是数据素养教育的核心,是帮助个人、企业和组织实现数据价值的关键。数据处理能力涵盖数据获取与数据管理两种技能,数据获取是通过选取适合的检索途径、发现工具和应用方法等对不同类型和格式的数据进行采集,数据管理是对数据信息进行适当的表述、标识和存储。数据应用是获取数据的最终目的,即借助一些数据统计分析软件,如SPSS、JMP、Stata和SAS等,深入挖掘数据价值、总结模式和寻求规律,进而依据数据实施科学决策。③数据伦理教育。数据伦理教育主要是指人们在搜集和分析数据的过程中要遵守相关的法律法规和道德规范。大数据时代,数据的使用安全尤为重要,特别是涉及用户隐私的数据应给予保护,人们要从规范的渠道获取数据,客观道德地分析利用数据,同时遵守知识产权及版权的有关规定。
4 结语
大数据时代,社会公众对数据服务的需求愈来愈强烈,这将促使图书馆从信息服务角色向数据服务角色转变。图书馆需要具备一定数据科学知识的数据馆员为用户提供数据服务,拥有专业技能和实践经验的馆员可以充当数据馆员的角色,他们掌握的数据共享标准、信息科学和语义网等综合知识能确保图书馆数据被有效组织、访问、检索和交付,并最终把图书馆变成一个优质的数据提供中心和消费中心。
参考文献:
[1] 夏远望.大数据时代要有大数据思维[EB/OL].[2018-11-20].http://www.thebigdata.cn/html/c3/14416.html.
[2]大数据给零售行业带来的商业价值[EB/OL].[2018-11-22].http://www.linkshop.com.cn/(2b3ngf55mbkywy45d25oafzp)/web/Article_News.aspx?ArticleId=244841.
[3] 陈如明.大数据时代的挑战、价值与应对策略[J].移动通信,2012(17):14-15.
[4] 美国联邦政府启动“大数据研究与开发计划”[EB/OL].[2018-11-22].http://www.36dsj.com/archives/3654.
[5] 杜妍洁,顾立平.国外开放政府数据政策以及图书馆作用的综述[J].图书情报工作,2015(17):141-148.
[6] 黄金辉.基于关联数据的数字图书馆书目数据关联化研究[D].武汉:华中师范大学,2014.
[7] 图书馆书目数据的关联数据化的疑惑[EB/OL].[2018-11-26].http://blog.sina.com.cn/s/blog_4c725fcc0100vz53.html.
[8] 开放关联的书目数据:为图书馆打开数据网络的大门[EB/OL].[2018-11-28].http://www.thebigdata.cn/JieJueFangAn/13555.html.
[9] 李恬.大数据理念与图书馆大数据[J].新世纪图书馆,2014(6):24-27.
[10] 加州数字图书馆数据管理计划工具研究及思考[EB/OL].[2018-11-10].http://www.fqcu.com/xueshulunwen/111663.html.
[11] 何麗.基于大数据视域下的图书馆员数据素养之探讨[J].图书情报论坛,2016(6):54-58.
[12] 高贤康.大数据环境下高校图书馆的数据素养教育[J].电子技术与软件工程,2017(1):185.