大数据时代下图书馆的数字策展(Digital Curation)信息服务

2019-08-22 09:53曹璘琳
卷宗 2019年19期
关键词:信息服务大数据图书馆

曹璘琳

摘 要:数字策展(Digital Curation)是大数据时代下图书馆领域的研究热点。文章介绍了数字策展概念的内涵,通过实例阐述了数字策展服务的主要方式和内容,最后从图书馆的角度考察了数字策展信息服务的具体内容。

关键词:大数据;数字策展;图书馆;信息服务

过去,图书馆是针对非特定人群进行信息服务,如今在大数据的时代背景下,图书馆基于使用者的关注内容、个人喜好等,能够提供个性化信息服务。数字策展(Digital Curation)在许多方面影响着我们的生活。

进入2010年以来,最受大众瞩目的词之一就是“大数据(Big Date)”。无论是企业、公共机构,还是健康、医疗、广播、教育等社会领域,大数据的实用性和价值均受到广泛关注。随着信息技术(IT)的持续发展、智能手机的普及、物联网(IoT)浪潮的到来,大数据的关注度进一步提高。

对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳试图给出其定义。在这些定义中,比较有代表性的是3V定义,即认为大数据需满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)[1]。大数据作为结构化数据、半结构化数据与非结构化数据的总和,其种类繁多、数量庞大,有文档、图像、音乐、视频等各种数据类型。在快速增长的大数据环境下,人们越来越难直接获取自己想要的信息,为使用户在海量数据中快捷、简便搜索到喜爱和满意的信息,数字策展信息服务显得非常必要。

1 数字策展(Digital Curation)的含义

17世纪中叶,“Curation”一词被引入博物馆学,当时出现了“the Curator of the Royal Society”类似说法,其中“Curator”意为“对于博物馆、艺术馆、图书馆或类似机构的主要负责人的正式称呼”,“馆长”。20世纪以来,随着对博物馆藏品相关知识发掘和传播的重视,学界产生了“一流的Curator是一个学者,也是一个老师,更是一个向外界展示的窗口”的观点。牛津英语词典在1993年的修订版中增加了“管理者对一系列保存或展出藏品的监管(Supervision)”这种释义。Dallas将“Curation”和“Curator”的含义归纳为两个方面:其一,取“领域专家”和“馆长”之意;其二,取“展览策划人”也即“策展人”之意,“根据馆藏或某种需求确立主题、遴选展品、设计展览效果、完成展览制作和与之相配套的学术研究、宣传出版等”。 下面列举几个国内外具有代表性的观点。

Harvey(2010)指出,为了实现数据的再现、再利用和增值,从数据产生之初到其不再有用,数字策展涉及对学术科研、行政管理和/或符合个人兴趣数据的主动管理,用以确保数据长期的易用性、保存、可信性和完整性。数字策展比数字归档和数字保存的外延更广。它处理数据全生命周期全程的所有环节。通过制定数据采集的标准,进而产生“Curation-ready”(数据处于能够确保其在未来维护和利用的最佳状态)的数据,数字策展开始于数据产生之前,并强调通过附加元数据或标注的方式促使数据集增值和再利用。

维基百科(2013)[2]中写到,数字策展是对数字资产的选择、保存、维护、收集和归档。为了当前和未来之用,数字策展建立和维护数字数据仓储,并促使其增值。这种活动通常需要档案学者、图书馆学者、科学家、历史学家和其他学者的通力合作。企业在运营和战略环节中利用数字策展来提高信息和数据的质量。成功的数字策展能够延缓数字老化,能够保证用户对信息的永久存取。以往“Curation”一词通常用于博物馆和图书馆专家之间,现在它已经被应用到数字影像、网络链接和视频文件等社交媒体的保存之中。

根据DCC(Digital Curation Center, 2014),数字策展包含对数字科研数据整个生命周期的维护和保存,并促进其增值。对科研数据的主动管理可以减轻对长期研究价值的威胁并减缓数字老化的进程,还可以实现更大范围内的整个英国科学界对可信数字仓储中数据的共享,同时减少生产科研数据的重复劳动。通过使现有数据可以被未来更高水平研究获取,数字策展提升了现有数据的长期价值。

2 数字策展(Digital Curation)服务

数字策展(Digital Curation)服务依据不同参与者进行信息过滤,分为“数据策展(Data Curation)”和“社会化策展(Social Curation)”两个种类。数据策展是服务提供方运用信息或产品属性、使用者和顾客个人喜好等,提供相关服务。亚马逊(Amazon)网站和音乐推荐潘多拉(Pandora)网络电台就是数据策展服务的典型成功事例。

线上书城亚马逊网站将所有顾客的购买信息存储到数据库,并对存储记录进行分析研究,从而掌握顾客的消费趋向和个人喜好。也就是说,通过分析顾客喜好,自动提供与分析结果一致的个性化产品。美国最大的个性化网络电台潘多拉创立了音乐基因组计划,并在此基础上发展出音乐自动推荐系统及网络电台服务。如果用户输入歌曲或歌手的名字,潘多拉的音乐信息数据库会将音源分类为400个不同属性,帮助确定听众偏好,做出播客推荐。用户可以对每首推荐歌曲选择“我喜欢”或“我不喜欢”字样的拇指图标,听歌期间还可进入亚马逊网站或iTunes商城购买歌曲和专辑。亚马逊网站尤其图书板块是“长尾(Long-tail)”商业模式的代表性成功事例,它通过文章推荐、主题分类、顾客喜好分类等多种方式,自动推荐相关图书产品,多样化满足各类人群需求,大幅提高销售额。

与之相反,社会化策展中筛选、过濾产品的主体是消费者。与一般数字策展的区别是消费者或产品用户可以订阅他人过滤的产品信息,同时也可以与他人共享自己的产品内容。拼趣(Pinterest)是社会化策展的成功事例,其以图片为基础,用户自己收集图片并与他人分享,被称为图片形式的信息共享服务。拼趣采用的是瀑布流的形式展现图片内容,高效而具有吸引力,无需用户翻页,新的图片不断自动加载在页面底端,让用户更乐于沉浸在探索与浏览当中。

猜你喜欢
信息服务大数据图书馆
图书馆
公共图书馆科技创新服务探析