毛坚菁
摘 要:如何才能可持续发展,体现应有的价值,是全球机构知识库普遍关注并研究的热点。音视频资源是一种特殊的信息资源,上海音像资料馆音视频资源库是一个以数字化音视频资源为核心内容的机构知识库。本研究从机构知识库本体视角出发,发现了影响音视频资源再利用的六大影响因素,并尝试分析寻找可持续发展的途径。
关键词:机构知识库;再利用;影响因素
机构知识库(Institutional Repository,IR)的概念最早在大学中开始出现,英国南安普顿大学和美国麻省理工学院最早开始机构知识库的实践,美国网络信息联盟的常务董事Clifford A.Lynch对机构知识库的定义是:“大学中的机构知识库是大学为其员工提供的一套服务,用于管理和传播大学的各个部门及其成员创作的数字化产品”。随着机构知识库的发展,不再局限于大学范畴,SPARC(Scholarly Publishing AcademicResources Coalition,学术出版与资源联合会)事业部主任Richard K.Johoson认为机构知识库是“一个数字化资源集合,捕获并保存单个或多个团体中的智力产品”。综合学者们的不同表述,机构知识库可以定义为“一个机构建立的,以网络为依托,以收集、整理、保存、检索、提供利用为目的,以本机构成员在工作过程中所创建的各种数字化产品为内容的知识库。”上海音像资料馆的数字化音视频资源库就符合这些基本特征,是一个以数字化音视频资源为核心内容的机构知识库。
上海音像资料馆是上海市的专业音像资料馆,致力于音视频资源的收集、购买、整理、保存、研究、制作、交流及数字化生产与管理。通过多年的不懈努力,已形成了以音视频资源为馆藏特色的知识库,数字化音视频资源馆藏量已超过70万小时。这个音视频知识库,主要面向广播电视、新媒体及学术团体的节目制作、开发与研究提供服务。
当前全球各类机构知识库都普遍面临一个问题,即如何才能可持续发展,这已成为业界普遍关注的热点和无法回避的现实命题。黄纯艳认为IR可持续发展的核心是“信息资源的可获得性、可存取性和可利用性”;龚亦农认为“IR不是一个简单的仓储设施,而是一个复杂的‘生命体”。如何能够让机构知识库真正发挥作用,体现它应有的价值,是知识库建设者和运维管理者的一个核心课题。机构知识库可持续发展影响因素的研究,主要有四种视角:生命周期视角、IR本体视角、外部环境视角、内外因综合视角。其中,IR本体视角的研究指出,要充分考虑信息平台及相关数据库平台的数据共享集成和再利用问题[1]。从这个视角出发,笔者将研究聚焦在机构知识库资源再利用上,通过对上海音像资料馆音视频资源核心用户的深度访谈及结果数据分析,尝试揭示机构知识库资源再利用的影响因素。
访谈对象包括记者编导、音视频资源研究人员和数字化编目人员,此三类访谈对象都同时具备数字化资源创造者和使用者的双重身份。访谈过程中,要求每一个访谈对象结合使用资源库的经验和感受,总结他认为影响知识库资源再利用的因素,数量不限,经过对访谈结果的系统整理、归纳与分析,共得到十二个影响资源再利用的因素,其中集中度较高的机构知识库再利用影响因素分别为:检索效率、资源量、响应时间、流程效率、标引质量以及版权属性。由此也可以看出,随着版权意识的强化,资源的版权属性对再利用的影响也很大。表1为访谈分析结果中涉及的影响因素及被提及的频次占比。
以下针对访谈结果,尤其着重对六大因素以及针对这六大因素如何提升知识库的再利用做概述和思考。
1 机构知识库资源再利用六大影響因素
1.1 质量因素,标引质量是再利用的生命
标引指通过标记指引人们方便、快捷地找到所需要的信息。通过对资源的分析,选用确切的检索标识,用以反映该资源的内容的过程。标引的质量,对资源的检索效果有直接的决定性影响。标引的穷举度影响资源查全率,一致性则影响资源查准率。
标引质量是资源质量的核心要素之一,不论是人工标引还是现在越来越热的自动标引,如何提升标引质量都是核心议题。标引没做好,检索结果的有效性就大打折扣,再好的资源也很难充分再利用,发挥长尾效应。可以毫不夸张地说,标引质量就是资源再利用的生命。
1.2 数量因素,资源数量是再利用的根基
资源数量是应用的根基,历史资源与冷门资源的积累是资源积累的两个难点。同时,应用场景的变化产生对资源需求的变化,随着移动端的应用越来越广,对资源需求的面也越来越广,因此要求资源管理部门进一步拓展资源涉及面。存在的就是合理的,互联网时代的需求是无极限的。随着数字化存储介质飞速发展,存储成本已越来越不是问题,尽可能把资源留下来是当前应当采取的合理模式。
有意识地做地标性空镜的时间轴积累也很有必要。同一地标在时间轴方向上的数量积累在经过岁月的积淀后能凸显出效果,尤其适合用于反应今天日新月异的城市发展与变迁。
1.3 三大效率因素,检索效率、响应时间、流程效率是再利用的保障
检索效率、响应时间、流程效率是影响资源获取效率的三大因素,直接影响用户的体验与满意度,从而对资源的再利用产生巨大影响。
检索效率要从查出率和查准率出发,搜索引擎和冗余信息是知识库发展到现阶段必须突破的卡点。搜索引擎的能力直接影响用户体验与检索效率。搜索引擎的中文分词能力、结果排序策略等都对检索效率产生直接影响。冗余信息降低查准率,增加获取难度。
响应时间指计算机系统对用户的输入或请求作出反应的时间[2]。系统响应时间的计算要考虑到用户的数目,用户数目越多,响应时间必须越快,不然就难以保证每一个用户都有可以接受的响应时间。
流程效率主要受内部资源共享策略的影响,流程周期时间是非常重要的效率指标。资源获取所需要的流程越长,资源获取意愿和资源获取满意度就越低。