摘 要:本文首先对KBART进行概述,然后阐述基于KBART的元數据交换的相关建议,以及基于KBART的期刊元数据的开放存取类型,最后总结KBART针对期刊元数据的开放与共享做出的改进。
关键词:KBART;期刊元数据;开放;共享
1 KBART概述
KBART是知识库及其相关工具的推荐实施规范,全称为Knowledge Bases and Related Tools Recommended Practice。作为提高知识库数据效率和有效性的数字资源规范,KBART为信息供应链中的各方提供了关于元数据格式和元数据规范等的直接指导,确保内容提供商与知识库开发者之间准确的元数据交换,通过改善链接解析器和知识库的数据供应,解决影响开放链接的问题[1]。
2007年,英国连续出版物集团(United Kingdom Serials Group,UKSG) 出版了由James Culling撰写的《链接解析器和连续出版物的供应链》(Link resolvers and the serials supply chain) 研究报告[2]。Culling在该报告中确认和描述影响开放链接有效性的一系列问题,并建议成立一个工作组,目的在于确定和向整个业界推广“最佳实践”的解决方案,以改进与知识库间的元数据交换。2008年1月,由UKSG和NISO(美国国家信息标准协会National Information Standards Organization)组成的联合工作组正式启动,开始负责此项工作。由此产生的KBART推荐实践规范提供了将数据传输到知识库的指南,包括格式和数据交换方法。
第1阶段于2010年完成,发布了第一期推荐实施规范(NISO RP-7-2010),目标是改善链接解析器和知识库的数据供应,以提高OpenURL链接的效率和有效性,第一阶段报告提供了实现此目标的基础建议。第2阶段于2014年完成,在第1阶段的基础上,第2阶段的工作重点在于解决那些影响元数据供应中更具体和更复杂的问题上,修订元数据供应传输规范,深入调查用户需求,改善知识库的数据供应情况,明确提供商合作框架,同时建立信息门户,开展系列推广活动,并提供全面的信息资源。知识库提供商及其客户(主要是高校图书馆) 均受益于内容提供商所提供的高质量的数据,发布商也会受益于其内容的准确链接。2014年4月发布了第二期推荐实践规范( NISO RP-9-2014)修正草案。重点修订内容包括:与联盟、开放获取出版物、电子图书和会议论文集等相关的元数据规范,以及数据交换和传输的方法、交换频率、数据格式、数据发布等。在第二期推荐实践规范修正草案发布后,工作组过渡到由跨行业专业人士组成的NISO常务委员会。该小组的重点是授予KBART认可并提供社区外展和教育。
2 基于KBART的元数据交换
元数据,通常定义为描述数据的数据,旨在便利存取、管理、共享和处理大量结构化和或非结构化的数据。元数据交换使数据交换各方之间按共同规则描述元数据信息,完成对元数据的存取交换功能。KBART推荐实施规范的一个关键组成部分就是对于内容提供商和知识库供应商之间进行元数据交换的相关建议,而元数据交换是元数据开放与共享的基础。
2.1 KBART元数据字段
在内容提供商所提供的元数据文件中,应当将表1的这些字段作为列名。由于元数据文件的接收者希望以匹配的格式接收所有文件,因此即使内容提供者无法提供任何信息或者没有适合特定字段的信息,每个字段也应按表1给出的顺序列出来。为避免混淆和不必要的错误,内容提供商需要在生成的每个文件上标记列标题。为了提供KBART未作要求的其他用途的附加信息,允许内容提供商在最后一个KBART使用位置(排在第25位的access_type)之后添加额外的元数据字段。NISO常务委员会目前在工作中看到的额外字段包括联机计算机图书馆中心(OCLC)编号、主题、标题历史记录等。
对于多次更改刊名的期刊,在生成基于KBART的元数据文件时,可参考表2。
2.2 元数据文件格式
所有基于KBART的元数据文件都应以纯文本形式提供,并编码为UTF-8。每个文件都应以制表符分隔,并且按照KBART推荐实施规范中的顺序排列。与文件中所表示内容相关的所有字段都是必填字段。
2.3 元数据文件命名
KBART推荐的文件命名格式为:[ProviderName]_[Region/Consortium]_[PackageName]_[YYYY-MM-DD].txt。括号中的每个元素代表如下定义名称的可变部分。
1)ProviderName是托管数据的平台名称。该元素有助于区分文件的来源。例如,PsycARTICLES数据库可通过多家内容提供商获得,包括EBSCO,Ovid和美国心理学协会。要根据文件的来源填写相应的内容提供商名称。
2)Region/Consortium提供关于元数据集的销售地点,或者可以使用这个数据集的联盟的相关信息。如果文件是通用的,则应使用“Global”作为此元素。
3)PackageName是元数据集的名称,因为内容提供商的客户希望在知识库中标记它。
4)YYYY-MM-DD是使用ISO 8601日期格式的文件创建日期。
综上,“TaylorandFrancis_Global_AllTitles_2014-08-30.txt”为符合KBART的文件名 。该文件由TaylorandFrancis提供,标题列表不特定于某个地区或联盟,包括内容提供商提供的所有标题,创建日期是2014年8月30日。“Springer_Asia-Pacific_Medicine_2016-01-28.txt”也为符合KBART的文件名。该文件由Springer提供,销往亚太地区,元数据集名称为“Medicine”,创建日期是2016年1月28日。
2.4 元数据文件交换的方法
生成基于KBART的元数据文件后,内容提供商必须能够将文件提供给知识库供应商。首选的传递方法是将文件发布到专用网页或文件传输协议(FTP)站点。使用电子邮件进行传递并不理想,因为将其纳入自动化处理程序非常困难。但是,如果将文件发布到网页或FTP是无法实现的,则用电子邮件进行传递也是可接受的替代方案。
2.5 元数据文件交换的频率
创建和交付基于KBART的元数据文件不是一次性的行为。要使内容提供商的数据能够准确地反映在知识库中,必须定期创建和交付元数据文件。KBART建议大多数内容提供商每月更新一次,但是内容提供商可以依据实际的馆藏资源变化率大致调整元数据交换的频率。
3 基于KBART的期刊元数据的开放存取类型
期刊元数据包括表1中列出的适用于连续出版物的KBART字段。由于有很多文章刊载在期刊中,每一篇文章又包括很多元数据,如标题、摘要、关键词、参考文献等,因此本文中所提及的期刊元数据也包括这些元数据。
通常无法轻易判定,对于通过开放存取获得可利用的文章或标题,是免费的还是需要收费的。因为在这方面存在多种可能性,不能简单地采用二元对立的思维来看待。比如,一个期刊中的单篇或多篇文章可通过作者付费的开放存取获得,而期刊的其余部分仅可通过订阅获得。在某些情况下,发布者会选择自某一卷或某一期发布以来的一段时间之后,将所有内容进行开放存取。目前基于KBART的期刊元数据的开放存取类型如下:
1)延迟开放存取。可以通过开放存取获得最近12个月以前的刊名数据,而最近12个月的相关内容需要订阅。
2)标题转换开放存取。由不同出版商购买和销售时,从开放存取或免费获取的标题转换为需要付费订阅的标题。
3)作者付费的混合型开放存取。总的来说,对于内容的访问需要订阅,但是一些特定的文章可以在作者付费的支持下,通过开放存取获得。
在所有这些情况下,很难确定用户在任何时间都可能被拒绝访问期刊元数据的原因。因为KBART期刊元数据文件处于标题级别而不是文章级别,所以几乎不可能解释各种各样的开放存取和免费可用的内容模型。KBART建议以后能够从文章级别进行处理,从而更好地解决这个问题。
4 KBART针对期刊元数据的开放与共享做出的改进
针对期刊元数据的开放存取问题,在第二期推荐实践规范(NISO RP-9-2014)中,KBART修改了一个字段,并且添加了一个字段和可选的自由文本元数据。这些元数据有望改善最终用户的访问权限,而且内容提供商和第三方供应商能够更容易解决开放存取的问题。
4.1 修改的字段名:notes
对于一些内容提供商来说,他们希望对开放存取范围进行注释,尤其是对混合型开放存取的注释。对此,KBART将使用可选的“notes”字段。“notes”字段仍然是KBART第二阶段的自由文本和可选字段,可以比较容易地解释特定标题(包括但不限于有关开放存取内容的注释)的细微差别。这可能会为第三方供应商提供帮助,比如链接解析器供应商以及图书馆。
4.2 新增的字段名:access_type
这个新的必填字段可以有2个值,包括F和P。使用“F”表示期刊元数据是开放存取或可以免费访问的。使用“P”表示需要支付某种费用(例如,订阅、购买等)才能访问期刊元数据。对于包含免费和付费内容的混合型开放存取期刊,出版商和供应商应根据需要进行多次记录,以指明免费访问的范围和需要支付费用访问的范围。例如,如果期刊有一年的推迟间隔,其中最近12个月是付费访问,这会由两个记录表示,第一个记录在access_type字段中的值是“P”(付费),第二个记录在access_type字段中的值是“F”(免费),即对于超过12个月的内容是免费的。
当同时采用access_type字段和embargo_info字段时,KBART建议在这两个字段中都需要进行两次記录。一个记录是推迟间隔之前的免费内容(标记为“F”表示免费),第二个记录表示需要订阅的内容(标记为“P”表示需要付费)。
参考文献
[1]姚晓霞,刘娟娟,邓石等.突破开放链接瓶颈的数字资源规范KBART解析[J].图书情报工作.2018(6):26-30.
[2]James Culling. Link Resolvers and the Serials Supply Chain[EB/OL].[2019-02-08].http://www.uksg.org/sites/uksg.org/files/uksg_link_resolvers_final_report.pdf.
作者简介
赵宇曦(1996-),女,汉族,北京,上海大学图书情报档案系,硕士研究生,研究方向:档案学。