孙海燕?解登峰?孟祥莲
摘 要 日本开放获取知识库联盟(JPCOAR)为应对近年来国际形势变化和学术信息发布技术发展、促进日本学术成果的国际流通,开发出了取代junii2的新一代元数据模型,对完善我国机构知识库元数据模型具有较强的借鉴意义。本文梳理了JPCOAR元模型的开发背景、基本原则和特点,并在此基础上分析了日本机构知识库元数据模型未来的发展趋势。研究发现,未来元数据最重要的是正确提供标识符并使其成为易于处理的数据结构,而不是专注于精细化描述。
关键词 JPCOAR 元模型 特点分析 发展趋势
分类号 G250
DOI 10.16810/j.cnki.1672-514X.2020.03.015
Abstract In response to the recent changes in the international situation and the development of academic information dissemination technology, and in order to promote the international circulation of Japanese academic achievements, JPCOAR has developed a new generation metadata model that replaces junii2. It has strong reference for improving the metadata model of institutional repository of our country. By thorough inspection of the development background, basic principles and characteristics of the JPCOAR Schema, this paper concludes the future development trend of the Japanese Institutional Repository metadata model. The results show that the most important thing about future metadata is to correctly provide the identifier and make it an easy-to-handle data structure, rather than focusing on fine-grained descriptions.
Keywords JPCOAR. Schema. Characteristic analysis. Development trend.
0 引言
21世纪初兴起的机构知识库在世界范围内掀起持续的研究和建设热潮,近年来机构知识库建设在我国也引发了广泛关注和研究,但当前国内机构知识库建设仍然处于成果积累和模式摸索阶段,政策和联盟环境还有待进一步完善[1]。其中DC元数据是目前我国机构知识库使用最广泛、最基础的元数据标准,由15个核心元素构成,辅以限定词描述,适合网络语义关系下的存储、管理及查询利用[2]。日本各机构知识库资源的元数据长期以来采用的junii2元数据模型,其前身同为DC元数据标准。由于我国机构知识库建设起步晚,目前尚无统一的元数据模型。因此,JPCOAR元数据模型的开发背景、基本原则及发展趋势,对我国机构知识库元数据模型的开发有极强的借鉴意义。
日本各机构知识库资源的元数据长期采用的junii2元数据模型通过日本国立情报学研究所(NII)的学术机构知识库数据库(IRDB)广泛传播。“高校图书馆和国立情报学研究所联合推进会”下设的机构知识库推广委员会为了应对近年来国际上学术信息交流形势变化和新技术发展、促进日本学术成果的国际流通,于2016年设立了元数据研讨专家组。该专家组自设立之初就致力于研发取代junii2的下一代元模型。2017年开放获取机构知识库联盟(JPCOAR)成立后,其下设的元数据标准专家组接替了元数据研讨专家组的工作,并于2017年10月份正式發布“JPCOAR元模型ver1.0”。本文将详细阐述这一元模型的开发背景、基本原则和特点,并在此基础上分析日本机构知识库元数据模型未来的发展趋势,以期为我国机构知识库建设提供有益借鉴。
1 JPCOAR元模型的开发背景与基本原则
1.1 JPCOAR元模型的开发背景
1.1.1 Dublin Core——junii2的前身
日本机构知识库元数据模型的历史可以追溯到2002年的“NII元数据数据库共建项目”[3]。这一项目初衷是全日本的大学、研究机构共建线上学术信息资源的元数据数据库,使得注册的元数据能通过“大学Web资源检索”(JuNii:高校信息元数据试用门户网站)系统开放。这一项目的开展需要一个通用的元数据模型,于是,2001年经NII内部组建的元数据数据库研讨工作组的研究,参照Dublin Core Metadata Element Set(DCMES),从中选用了15个元数据描述元素。随着2005年NII前沿学术情报基础设施项目(CSI)的启动,构筑机构知识库的机构越来越多,JuNii便发挥了机构知识库门户的作用。NII致力于JuNii元数据模型的修订,并于2006年开发了日本沿用至今的元模型junii2,用于收集机构知识库的元数据。随后,NII试运行了机构知识库门户网站JuNii+之后,又试运行了为学术机构知识库提供服务的门户网站JAIRO。这两个网站于2009年相继正式投入使用。然而由于各机构知识库元数据描述方法不统一,导致检索效果不佳。因此,2009年NII经广泛征求意见后,对junii2进行了一系列修订,次年3月发布了ver1.0。之后为了应对学位制度改革,NII又对junii2进行了多次修订,到2017年10月junii2的版本已经更新到ver3.1。
1.1.2 学术信息传播时代的变迁
日本2015年内阁报告书提出“机构知识库要作为支撑开放科学的基础设施发挥作用”[4]。在日本,随着构筑国际性网络的呼声越来越高涨,IRDB于2016年开始向欧洲开放获取平台OpenAIRE提交元数据[5](如图1)。
机构知识库推广委员会顺应这一潮流,由下设的几个工作组针对元数据所需元素进行调研,充分把握论文开放获取情况、元数据及资源内容的多样性,以确保开发的元模型具有良好的国际互操作性。调研发现,为了应对开放科学运动,必须对junii2进行全面修订。自此,JPCOAR开始就开发新的元模型进行研讨。
1.2JPCOAR元模型开发的基本原则
2016年10月,JPCOAR公布了全面修订junii2的基本原则,并广泛征求意见后,发布了JPCOAR元模型开发方案。这一开发方案于2017年3月开始正式实施。基本原则有以下几点[6]。
(1) 有利于开放科学、开放获取原则。在欧美,近年来政府资助机构要求获得公共基金资助的学术成果开放获取已成为新常态。在日本,关于开放科学的研讨也已经上升到政策层面,除了学术论文外,要求开放获取作为论文支撑的科研数据的呼声也越来越高涨。执行OA政策的大学、资助机构的数量也在不断增加。JPCOAR为顺应这一潮流,在开发JPCOAR元模型过程中追加了满足研究数据管理等社会新需求的元素。
DataCite作为一个帮助研究者发现、识别和引用研究数据的非营利性机构,为科研数据等数字资料提供了持久标识符DOI(数据对象标识符)。JPCOAR元模型开发过程中,借鉴了DataCite的元数据模型,使其能够描述各类贡献者的属性。此外,为了标识获得公共基金资助的研究成果,促进其开放获取,JPCOAR还增加了与资助机构相关的元素及描述资源OA状态的访问权限元素。
(2) 有利于准确识别信息原则。要准确识别资源,将一个实体与另一个实体明确区分的标识符显得尤为重要。修改元数据结构、扩展标识符,最终目的都是为了准确识别信息。现代学术信息交流要求学术成果元数据不仅僅在所属机构内传播,同时还要在日本国内外传播。这就要求JPCOAR使用具有良好国际流通性的标识符。基于这一点,新的元模型增加了论文、研究人员、机构层面的标识符。此外,当前junii2的构造是各元素以平面方式描述信息,元素之间的关系无法被机器识别。为解决这一问题,JPCOAR元模型将关联信息分组(分层)描述,提升信息识别度。
(3) 有利于提升国际互操作性原则。为促进日本学术信息的国际交流,JPCOAR在充分调查了国际动态后,决定参照国际互操作性较高并极有可能成为未来IRDB主要合作对象OpenAIRE的指南开展修订工作。此外,OpenAIRE为了走出欧洲、在世界范围内收集并传播研究成果,也在不断修订其指南[7]。JPCOAR元模型整个开发过程中注意一直保持与OpenAIRE的沟通交流,以便能够与OpenAIRE指南兼容。因为OpenAIRE采用了COAR的controlled vocabularies(受控词表),所以JPCOAR元模型也采用了其资源类型和访问权限。COAR的受控词表遵循SKOS标准,提供指向URI、定义多语言词汇表名称及其他受控词表的链接,以提高元数据的准确性和国际互操作性。JPCOAR元数据标准专家组的部分成员加入了COAR受控词表编制委员会,在词表翻译、词汇补充等方面做出贡献。COAR中的资源类型在词汇方面是分层次的,并且存在多种资源,因此在准确运用方面有难度。鉴于此,JPCOAR元模型通过精炼词汇的方法避免类似概念词汇的混用。这样虽然主要架构基本上沿用了国际性元数据模型的做法,但JPCOAR对其进行了一系列修改使其更加适合日本国情,并且用指南明确定义并提供与主要合作对象的映射,以确保互操作性。
2 JPCOAR元模型的特点
JPCOAR元模型由三层、79元素、15种属性构成,如表1所示,与junii2相比,JPCOAR元模型不仅增加了元素、属性的种类,还增加了规定使用词汇的受控词表及语言属性的可用元素数。此外,JPCOAR元模型还通过增加标识符或URI格式的描述符,实现更复杂的元数据描述和流通。
JPCOAR和junii2的目标资源都以学术论文为主,但JPCOAR元模型还支持科研数据等多种资源类型。Junii2在促进日本学术信息传播和保障机构知识库稳定运行方面发挥了巨大作用。JPCOAR元模型继承了junii2的优势,且兼具良好的国际互操作性和可持续性。JPCOAR元模型主要特点有以下几个方面。
2.1 采用外部模型
如上所述,在开发JPCOAR元模型过程中,JPCOAR充分考虑到元数据的国际互操作性,参考了OpenAIRE、DataCite、DC-NDL,DublinCore、RIOXX等多种外部元模型[8]。JPCOAR的顶级元素中有17个使用了外部模型,如表2所示,在选用外部模型时,JPCOAR优先选用了更通用模型的元素。比如,表示资源标题的元素在各模型中都有出现,但JPCOAR选用了最为通用的Dublin Core元素。
JPCOAR元模型主要通过捕捉公共基金资助的研究成果的开放度来响应开放科学运动。因此,元数据要能够清楚的地表示OA状态,如是否开放获取及开放日期。关于这一元素,JPCOAR在充分研讨RIOXX的free-to-read,OpenAIRE的Access Level及Embargo End Date的基础上,选定了在表示开放获取状况和日期信息方面有优势的OpenAIRE。
管理公共基金资助信息是实现开放科学的一项重要工作。DataCite的FundingReference、OpenAIRE的Project Identifier,RIOXX的project都是与此有关的元素。由于OpenAIRE和RIOXX使用自己的词汇和描述规则来描述科研课题信息,因此JPCOAR选用了更为通用的dataCite处理日本课题信息。但是,为了实现日英双语描述的语言属性,必须分别定义资助机构名称(jpcoar:funderName)和项目名称(jpcoar:awardTitle),因此,其上位元素资助信息(jpcoar:fundingReference)也必须分别定义。
JPCOAR元模型在描述学位论文方面因为考虑到与国立国会图书馆(NDL)的合作,主要采用了DC-NDL的元素。与junii2相比,JPCOAR元模型因为采用了COAR的受控词表描述资源类型,所以能够区分博士论文、硕士论文和学士论文。因此,在JPCOAR元模型中不再需要junii2中用于识别博士论文的著者标识“ETD”。考虑到与标识符的对应关系,JPCOAR元模型将学位授予机构和创建者都定义为唯一元素。总体来说,JPCOAR元模型与junii2相比,元素配置上更加考虑元数据互操作性。
2.2 采用外部词汇
JPCOAR元模型考虑到国际互操作性,词汇方面原则上采用外部受控词表。例如,用COAR的受控词表Resource Type Vocabulary(资源类型词汇表)替代了junii2使用的日本特有资源类型NIItype并充分考虑二者差异性。比如junii2的“Departmental Bulletin Paper(纪要论文)”“Learning Material(教材)”等,在Resource Type Vocabulary里没有与之对应的词汇,于是采用了日本特有的词汇,元数据国际流通时,分别对应“Journal Article”“Others”。但是,由于“Departmental Bulletin Paper(纪要论文)”是日本机构知识库的主要资源类型,“Learning Material(教材)”在国际上也是重要资源类型,因此JPCOAR将来考虑将其添加到Resource Type Vocabulary中。访问权限主要采用了COAR受控词表Access Rights Vocabulary中的词汇,另有一部分词汇选自DataCite。比如各种日期信息(发布日期、创建日期等)最初仿照junii2被定为单独元素,但最终发现使用DataCite的日期元素等属性更为合理。但是,学位论文的学位授予时间采用了DC-NDL的元素。表示资源开放日期时,将访问权限(dcterms:accessRights)作为开放权限“embargoed access”。date元素方面,指定date Type=“Available”,輸入解禁日期。解禁后,须将访问权限修改为“Open access”。另外,贡献者(jpcoar:contributor)种类相关的词汇也选自DataCite。JPCOAR通过选择DataCollector、DataCurator等角色表示的词汇来明确表达研究人员的贡献度。
2.3 扩充元素及属性
JPCOAR元模型的顶级元素中,有18个名称为“jpcoar:~”的元素是自定义的,是外部标准元模型中没有的。如表3所示。虽然尽可能减少自定义元素有利于提升日本元数据的国际互操作性,但完全使用外部元素描述元数据又会出现种类不够或过剩的情况。因此,JPCOAR在整体把握整个JPCOAR元模型时,有必要考虑自定义元素与其他元素的平衡以及与junii2的向后兼容性。基于这些原因,JPCOAR决定在外部元模型原有元素基础上适当修改,尽可能减少日本特色形成特有元素。
(1)创建者(jpcoar:relation)。虽然junii2也可以输入作者ID,但JPCOAR元模型中,创建者标识符(jpcoar:nameIdentifier)属性还可以描述作者ID的类型(如e-Rad, NRID, ORCID, ISNI, VIAF, AID等)。例如,日本广泛使用的科研资助人员编号就使用NRID。关于创建者姓名,JPCOAR在描述作者姓名读音时,如果引入一个类似creator Transcription的子元素,则国际互操作性变差,因此,JPCOAR是在创建者姓名(jpcoar:creatorName)上使用xml:lang=“ja-Kana”语言标签来描述。在创建者所属机构(jpcoar:affiliation)中,作为基础的datacite:affiliation是自由描述,与输入的所属机构ID(kakenhi,ISNI,Ringgold,GRID)相对应。如图2所示。
(2)关联信息(jpcoar:relation)。JPCOAR元模型强调标识符的正确处理,并且只有真正指向内容本身的标识符(DOI, Handle URL, URI)才被描述为标识符(jpcoar:identifier),相关资源的标识符描述为关联信息(jpcoar:relation)。这两者是明确区分的。明确描述关系显然有助于实现更好的服务。junii2中描述关联信息的元素是独立的。(relation, isVersionOf, hasVersion, isReplacedBy, replaces, isRequiredBy, requires, isPartOf, hasPart, isReferencedBy, references, isFormatOf, hasFormat)在JPCOAR元模型中归为一个元素类型,与属性relationType相区别,如图3所示。
3 JPCOAR元模型的未来发展趋势
3.1 JPCOAR元模型被加速普及
2018年底NII对JPCOAR元模型进行了最后的修改,目前IRDB与JPCOAR元模型已经能够兼容。IRDB从703个机构知识库(截至2019年3月底)收集元数据提供给CiNii等外部服务网站[9]。目前元数据几乎按原样提供给外部服务网站,但在下一代CiNii中,日本计划在论文、图书、期刊和博士学位论文基础上整合研究支持信息和研究数据等元数据,使这些元数据能够链接至IRDB的元数据。从国际性流通的角度来看,收集和提供高质量的元数据很重要。因此,在升级之后的IRDB中,元数据的标准化和权限验证得以实现。收集和提供尽可能准确无误的元数据,将有助于改善日本国内外的学术信息流通环境。此外,截至2019年3月,日本有558家机构知识库使用由JPCOAR和NII共同运营的机构知识库云服务JAIRO Cloud[10]。与JPCOAR元模型兼容的JAIRO Cloud新版也已经在2019年开始试运行。这一举措将大大加速JPCOAR元模型的普及。
3.2 JPCOAR元模型目标资源进一步拓展
在JPCOAR元模型的开发中,除了学术期刊文章和学位论文外,还纳入了研究数据和会议资料所必需的元素,以便能够处理多种类型的学术信息。最终目的是组织元数据流通所需信息、促进学术成果的顺利流通。将来,可以用作研究素材的数字化学术信息也将越来越多,如数字化的书籍、文献、博物馆资料等。日本的大学图书馆从很早就开始为有价值的资料制作数字档案,有的大学图书馆还将这些数字档案通过机构知识库进行公开。然而,数字档案一般是与其原件合并为一条独立存在的元数据,且由于它们分散在所藏机构中,不便于整合利用。 JPCOAR今后的重点课题之一便是研讨如何将贵重资料数字档案纳入JPCOAR元模型的目标资源。为了实现国际性信息流通,JPCOAR将OpenAIRE作为假想的元数据交换对象进行日本机构知识库元数据整合。因此,数据合作对象极为明确。考虑到近年来各种Web服务的广泛应用,JPCOAR今后将考虑提供其他格式的数据。鉴于对各个机构知识库的影响,JPCOAR决定目前维持OAI-PMH协议,但会密切关注国际动向的变化,并根据国际形势研讨未来的协议。
4 对我国机构知识库元数据模型构建及应用启示
与日本相比,我国机构知识库元数据标准的规范化程度还不够高,体系有待完善,并且尚无统一的元数据模型。在今后的发展中,我国不仅要加强自身技术建设,更应增加与国外相关机构的合作学习,深层次推进机构知识库元数据模型的构建工作[11]。
(1) 在已有元数据标准的基础上,根据需要进行修改,最终形成适合我国机构知识库情况的元数据模型。考虑到元数据模型规范设计和长期维护的复杂性及国际化环境和互操作的需要,我国应充分比较各元数据标准的特点,分析资源管理、共享、应用等各方面的需求,并充分考虑各机构知识库资源的特有属性、功能需求和服务对象范围,从中选出适当的标准,再根据需求进行调整与修改,形成适合我国国情的元数据模型。
(2) 构建具有实用性、准确性、可扩展性和前瞻性的元数据模型,推进机构知识库建设。一方面,元数据模型的设计应针对于不同类型用户,根据实际应用过程中的需求进行元素扩展;另一方面,元数据模型应容纳较多的元素,具有较强的描述概括能力。由于用戶的具体需求是多样的,动态变化的,资源描述与信息检索的技术的发展是迅速的,因此,一个元素丰富的元数据模型对信息资源的组织管理、内容揭示,数据检索会有较强的应用弹性;反之,一个元素匮乏的元数据模型,在面对技术升级、用户需求细化时,模型的实用性会很大程度上受到限制[12]。
(3) 重视国际合作。在提升自身技术能力的基础上,增加与国际相关机构的合作。在构建元数据模型时,应及时与国际相关机构负责人进行情报交换,重视元数据类型的数据兼容性,以促进学术信息的国际流通。
5 结语
为推进开放科学,JPCOAR一直强调标识符的重要性。JPCOAR元模型的基本思想是:未来元数据最重要的是正确提供标识符并使其成为易于处理的数据结构,而不是专注于精细化描述。如果能从外部服务获得明确的信息标识符,日本图书馆员则必须拥有必要的元数据能力,以便专注于机构知识库中的原始信息管理。随着JPCOAR元模型的普及,在不久的将来,日本的学术信息有望被用于开展更多种类的服务。
参考文献:
龚亦农,朱茗.我国机构知识库建设现状调查[J].数字图书馆论坛,2018(9):20-28.
魏来,宁子晨.基于RDA的图书馆书目数据与机构知识库数据关联研究[J].图书馆工作与研究,2018(7):43-49.
杉田茂樹.国立情報学研究所メタデータ·データベース共同構築事業について[EB/OL].[2019-07-23].https://www.jstage.jst.go.jp/article/jkg/53/10/53_KJ00000979930/_pdf/-char/ja.
内閣府.国際的動向を踏まえたオープンサイエンスに関する検討会[EB/OL].[2019-08-13].https://www8.cao.go.jp/cstp/sonota/openscience/150330_openscience_1.pdf.
国立情報学研究所.“OpenAIREにデータ提供を開始しました”[EB/OL].[2019-07-23].https://www.nii.ac.jp/irp/2016/08/openaire.html.
機関リポジトリ推進委員会メタデータ検討タスクフォース. junii2改訂の基本方針[EB/OL].[2019-04-23].https://jpcoar.repo.nii.ac.jp/?action=common_download_main&upload_id=179.
科塔学术.OpenAIRE(欧洲开放获取基础设施研究项目)[EB/OL].[2019-08-13].https://www.sciping.com/18604.html.
文部科学省.“学術情報のオープン化の推進について(審議まとめ)”[EB/OL].[2019-08-20].http://www.mext.go.jp/component/b_menu/shingi/toushin/__icsFiles/afieldfile/2016/04/08/1368804_2_1_1.pdf.
学術機関リポジトリ構築連携支援事業.“公開IR数·コンテンツ数の推移”[EB/OL].[2019-07-23]. https://www.nii.ac.jp/irp/archive/statistic/.
学術機関リポジトリ構築連携支援事業.“公開機関数の推移”[EB/OL].[2019-08-20].https://www.nii.ac.jp/irp/archive/statistic/.
崔佳伟,吴思竹,邬金鸣,等.科学数据仓储元数据标准研究与启示[J].数字图书馆论坛,2019(6):19-28.
艾雪松,石宪,彭超,等.文物信息资源元数据模型构建与应用研究[J].情报科学,2019,37(6):69-74.
孙海燕 中国海洋大学图书馆馆员。 山东青岛,266100。
解登峰 中国海洋大学图书馆资源建设部主任、副研究馆员。 山东青岛,266100。
孟祥莲 中国海洋大学图书馆馆员。 山东青岛,266100。
(收稿日期:2019-08-20 编校:左静远,谢艳秋)