数字对象唯一标识符的应用与发展现状

2016-03-08 03:14莫琳芳林永丽王映红张阵阵甘辉亮
海军医学杂志 2016年4期
关键词:标识符解析对象

莫琳芳,李 喆,林永丽,王映红,张阵阵,甘辉亮



·综述与讲座·

数字对象唯一标识符的应用与发展现状

莫琳芳,李喆,林永丽,王映红,张阵阵,甘辉亮

数字对象唯一标识符;元数据;解析系统;期刊数字化

细心的读者会发现,自2016年1月起《海军医学杂志》发表的文章参考文献著录格式发生了改变,在原有的参考文献条目后增加了一项编码,即数字对象唯一标识符(digital object unique identifier,DOI)。随着大数据时代的来临,互联网技术及计算机技术飞速发展,很容易获取海量的空间目标数据,面对海量的空间数据,人们很难获取到所要的信息,造成了“数据丰富而信息匮乏”的现象,主要体现在找不到所要的目标,以及检索到的数据不能满足需求。分析其原因,在于空间目标存在多种编码体系,生产者和用户来自不同的领域,很难实现对目标一致的定位。因此,必须为空间目标进行统一的标识,建立数据生产者和使用者的联系。DOI作为数字化对象的识别符,对所标识的数字对象而言,相当于人的身份证,具有唯一性[1]。DOI一方面通过数字对象唯一性标识技术对数字对象进行识别和注册,利用目标标识检索技术准确地找到目标;另一方面通过地理本体知识的应用,建立了地理信息的语义沟通方式,按照应用本体知识重新组织生产数据,使用户全面高效地从空间数据库获取所要的信息,为空间信息共享开辟了新思路[2]。

1 DOI的构成

DOI包括4个组成要素,即标识符、元数据、解析系统和规则, 通过这些要素,DOI能够提供数字对象与其元数据,提供数字对象与数字对象(逻辑上相关)之间具体物理位置的链接。

1.1DOI的编码方式

根据美国标准ANSI/NISO Z39.84-2000 DOI的编码方案规定,一个DOI是由前缀和后缀两部分组成,其结构式为:=

./。由于编码规则对前缀与后缀的字符长度没有任何限制,因此,理论上DOI编码体系的容量是无限的[3]。DOI前缀由两部分组成,一个是目录代码(directory code,DIR),为DOI的特定代码,其值为10,所有DOI代码都以“10.”开头,用以将DOI与句柄系统(handle system)技术的系统区别开。另一个是登记机构代码(registrant′s code,REG),是DOI注册代理机构的代码,由DOI的管理机构国际DOI基金(International DOI Foundation, IDF)负责分配, 它由4位阿拉伯数字组成[4-6]。DOI后缀(DOI suffix string,DSS)由DOI注册代理机构(registration agency,RA)自行给出,是一个在特定前缀下唯一的后缀,其编码方案完全由登记机构自己来规定,规则不限,只要在该出版商的所有产品中具有唯一性即可,是对数字对象定义的本地标识符。后缀可以是一个机器码,或者是一个已有的规范码,如国际标准书号(international standard book number,ISBN)或国际标准连续出版物编号(international standard serial number,ISSN)[4-5]。DOI的命名结构使每个数字资源在全球具有唯一的标识。

以《海军医学杂志》2015年第36卷第1期第1篇解汝庆文章为例,其DOI标识为:10.3969/j.issn.1009-0754.2015.01.001

10.为DOI的特定代码;

3969为《海军医学杂志》DOI注册代理机构的代码;

j为杂志(journal)缩写;

issn.1009-0754为《海军医学杂志》的ISSN;

1.2.2 调查方法 培训专业的调查员,统一说明问卷,保证调查一致性;采取预调查,对问卷进行完善;发放问卷前,告知孕产妇调查目的、内容及问卷填写方法;采用自填或当面询问两种方式完成调查问卷,当场填写回收。

2015.01.001为2015年第1期第1篇。

1.2元数据

元数据是DOI的组成要素,是促进DOI服务多样化的必需要素,是有效管理数字权益的基础。一个完整的标识系统,不仅要标识其在网络上的入口位置,还要有该位置上对象的具体信息,如所描述资源的题目、载体、作者等相关信息。所有注册的DOI都要求具有最低限度的核心元数据的声明,并且公开发布,允许任何用户的访问。这种公开是单向的,也就意味着任何用户都可以免费查询其所对应的元数据, 但是如果需要从相关的元数据,如题名、作者等,而反向查询对应的DOI,目前还暂不能实现[4-5]。

1.3解析系统

DOI以2种技术为基础:handle system和indecs元数据。handle system是用于因特网信息的命名、解析和管理的技术平台;Indecs元数据是用于在电子商务环境下实现数据互操作的元数据框架。handle system技术包含了多重解析(multiple resolution)的功能,即一个DOI不仅指向一个统一资源定位符(uniform resource locator,URL),还可以指向多个URL,以及URL以外的其他各种类型的元数据。实际上,DOI可以认为是一种统一资源标识符(universal resource identifier,URI)或统一资源名称(universal resource name,URN),是信息的数字标签和身份证[4]。DOI的多重解析功能,使得在解析出多个URL时,可以选择离用户最近的一个镜像站点下载数据;同时,还能链接到该资源的许多相关信息。多重解析不仅确保了对资源的访问, 而且有利于资源的深度利用[4-5]。

2 DOI的应用意义

2.1DOI可实现跨平台检索给文章或内容在DOI平台注册了DOI号后,可以通过http://dx.doi.org/网站快速定位到其所在网址,方便了检索查询,实现了资源的网络共享,有利于读者获得相关资源,提高文章或内容的影响力[7]。

2.2DOI可提高出版的时效性优先数字出版可以提高出版的时效性,提前几周乃至几个月快速刊出论文,如果针对数字出版的论文注册DOI,印刷出版前将论文发布至期刊自身网站或合作检索系统,这样文章即可以快速的传递最新信息,而且更有利于读者通过DOI进行检索浏览[8-9]。

2.3期刊可在二次文献中标注DOI号通过DOI号,可以跨平台、快速便捷关联到期刊相关的文献,进行查询,方便文献的快速获取[10-12]。现行的国际标准ISO690-2010《信息和文献——参考文献和信息资源引用指南》中,除规定了电子文献的著录内容及格式,还明确指出,对电子文献,如果具有DOI号,应给予著录[13]。

2.5DOI具有兼容性DOI系统中,不论何种计算机操作系统,在处理同一数据时能保持处理结果一致,且能与不同时期的技术系统兼容。

2.6DOI可以动态更新DOI系统可对其所包含的元数据、应用和服务功能进行快速和简便的动态更新,这有利于读者快速获得最新信息。

3 研究现状

3.1国外情况国外的数字文献生产商较早采用标识符来标识其出版的电子文献,并形成了很多在不同环境下应用的标识符方案。例如:ISBN、ISSN、国际标准文本代码(international standard text code,ISTC)、出版物件标识符(publisher item identifier,PII)等。这些标识符方案大多仅仅定义了标识符名称空间及标识符构成机制,未构成一个完整的包含解析系统的标识符系统。

美国出版协会(the Association of America Publishers,AAP)于1994年成立了非营利性组织IDF,并制定了DOI的标准以及相应的解析系统handle system[9]。2000 年,CrossRef 成为由IDF授权的DOI 唯一注册机构,它维护着DOI查询系统,从而保证其他参与其中的出版商、图书馆、研究者或销售商能够实现内容的自动链接[14]。超过90%的国外出版商加入了CrossRef系统, 包括主要数字文献生产商,如Elsevier、Blackwell、JohnWiley、Springer等,他们采用DOI来标注各种类型的内容, 将其广泛应用于图书、期刊、学位论文、科学数据、会议记录、政府文档、教学参考、会议论文、医学案例和视频资料等, 甚至包括各种文献中的图表等诸多科技信息资源[15]。 CrossRef利用DOI来实现不同出版商出版的在线学术资源之间高效而可靠的交叉链接。根据CrossRef的统计,截止2007年3月2日,参加CrossRef联盟的出版社和学会已达2 335个,图书馆1 188个,覆盖的刊物16 884种,发放的DOI数量达到惊人的25 325 745个。截止2012年12月,加入CrossRef的出版社及学会达4 387个,图书馆1 901个,注册刊物27 791种,发放的DOI总量超过5 500万。截止2013年4月,单月DOI发放量高达近63万,检索量达到3 272余万次[16-18]。

目前, 西文DOI的发展和应用已经比较成熟,许多机构加入其中, 其中包括了如Elsevier、Springer、JohnWiley&Sons等世界信息服务业巨头,如Cambridge University Press等小型、非赢利性的行业协会或学会;如CABI Publishing等的二次文献出版社;如世界卫生组织出版社之类的国家机构或国际组织;以及如日本科技信息所(JST)和德国科技图书馆(TIB)等一些信息服务机构[19-20]。目前,DOI拥有8个RA和几百个使用单位,跨越了美国、欧洲和澳大利亚以及一些非英语国家,应用领域也扩展到多部门,形成了比较完整的命名、申请、注册、变更等管理机制,DOI的解析系统发展也比较成熟。

3.2国内情况目前,国内DOI使用处于初级阶段,基本上都是一些自定义的标识符方案,尚未形成成熟统一的标识符解析系统。1998年,同方知网在《中国学术期刊(光盘版)》中最先使用了相对规范的唯一标识符。重庆维普期刊全文数据库和中国医学科学院合作试验了SICI的标识方案,进一步实现文摘库和全文库的直接链接。自2001年起,中国科学院文献情报中心、国家图书馆等机构开始关注和研究DOI在中文信息资源方面的应用,并承担了科技部“数字对象唯一标识”课题研究,为中文DOI的推广和应用奠定了基础[21]。2007年,中国科学技术信息研究所和万方数据联合向IDF申请,取得了DOI的中文注册权,并在此基础上成立了中文DOI注册中心,成为中文信息服务领域的第一个IDF组织下的中文RA。2010年9月至2014年3月,仅与同方知网签约的优先出版的科技期刊达1 349 种,优先出版科技论文20.587 2万篇[22]。

赵玲秀[23]根据中文DOI网站发布的信息,对中文DOI的注册数量、注册期刊数量和类型、DOI解析等进行分析,结果显示,至2011年,DOI注册的核心期刊有376 种,占DOI 注册期刊总量的27.9%,占2010年版《中国科技期刊引证报告(核心版)》中收录期刊(共1 946种)的19.3%,核心科技期刊注册量不足期刊总量的1/5,并且存在着网站数据更新滞后、常用全文数据库及题录数据库不能进行DOI解析,以及元数据准确性不高等问题。

中华医学会系列杂志编排规范明确规定,中华医学会系列杂志从2009年第1期开始出版的杂志论文全部使用“10.3760”前缀加注DOI。除消息类稿件外,其他文章均需标注DOI,标注于每篇文章首页地脚的第1项。中华医学会系列杂志自2015年第1期起,全部杂志论文的参考文献引用均需标注该文献DOI[24]。我刊自2015年第1期起,也遵照该规定执行。

目前,国内大型数字期刊生产商不同程度地使用了DOI,但同国外发展程度相比, 国内的应用仍处于初级阶段, 表现在以下几个方面。

(1)国内的DOI没有形成统一规范。唯一标识符仅在各自资源范围内发挥作用, 一旦脱离各自的数据库, 唯一标识符便成为没有意义的字符串。目前我国应用唯一标识符的数字期刊出版商主要有同方知网、重庆维普和万方数据,三者之间并没有建立统一的标准,各个生产商使用的唯一标识符各异。这导致了中文DOI网站会以不同的注册关键词公布数据,一旦离开各自的数据库就很有可能搜寻不到相应资料。不统一的数据内容不仅会造成检索的不便,同时也会造成数据保存混乱,最终检索到的数据也会有较大偏差[23,25]。

(2)核心期刊DOI注册不足。根据田海江等[22]调查发现,在被统计的248种期刊中,已经加入中文DOI的有59种,仅占总数的23.79%。纸质期刊印刷DOI的有43 种,其中能进行全文回溯的仅有4 家,而且已加入中文DOI的59种期刊中,核心期刊仅有21种,占被统计248种期刊总数的8.47%。

(3)DOI的应用层次较低。目前国内DOI的作用仅限于对内部数字对象的标识,尚未建立相应的解析系统和管理机制,元数据提取的准确性不高。国内大多数期刊目前提取元数据仍以手工方式为主,根据中文DOI组织公布的元数据列表,一篇论文从所载期刊到起止页码的元数据有23项之多,操作的时间滞后,耗费的人力物力巨大。DOI并不仅仅是一串字符,它是由背后一套完整的机制和系统来保障的,国内目前在科技文献源头生产过程中的技术力量缺乏、标准不统一等问题都直接影响后期的元数据采集复用等过程的准确率和数据的使用率[22]。

DOI对数字出版环境有着重要的推动作用。它能沟通出版物和数据库,有助于实现国际上不同文种信息间的有效融合,延伸同行业中个体间的链接空间和合作空间,为链接学术研究不同范畴和领域提供了可能[26]。通过DOI与其他标准和技术的集成应用,可以实现知识链接从封闭系统向开放系统的转移,并使链接的资源不断多样化[27]。从远期发展看,DOI可能会导致出版业的变革,推动各种基于DOI管理的新数据供应商的产生[28]。因此,积极发展中文DOI系统具有重要意义。中文DOI系统要及时更新数据,在数量迅猛发展的同时提高质量,完善DOI解析,以促进中文数字资源与西文数字资源链接与共享的实现。

[2]崔纪锋,邢春晓,张勇.基于DOI 的空间数据标识及重组织[C].香港:Proceedings of 2011 International Conference on Fuzzy Systems and Neural Computing(FSNC 2011 V5),2011:426-430.

[3]张光威. 提高论文引用率行之有效的工具--数字对象标识符(DOI)[J]. 海洋地质与第四纪地质,2008, 28(4):72,84.

[4]宋丹辉,徐宽.数字对象惟一标识DOI的发展与应用研究[J].图书馆学研究,2006,(8):29-32. DOI:10.3969/j.issn.1001-0424.2006.08.009.

[5]谷琦.数字对象惟-标识DOI的应用研究[J].现代情报, 2009, 29(5):73-76. DOI:10.3969/j.issn.1008-0821.2009.05.020.

[6]周永立.数字版权保护和资源标识问题[J].编辑学刊,2011,(3):83-85. DOI:10.3969/j.issn.1007-3884.2011.03.028.

[7]贺德方,张旭.服务于科技信息资源共享的数字对象唯一标识应用研究[J].现代图书情报技术,2007,(8):26-29. DOI:10.3969/j.issn.1003-3513.2007.08.006.

[8]吴立宗,王亮绪,南卓铜,等. DOI在数据引用中的应用:问题与建议[J].遥感技术与应用, 2013, 28(3):377-382.

[9]姚戈,王淑华,王亨君.大数据时代DOI的应用意义与中国科技期刊应用现状[J].编辑学报, 2014, 26(1):63-65.

[10] 宋静,倪东鸿.如何规范著录带有DOI的文后参考文献[J].编辑学报, 2012,24(1):49-50.

[11] 陈鹏,卢怡,江敏,等.科技期刊参考文献中DOI的著录与规范[J]. 学报编辑论丛, 2014,(0):116-119.

[12] 尚利娜,牛晓勇.我国学术期刊参考文献中DOI著录现状分析[J].中国科技期刊研究,2015,26(5):484-487. DOI:10.11946/cjstp.201501050013.

[13] 王衍,陈蓓. 文后参考文献著录规范发展趋势探析[J]. 图书情报工作, 2012, 56(9):101-104.

[14] 潘松华. CrossRef在数字图书馆中的应用[J]. 图书馆理论与实践, 2005,(6):63-65. DOI:10.3969/j.issn.1005-8214.2005.06.027.

[15] Park S, Zo H, Ciganek AP, et al. Examining success factors in the adoption of digital object identifier systems[J]. Electron Commer Res Appl, 2011, 10(6):626-636. DOI:10.1016/j.elerap.2011.05.004.

[16] CrossRef[EB/OL].[2007-04-25].http://www.crossref.org.

[17] Crossref.[EB/OL].[2013-01-05].http://www.crossref.org.

[18] Crossref中文官网[EB/OL].[2013-05-07].http: ∥www.crossref.org.cn.

[19] Jan Brase.德国国家科技图书馆科学内容DOI注册中心研究进展[J]. 中国科技资源导刊, 2008, 40(1):37-39,64. DOI:10.3772/j.issn.1674-1544.2008.01.007.

[20] 蔡焰辉.我国数字资源唯一标识符的发展与应用研究[J].情报探索,2009,(4):62-64. DOI:10.3969/j.issn.1005-8095.2009.04.024.

[21] 田海江,吕建斌,王维朗,等.DOI系统在中国期刊应用的问题及展望[J]. 科技与出版, 2014,(4):105-109.

[22] 赵玲秀.中文DOI系统期刊注册现状[J].中华医学图书情报杂志, 2011, 20(12):43-45. DOI:10.3969/j.issn.1671-3982.2011.12.014.

[23] 刘冰,游苏宁,石朝云.数字对象标志符在中华医学会系列杂志中的应用[J]. 编辑学报, 2009, 21(3):229-231.

[24] 洪瑞. DOI对期刊出版及传播的影响[J].新闻传播, 2012,(6):15-16.

[25] 姚长青,乔晓东,赵蕴华,等.DOI在精品科技期刊全文数据库中的应用[J].中国科技资源导刊, 2008, 40(1):13-15,21. DOI:10.3772/j.issn.1674-1544.2008.01.002.

[26] 贺德方. 知识链接发展的历史、未来和行动[J]. 现代图书情报技术, 2005,(3):11-15. DOI:10.3969/j.issn.1003-3513.2005.03.003.

[27] 钱建立,吴广茂.DOI对网络出版格局的影响[J].编辑学报, 2008, 20(5):431-433.

(本文编辑:彭润松)

单位]200433上海,海军医学研究所

甘辉亮,电子信箱:ganhl2000@sohu.com

G255.2

A

10.3969/j.issn.1009-0754.2016.04.033

[1]何朝晖. 数字资源的“条形码”[J]. 图书馆工作与研究, 2003,(5):29-31.

2016-04-08)

猜你喜欢
标识符解析对象
基于底层虚拟机的标识符混淆方法
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
三角函数解析式中ω的几种求法
基于区块链的持久标识符系统①
睡梦解析仪
攻略对象的心思好难猜
电竞初解析
对称巧用解析妙解
基于熵的快速扫描法的FNEA初始对象的生成方法
区间对象族的可镇定性分析