ORCID的现状、风险与对策

2022-04-14 02:00窦天芳张书华张蓓
数字图书馆论坛 2022年2期
关键词:学者关联会员

窦天芳 张书华 张蓓

(清华大学图书馆,北京 100084)

1 ORCID发展现状

学者是学术研究的主体,全面准确地追踪学者的学术成果对洞悉学术前沿、追踪学术动态乃至抑制学术不端都有重要意义。但是,姓名拼写歧义导致人们无法精准判断成果归属,难以在数字学术环境下给予学者相应的认同和评价。在此背景下,2010年8月,ORCID(Open Researcher and Contributor Identifier)公司在美国宣布成立。ORCID为非营利组织,愿景是为全球学者免费提供唯一的、永久的标识(ID),通过与学术生态系统中多个角色广泛合作,将ID与该ID对应的学术成果、教育背景、工作履历、基金资助等数据关联起来,进而准确追踪全球学者与机构的隶属关系及其研究成果。为表述方便,可以将ID与ID对应的学术成果、教育背景、工作履历、基金资助等数据关联问题称为数字学术环境下的学者识别问题。

ORCID为学者赋予的ID由16位数字构成,ID编码方式符合ISO 27729国际标准,并从国际标准名称标识符(International Standard Name Identifier,ISNI)申请0000-0001-5000-0007至0000-0003-5000-0001编码区间用于ID分配。ORCID自2010年创建至今,发展迅猛。截至2021年10月1日,ORCID已为全球学者提供了1 243万个ID(年注册量数据[1-9]见图1)。其中348万个ID关联了学术成果(以论文为主),2 787.2万篇论文关联到ID。此外,还有336万个ID关联了履职机构,329万个ID关联了教育背景及资格认证等信息,31.4万个ID关联了基金资助信息。经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)针对全球60个国家/地区1.2万名学者开展调查,其发布的《2018 OECD国际科学作者调查结果》(Findings from the 2018 OECD International Survey of Scientific Authors,ISSA2)显示,有60%的学者使用ORCID,其中葡萄牙和意大利有超过90%的学者使用ORCID[10]。随着ORCID与出版社、基金组织的合作不断深入,这些学者的精准学术信息,包括学术成果、基金资助、任职履历等数据将源源不断地存储到ORCID中。

图1 ORCID ID年注册量

中国学者广泛参与全球学术交流,注册ORCID的人数众多。由于ORCID不提供按国别查找ORCID ID,暂时无法获得准确的中国学者注册人数。笔者通过按机构检索及数据清洗得到履职机构为我国世界一流大学的ORCID ID数量近17.77万个(数据采集时间为2021年10月1日),数量排在前5位的大学分别是浙江大学(10 651个)、南京大学(10 359个)、北京大学(10 250个)、清华大学(9 248个)、武汉大学(8 625个)。这些ID背后对应的学术成果、基金、教育背景等信息无法通过ORCID的公开渠道获得全貌。

2 ORCID运行机制

2.1 运营管理

ORCID由时任汤森路透副总裁的David L. Kochalko和自然出版集团首席技术官Howard Ratner联合创建[1]。公司决策机构为董事会,董事会由来自基金(惠康基金)、大学及图书馆、出版社、信息服务商等机构代表构成,Howard Ratner担任董事会首任主席,除执行经理外,所有董事仍在原机构任职。

ORCID免费向全球学者提供ID注册及数据关联服务,通过收取会员费、捐款、申请基金资助等渠道维持运营。2011年,梅隆基金会和美国自然科学基金会分别资助麻省理工学院4.5万美元[11]、芝加哥大学25.9977万美元[12]用于探索ORCID的商业模式以及在数据驱动的科技政策学研究中能否发挥加速器的作用。2012年10月,ORCID ID注册网站正式上线,同年获得201.3万美元的首批运营经费,其具体来源包括基础贷款120万美元、会员费50.6万美元、基金资助20.1万美元、捐款10.4万美元,以及其他途径资金0.2万美元[2]。提供基础贷款的13家机构分两大类:一类是拥有出版物的学术组织,包括美国物理学会、美国物理联合会、英国物理学会、电气与电子工程师协会和美国科学公共图书馆;另一类是全球范围内最有影响的出版商,包括爱思唯尔、自然出版集团、施普林格、剑桥大学出版社、约翰威立国际出版公司、泰勒-弗朗西斯出版集团、塞奇出版社和Hindawi出版公司。

总的来看,ORCID成立之初,通过与专业研究人员合作并在梅隆基金会、美国自然科学基金会的资助下,进一步明确了其商业模式和发展路径。随后以出版社为主体的机构向其提供了初始运营经费。ORCID正常运行后,靠会员费维持基本运行。截至2019年,ORCID的常规收入为425万美元/年,主要来源为会员费[9]。

2.2 数据采集机制

为提高ORCID的数据汇聚能力,ORCID需要与不同类型的机构建立合作关系,这些机构包括出版机构、基金组织、学(协)会、大学(含图书馆)、信息服务机构等。截至2021年10月,有112家出版机构与ORCID签署了“最佳实践协议”,规定出版机构的通信作者在投稿时必须注册或提供ORCID,并授权出版机构成为信任组织,完成ID与论文的关联,以及向ORCID提交所有关联数据。值得一提的是,社会科学文献出版社作为唯一来自中国的出版机构签署了该协议。目前,至少有7 000种期刊参与了ORCID项目,75%的ORCID ID是研究人员在投稿环节因出版机构要求而注册的[13]。

ORCID提供7个维度的数据来追踪学者的学术信息,即学术成果、任职、教育、兼职、基金、同行评审、研究资源。每个维度的数据可以由学者手动提交,也可以通过外部数据源自动获取。外部数据源可与ORCID进行数据交换的前提是成为学者认可的信任组织(Trusted Organization)。7个维度的数据可以独立设置公开级别,3个级别分别是私有(private)、受限(limited)、公开(public)。普通公众只能看到公开级别的数据,信任组织可看到与己相关的受限数据,但是ORCID可以看到包括私有数据在内的所有数据。某出版机构A成为ORCID中某个ID的信任组织后,可看到与己相关的受限数据(学术成果),其他维度的受限数据和与己无关的学术成果则无权看到。

学者投稿时会应出版机构稿件提交系统的要求注册ORCID ID,并将出版机构设置成信任组织、完成授权,出版机构的论文出版系统进而将ORCID和论文元数据捆绑后提交到CrossRef,CrossRef再将包含学者ID和论文ID的信息分别反馈给ORCID和出版机构的出版服务系统,从而完成ORCID对ID与学术成果数据的关联和自动采集。ORCID的其他合作机构都以类似模式完成与ORCID的数据交换。

2.3 ORCID会员与信任组织

ORCID大力发展会员,会员可面向学者提供ORCID注册服务。早期的ORCID会员协议采用一套标准协议模板。从协议的表述上看,会员即受信任方(trusted party),可通过会员API获取受限数据。当已经成为会员的组织想利用API与ORCID中的某个ID建立连接时,ORCID则要求ID所有者授予该组织与此ID进行数据交互的权限,一旦ID所有者向该组织授权,该组织则成为该ID的信任组织。信任组织由学者授权,会员由ORCID授权,只有信任组织才能最终获取学者的受限数据。当然,ID所有者完全可以拒绝向该组织授权,此时某机构虽是ORCID的会员组织,但仍无法获得授权数据。

会员分初级会员(Basic)和高级会员(Premium)。高级会员与初级会员在数据获取权限上的权利是平等的。不同的是高级会员可集成5个客户端,而初级会员只能集成1个客户端。表1是对ORCID数据接口权利的对比分析,会员接口中列出的权利均是成为会员并进一步成为信任组织后获得的权利。

表1 ORCID数据接口权利对比分析

一般情况下,出版机构更容易成为学者的信任组织,因为学者在投稿时往往选择接受出版机构的各种条款。因此,出版机构与ORCID的数据交互已成常态,但作为一般机构的会员,即便是学者任职机构也很难要求学者逐项授权使用学者的相关数据。

3 ORCID对学术领域的影响及风险分析

ORCID通过与学术共同体中的关键角色合作,形成长期有效的数据更新机制。这个机制的特点是以最小成本帮助学者自动汇集个人多维度的学术数据,对学者展示个人学术影响力、获得更多科研资源起到积极的促进作用。

经过近10年积累,全球范围已有1 243万学者拥有ORCID,至少有348万学者的学术成果可在ORCID上实现精准关联。这些ID及ID关联的数据是一笔无法估量的数据资产,对学术领域产生重要影响,同时也是关系国家科技信息安全的战略资源。

3.1 ORCID主导学术交流新秩序

ORCID的诞生及快速发展得益于另一个非营利组织CrossRef(由出版商创建的联盟组织)。CrossRef是数字对象唯一标识(Digital Object Identifier,DOI)的注册代理机构,面向全球出版物和其他数字作品(如研究数据、数字媒体作品等)分发DOI,同时获取与数字对象对应的元数据,形成DOI注册及数据交换体系。自2000年创立以来,CrossRef已为全球主要学术出版物提供DOI。2007年,CrossRef倡议在CrossRef中注册了DOI的出版社应联合起来建立全球统一的学者标识(Author IDs),并自动关联DOI数据[14]。这一倡议极具开创性,为构建人与成果之间的广泛关联提供了全新思路。CrossRef在ORCID成立前已有非常广泛的应用基础,在学术出版领域构建了以DOI为关键信息的内容传播生态,中国期刊要在全球范围传播必须纳入DOI注册及数据交换体系。为获得全球统一的DOI,中国期刊上发表的论文、数据所涉及的元数据必须与CrossRef共享。

不过CrossRef作为出版商联盟组织,由其独立治理全球统一学者标识的公信力不足,而一个包含CrossRef在内,由信息服务机构、出版集团、行业学会等代表共同参与管理的新组织ORCID的成立进一步放大了ID作为科技基础设施在学术出版、内容传播领域的马太效应,并将静态的数字内容(DOI)与创造这些数字内容的人(ORCID)关联起来,为后续主导学术交流世界的新秩序不断累积优势。

最新的监测显示,ORCID和CrossRef正在与全球机构唯一标识的治理组织Ringgold合作,进而推动整个学术研究界数据的高效联动。Ringgold对全球范围的组织机构,特别是学术机构的名称进行规范化处理并单方面为组织机构分配机构标识(Organization ID)。目前,Ringgold正逐步将这种规范和ID延伸到更细颗粒度的组织单元,如为大学及大学内部的院系和研究所都分配ID,并建立逻辑清晰的层级关系。目前,Ringgold已为全球60万个机构分配了Organization ID[15],并着手与出版商合作,以为学者减免文章处理费(APC)的方式推动学者所属机构去Ringgold中核实并认领本机构的ID,从而获得学者、学术产出、机构、院系之间更精准的关联关系及相关数据。目前,ORCID、CrossRef、Ringgold貌似相互独立、所谓的非营利组织正在构造一个庞大精妙的、可精准追踪到每一个学术信息的新世界,而这3家组织所掌管的ID就是这个学术交流新世界的权杖。

3.2 ORCID数据垄断无法避免

如前所述,ORCID的数据授权被过度切割。ORCID中每条记录(record)包含7个维度的数据,每个维度的数据又包含若干条目。如一个ID对应一个record,works是该record中一个维度的信息,而works里面又包含若干item。在ORCID中,数据授权的最小单位是item,学者可以对每一个维度下的每一个item逐项授权。这种授权策略看起来非常灵活,但实际上会导致第三方机构若想观测学者完整的学术表现则需经过学者的多次授权,困难程度可想而知。

此外,从ORCID数据采集机制可以发现,所有参与的基金组织、出版机构等都向ORCID提交数据,与ORCID中的ID关联,而ORCID则拥有全量数据。其他参与数据提交的组织(CrossRef除外)至多可获得与己相关的数据。第三方机构若想观测本机构学者的相关数据必须先申请成为ORCID的会员单位,然后再引导学者逐项将会员单位设置成信任组织,这一机制推高了第三方机构使用数据的成本,限制了学者数据的共享应用。

ORCID模糊含混的会员政策和被过度切割的授权方式都恰到好处地保护了ORCID对学者数据的独享。尽管ORCID从诞生之日起就不断强调自己的公益属性,但从其早期的董事会构成、运营管理、数据采集机制等多方面评估,ORCID已造成事实上的学者数据垄断。

3.3 ORCID对各国人才安全形成潜在威胁

ORCID在隐私政策中明确提出:①ORCID有权使用收集到的信息,包括个人所有(only me)级别的数据,用来运营、保护、评估和改进ORCID网站和注册服务;②ORCID可能会使用收集到的信息来训练机器学习模型,防止ORCID注册信息滥用;③ORCID隐私政策受美国纽约州法律保护。精准识别全球学者及其成果归属,可衍生出多种增值服务,如专家合作网络、学术前沿追踪、科研能力评价等,这些服务在产生巨大商业价值的同时,也会对各国人才安全带来巨大冲击。

目前,葡萄牙、意大利、西班牙等国家有90%的学者采用ORCID。但是,也有不少国家拥有自己的ID系统,如巴西、日本、俄罗斯、哥伦比亚等。它们可以同时利用本国维护的ID系统追踪学者的学术行为。仍有部分国家没有建立自己的标识管理体系,对本国学者学术产出的追踪还处于粗放管理的阶段,对本国学者学术行为的监测远不及ORCID精准。

有史以来,人才都是各国发展争夺的战略资源,对学者进行全方位画像对监测一个国家、研究机构、学科领域的研究水平关系重大。我国一些科技管理机构已开始以互联网上公开的数据为基础,运用数据挖掘、机器学习及人工智能等方法开展科学家画像工作。与冗杂的大数据相比,基于ID管理的精准数据会大幅降低在算力、算法上的投入,为全方位开展人才追踪与分析提供捷径。这种捷径包括对各类人才的重点监测和定点围堵。

4 我国应采取的对策与建议

当今世界的综合国力竞争,说到底是人才竞争。当前,我国正处在深入实施新时代人才强国战略阶段,全面准确地追踪学者的学术活动对发现、培育、评价人才意义重大,以学者为中心的各类数据是用好用活各类人才、改善科技评估的基础性资源,也是系统布局国家科技力量的战略性资源。世界上很多国家重视以学者为中心的数据收集、管理与监测,但管理方式不一。1999年,巴西政府推出LATTES项目,为巴西学者分配唯一标识,关联学者基金资助和学术成果数据,成为巴西科技活动监测和学者评价的重要基础设施[16]。当前,我国正处在发展的重要战略机遇期,无论从国家信息安全还是人才管理的角度,我国政府都应高度重视数字学术环境下的学者识别问题。中国学者标识应作为我国科技创新治理体系的基础设施来研究、规划、建设与管理。

4.1 建设中国学者标识管理体系

标识分配简单,但与标识分配对应的数据关联和数据持续更新极为复杂。ORCID出现之前,很多商业机构试图通过纯粹技术手段解决姓名消歧及科研人员的成果识别问题。单纯依靠技术手段实现的学者识别成本过高,而数据准确度差强人意、机构认同度低,直接作为数据基础设施恐难以持续。笔者认为,学者标识管理的核心问题是建立可持续的数据采集与数据关联机制,应由政府主导学者标识管理,通过创新管理机制来协调出版机构、科研管理机构、基金资助机构、信息服务机构等多角色的权责,共同完成数据采集、汇交、关联及应用等环节的工作,协同建设经济高效、可管可控的中国学者标识管理体系。

管理体系必须面向未来。建设中国学者标识管理体系必须要回答标识在哪个环节分配、由谁分配等问题。目前来看,博士学位申请阶段可视为正式开启学者学术生涯的关键节点,学位授予机构在此关键节点为学位申请人分配标识并要求申请人关联相关数据应是打开学者标识管理局面最理想的切入点。

当然,建立管理体系必须面对现有学者识别问题。《2018 OECD国际科学作者调查结果》显示,在高等教育和政府部门,平均有超过60%的学者将ORCID作为自己的数字身份,每个国家平均有超过50%的学者注册了ORCID[1]。ORCID已成为各国学者在世界范围参与学术交流的数字身份。中国学者标识应考虑与ORCID的映射,从技术、机制上探讨ORCID数据如何为我所用,同时要重视CrossRef的桥梁作用,曲线完成ORCID与我国学者标识的有效衔接。

4.2 历史数据的采集

ORCID倡导的理念是“开放、信任、多元”,这也是ORCID在数据采集环节向出版社、学术团体、基金组织极力推广的价值观。此时的“开放”可帮助ORCID在极短的时间内汇聚到“多元”数据。而在数据应用环节,ORCID则奉行个人数据隐私保护政策,导致第三方难以获取因“开放”汇聚到ORCID中的数据。我国在建设中国学者标识体系的过程中,既要积极推动与ORCID建立数据合作关系,更要加紧探索与其他数据源合作的机制,制定切实可行的数据采集方案,将学者已经发表或已经产生的历史数据与学者数字身份建立关联。

目前国内外可供利用的数据源有WOS、Scopus、CNKI、CrossRef。2014年,清华大学着手建设清华学者库,就是利用上述数据源有效解决了清华学者身份识别及学术数据动态更新等难题。2017年以来,学者库逐步与科研管理、职称评聘、绩效考核等系统衔接,摸索形成了学者参与、院系支持、管理部门协同的数据管理与应用机制,建立了数据自动采集、关联及管理的工作流程,在校内形成良好的数据共享生态。截至2021年底,清华大学已完成6 512位清华学者的身份识别,为每位学者建立了数字学术档案(ThuRID),自动关联了学者全学术生命周期中发表的学术论文、专利、专著、获奖信息,及其所指导研究生的学位论文等数据,实现学术影响力指标的实时跟踪。

此外,中国高校学者ID联盟主导的PCNI(Publisher and Creator Identifier)项目为包括清华大学、山东大学、华东师范大学在内的多所大学学者创建了PCNI,已完成18.77万学者身份识别,关联了精准的学术履历和学术成果数据集[17]。中国工程科技知识中心建设的中国工程科技专家库(China Engineering Expert Tank)构建名为KnowledgeID(KID)的学者唯一标识对库内专家进行唯一标识符的分配,对于已认领本人成果的学者,系统将有代表性成果同步到ISNI组织用于分配ISNI标识符,并将KID与ISNI标识符进行绑定。截至2019年,基于KID的桥梁作用为21万名中国科技领域专家分配ISNI标识符和相应的解析服务[18]。

这些实验性项目产出的成果可为历史数据采集提供方法论上的支持,并为未来的历史数据采集提供坚实的数据基础。

4.3 设立试点项目形成规模化推广机制

中国学者标识管理体系的建设既需要政府主导,又不能靠简单的行政命令来推行。我们应摸索一套经济高效、可持续发展的管理机制,激励学术共同体及参与学术交流的多个角色协同发力,确保中国学者标识数据可管理、可关联、可复用。如何约束学术共同体中各角色的权责边界、各自技术储备是否可以支持数据层面的衔接和共享,这些都是需要摸索解决的问题。建好中国学者标识体系需要用“解剖麻雀式”的思想方法设立试点项目,邀请学术共同体中的关键角色参与试点建设,从标识分配、到数据采集、汇交、关联与共享全流程进行试点建设和研究,形成可规模化推广的管理机制。

5 总结

欧美等国家重视数字时代学术环境的研究和机制建设,在引领学术世界新规则等方面判断准确、布局迅速。无论是今天讨论的ORCID还是早在2000年DOI的推出,都是在数字学术环境下的布局之作。目前,我国在研发经费投入、研发人员总量、学术论文发表总量等方面都居世界前列,但对数字学术环境的研究和布局明显落后于欧美国家,政府部门、出版机构及学者对相关问题的投入和关注还远远不够,这必将导致我国在全球学术世界担纲主角的后劲不足。我国政府和学者应高度关注ORCID给我国乃至全球数字学术环境带来的影响,并做出准确研判和应对。

猜你喜欢
学者关联会员
学者介绍
学者简介
学者介绍
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
会员之窗
会员之窗
会员之窗
“一带一路”递进,关联民生更紧
奇趣搭配
智趣