许鑫 毛璐 江燕青
(华东师范大学经济与管理学部,上海 200062)
随着科学技术的发展,数字出版成为目前的主流出版模式,在科学、技术和医学领域(Science,Technology and Medicine,STM)发展迅猛,给科研人员带来了丰富的学术资源。与此同时,如何帮助科研人员在海量学术资源中快速准确地找到自己所需的信息成为必须考虑的问题。大量半结构化、非结构化的数字资源使得传统的科学交流系统无法满足科研人员对数据语义的高度要求。而语义网的发展则为新时代的学术交流创造了条件,并促进了语义出版的形成和发展。目前,基于对文献知识内容做结构化处理和发布的语义出版成为新兴出版形式被广泛关注。
2009年语义出版的概念被Shotton[1]提出后,语义出版就成为出版和学术界的热点。语义出版是一种语义增强的出版形式,通过对文章内容和形式进行语义标记,增强内容之间的关联,提高科研人员的检索和获取效率,实现智能化出版。在数据、信息、知识、智慧链(Data Information Knowledge Wisdom,DIKW)中,数据出版是基于数据、信息的时间基层的出版模式;而语义出版则是从知识层面不断向智慧面延伸的空间深层次语义信息交流的出版模式,它无疑是数据出版的进一步发展。本文的研究以数字资源聚合为基础,通过探究学术期刊语义出版的发展过程,总结归纳国外学术期刊语义出版的相关实践,探索性研究了基于数字资源聚合的学术期刊语义出版模式,旨在为国内学术期刊基于资源聚合和内容组织实现语义出版提供经验与借鉴。
语义出版通过结构化描述关联外部资源,使得文章的可读性和交互性增强[2],提升了学术出版功能,对科研人员从事科研阅读和研究的帮助显著[3]。语义出版有助于推动出版机构实现资源间的关联分析和知识挖掘,为用户提供体系化的知识[4]。2013年Outsell公司发布的STM报告[5]指出,STM期刊的技术发展依托语义技术得以实现,通过借助符合语义标准的关联数据进行更加高效的内容检索和服务[6]。
在英国皇家化学学会(RSC)、爱思唯尔(Elsevier)、自然出版集团(Nature)、美国科学公共图书馆(PLoS)等的推动下,出现了一系列语义出版的举措和学术研究。Elsevier的“Article of the Future”(未来文章)计划对学术期刊的上下文结构、内容关联、期刊呈现方式均做了创新,并借助Science Direct(全文文献数据库)平台开展多个学科领域的语义出版实践,搭建了语义出版实现的基础[7]。PLoS为了实现期刊内容的有机丰富,将期刊链接到多种外部资源上,以此来提升学术出版的功能。RSC为了实现期刊内部以及期刊同外部资源的语义关联,对相关领域本体进行了关联,并通过语义标注部分期刊内容实现期刊的Rich HTML形式[8]。Hudson-Vitale等[9]提出研究是全球性的,学术界需要可互操作的中心,相互关联的数据和基础设施,支持跨库信息交换,包括标准、元数据模式和语义互操作性。De Ribaupierre等[10]在实证研究的基础上,分析了科学家的实际需求并考虑了文档的语义和特殊性,提出了一种使用SciAnnotDoc模型自动注释PDF文档的方法。Balaji等[11]提出使用共引用邻近分析进行扩展,以发现语义相似性,进而找到与给定研究出版物相匹配的研究论文的最佳语义路径。Lafia等[12]提出通过生成可以在主题和空间上查询的链接元数据,使得数据集或文档具有唯一资源标识符(URI)和现有工具充分支持的基本元数据,进而使得跨域数据集被发现,并且可理解、可重复使用。
在国内,2009年张晓林教授[13]从关联发现、内容增强、开放与合作交流三方面对学术期刊的数字化发展进行了阐释,率先提出了Journal 3.0模型。2012年王晓光等[14]提出语义出版可以借助多层次的领域本体对文章中的概念与资源实体进行关联,集成不同事件、资料、记录来减轻科研人员进行反复资源搜集和整理工作的负担,将更多精力用于论点的理解和数据的分析。2013年周杰等[15]指出语义出版通过对知识的统一编码实现对象的关联和内容的结构化呈现,实现用户的精准语义查询,将成为未来主流的出版形态。2017年张伟伟等[16]基于供给侧视角得出未来语义出版是学术期刊数字化出版的一个重要发展方向。李娇等[17]通过对国内外学术期刊数字资源描述、语义知识增强、语义出版发布等方面的分析,发现国内语义出版实践与国外相比仍有差距。陈钢等[18]通过对广东省16家科技期刊的出版方式进行调研发现,语义出版将代表今后的出版趋势,但目前语义出版仍在小规模实践并未进行大规模推广。
综上,语义出版的到来为大型服务提供商和出版机构的发展创造了契机,它们可以将现有的期刊信息和外部资源进行关联,实现对知识的挖掘和分析,促使用户有效利用期刊、全面获取知识。语义出版是学术期刊资源聚合的更高需求,基于数字资源聚合的语义出版实现需要同时具备语义网、本体、关联数据等技术和挖掘深层次文献语义特征的功能,从而帮助用户检索到更加体系化、知识化的信息。
互联网技术的发展使得目前学术期刊主要以数字化方式出版[19],相较国外学术期刊数字化的发展,国内学术期刊数字化起步较晚,并且呈现散、小、弱的特点,其数字化发展存在诸多障碍。面对海量学术资源,科研人员需要快速查询到所需的有用信息,这需要学术资源的合理有效聚合。但是,目前学术期刊的数字出版面临瓶颈化现象,而学术期刊的语义出版能够揭示资源间的相互关系,实现数据挖掘和语义检索,所以要基于数字资源聚合实现语义出版在学术期刊上更好地应用。
从学术期刊开始数字化至今,大部分期刊只是将录用的文章收录到数据库或者自建的学术期刊网站上[20]以PDF或者CAJ格式供用户下载使用,在此过程中用户不仅需要下载支持PDF/CAJ格式的阅读软件,并且无法很好地进行语义标注和互动,难以实现资源之间的互操作,这为用户的使用带来了不便,制约了学术期刊的数字化出版,突出表现为两个方面。
(1)学术期刊数字资源内部由于未形成统一的数据标准,因而无法实现更深层次的关联,知识资源聚合目标更是无法达到。此外,用户若想实现对知识的集中获取,需要满足数字资源内部知识单元与外部相关数据库或知识组织关联的条件,传统的数字出版无法满足。
(2)提高信息检索的效率需要实现语义上的精确匹配,而目前我国的学术期刊官网只能实现基于关键词的检索,无法解决知识体系中存在的一词多义、一义多词现象,使得用户无法实现对知识的深层次发现和挖掘[21]。语义出版则可以解决基于关键词检索中存在的低查全率、低检索效率、用户需重复检索操作的问题。
通过以上分析可以看出,现有的学术期刊数字出版只是将纸质期刊进行了数字化转化,并未抓住期刊内容和语义层面的重点,无法实现学术期刊数字资源间的语义互操作,降低了学术期刊的服务质量和效率。所以,变革当前学术期刊的数字出版方式是当务之急。
作为数字出版高级形态的语义出版,具有传统出版无法比拟的特点,能够促进数字时代的信息交流和聚合。对于学术期刊数字聚合的发展来说,语义出版可以整合大量分散的、紊乱的信息,并对信息资源进行有机管理,打破“信息孤岛”的局面,为用户查找和利用信息提供便利[22]。
(1)语义出版可以实现知识关联和语义查询。语义出版机构不同于以往基于形式划分的学术期刊,它通过界定不同元素的属性和类型,以知识点为单位来分解、标注整篇文章。对期刊知识单元的关联和揭示有利于形成语义联系的知识网络,实现将用户与所需知识进行匹配。此外,语义出版基于知识推理构建语义查询可以减少以往基于关键词查询的工作量,提高查准率和知识获取速度。
(2)语义出版可以实现用户行为分析和兴趣推荐。语义出版可以通过收集用户经常查询的关键词和浏览的页面借助数据挖掘和推荐算法对用户行为进行分析,找到用户所需并分析用户兴趣从而构建出用户画像。同时,可以根据用户行为构建用户数据库,基于兴趣进行个性化推荐服务,并通过使用行为找出与目标用户相似性高的用户,为目标用户推荐资源。
(3)语义出版可以实现信息抽取和主题揭示。语义出版可以通过高亮词条和语义标签以可视化方式展示文章知识结构,实现主题揭示。同时,语义出版构建了期刊数字资源与外部资源的链接,因而可以实现关联信息的抽取,帮助用户更好地理解文章内容。
语义出版对数字资源聚合提出了更高程度的要求。语义出版强调通过利用本体、关联技术等实现自然语言处理,构建信息与信息资源结构化描述的关联,通过机器可理解和资源间的语义互操作,实现信息的可视化呈现,提高科研人员的检索效率。
基于数字资源聚合方法在学术期刊语义出版中的应用主要体现在以下方面。首先,通过元数据、本体、关联数据等技术可以解决学术期刊的异构资源、跨库检索等问题。学术期刊的语义出版可以通过元数据的提取,本体库的构建以及数据的关联使得不同来源、不同类型的数字资源完成跨库检索,实现学术期刊数字资源的有效聚合。其次,专业本体库和领域本体库的构建可以使用户查询期刊资源不再拘于关键词查询的限制,实现不同文献、不同知识单元的语义关联,一词多义、一义多词将不是难题,用户能够获取更精确的答案。最后,在文章中添加语义标签,可以使文章各部分内容层次分明、相互关联,并且以机器可自动读取的结构化形式呈现,实现文本内容的自动化获取和智能化处理。
实现数字资源的深度聚合是语义出版中不可或缺的重要环节,采用本体、关联数据等语义网相关技术实现的资源聚合能促进学术期刊的知识一体化、体系化、结构化,通过构建不同知识本体间的语义映射关系可以实现知识单元间的语义关联,并为用户提供更好的服务和更佳的体验。
Elsevier、施普林格(Springer)、科睿唯安(Clarivate Analytics)作为全球领先的3家STM出版社,每年出版论文种类十分丰富,并且均在语义出版方面开展了很多实践,为学术期刊的语义出版提供了诸多发展经验。本文主要以这3家国外学术期刊语义出版的实践为例进行介绍。
Elsevier的语义出版模式不同于以往学术期刊线性的出版方式,它结合超链接和语义标记致力于改善用户的阅读体验、提供最佳浏览方式给用户,其出版特点如下。
(1)一站式集成检索。ClinicalKey集成了医学图书、期刊、专家评论等各种资源,用户无须前往不同医学信息库查找信息,在同一平台便可获取所有临床专科的丰富资源,提高了用户获取资源的效率。2019年5月Elsevier与Scilligence ELN合作,化学研究人员可以通过Scilligence的ELN进入Reaxys进行搜索,寻找感兴趣的结构、性质、反应、路线设计等信息,将结果读取并存入ELN,而无须复制、粘贴或手动绘制等操作。这一整合能够有效帮助化学研究人员简化工作流程,提高效率,改善交叉引用并减少人为因素引发的错误。同时,严谨遵循科学数据管理的FAIR原则(可查找、可访问、互操作、可重用),Elsevier为科研数据共享的效率和质量提供了保证。
(2)支持语义检索,实现精确检索匹配结果。EMMeT构建了能够深度描述和标引医学数据的概念词汇,从而帮助用户进行语义检索医学资源,实现对检索结果的精确匹配,为用户在最短时间内准确获取所需答案提供保证,减少了用户反复查找信息的时间。
(3)提供智能化知识。Elsevier通过打通文章内部知识单元的关联、构建文章与外部资源的链接,为用户提供智能化的知识。2019年4月,Elsevier与灵北公司(Lundbeck)合作,有效解决了生命科学企业管理海量数据的难题。Elsevier通过化学及生物活性综合数据库Reaxys和Reaxys Medicinal Chemistry(RMC)药物化学模块,帮助科研人员提高信息的可见性、复用性和实践性,加快数据分享和挖掘,推进企业用户内部信息的自由访问和与Reaxys及RMC模块无缝对接,破除了内部信息孤岛,提高了数据互通性。
2017年3月,施普林格•自然集团(Springer Nature)推出了SciGraph关联开放数据平台,将所有的科研资助机构、会议、出版物等信息集成到这一平台上,截至2017年底,这一平台将学术界关注对象的信息(三元组)扩充到10亿多条,并可以与CrossRef和DBPedia等数据集相链接。
Springer Nature SciGraph平台在进行关联数据发布之前,将需要发布数据中的实体类型和实体间的关系一一对应,并以URI为资源命名,保证资源的可获取。目前Springer Nature已经可以做到期刊、文章、资助者、主题等实体型在关联开放数据中发布。Springer Nature在建立唯一、有效的URI之后,还建立了SciGraphcore ontology本体,这一本体的构建使得数据不仅可以被Springer Nature更好地描述,还可以更好地被外界所引用。
Springer Nature SciGraph关联开放数据平台通过对数据进行关联和互操作,打破了数据组织结构的原有体系,是关联开放科研在出版领域得以实现的开始,使科研人员可以共享学术合作、机构知识库等平台,促进了学术期刊语义出版的发展。
2017年6月Clarivate Analytics宣布与Impactstory开展合作,这一行为使得科研人员可以获取高质量、经过同行评议的开放内容。Clarivate Analytics资助Impactstory建立oaDOI服务,以更容易发现开放获取的内容,提高科研工作从发现相关信息到发布最后成果的效率。Clarivate Analytics可借助Impactstory创建的在线工具,使科学文献可以更好地开放和重用。目前,oaDOI可通过免费开放的API实现9 000万篇文章的开放获取。Clarivate Analytics目前致力于提高从科研想法的出现到实验验证,再到同行评审以及最后出版的整个研究生命周期的效率。Clarivate Analytics与Impactstory的合作可以使研究人员实现开放获取Web of Science上的1 800万篇新文章,有利于科研用户的研究和创新。
此外,Clarivate Analytics的Kopernio作为一个免费的浏览器插件及在线工具,通过集成超过2万个期刊网站、平台、数据库、开放获取知识库和搜索引擎,帮助科研人员实现一键式合法获取学术期刊全文文献,可以有效节省科研人员获取文献的时间和步骤。此外,它可以自动将用户检索过的PdF全文保存在个人的PDF全文临时储存盘内,方便用户后续回访阅读。
语义出版的发展为学术期刊的创新提供了新的方式,同时揭示了资源对象间的关联,帮助资源内容实现更好地重组和发布,因而语义出版的实现需要以数字资源聚合作为基础,数字资源聚合的目标则为语义出版。本文通过对当前学术期刊数字化进程中存在的问题进行分析,并结合基于数字资源聚合的语义出版存在的价值和应用,借鉴Elsevier、Springer、Clarivate Analytics的出版实践经验,探索了基于数字资源聚合的学术期刊语义出版模型。该模型以实现学术期刊的语义出版为目标,以数字资源聚合为抓手,从三个层面进行构建。第一层是基于本体的数字资源聚合,第二层是基于关联数据的数字资源聚合,第三层是基于关联数据的访问和应用,如图1所示。
(1)基于本体的数字资源聚合。由于学术期刊通常采用不同的元数据规范对来源不同、类型不同的资讯进行描述,使得大量结构异构的数字资源存在于学术期刊之中,造成聚合和检索的困难。仅依靠元数据只能形成数字资源的语义化基础,资源描述的异构性和语义性问题仍然存在。想要实现不同类型、不同格式的元数据进行互操作需要依靠本体来完成。本体可以通过对元数据进行描述,转换为统一RDF格式,进而使不同元数据之间可以进行语义互操作。同时,同义词的描述、领域本体库的建立可以解决以往资源聚合中存在的一词多义、一义多词难题,帮助用户更好地获取信息。
(2)基于关联数据的数字资源聚合。在这一层面将采用HTTO协议中的URI地址命名所有资源,对数字资源进行语义化描述,在元数据本体化模型的基础上,同时采用SKOS语义化描述,统一RDF格式描述其他资源、链接相关资源,实现学术期刊内部不同知识单元间的聚合和外部知识组织的链接。基于关联数据的数字资源聚合可以实现不同格式、不同来源的数据相关联。不同数据库中的资源以及同一数据库中不同格式、不同类型、无法实现互操作的数据均可以通过关联数据构建数据网络,将资源整合成无缝链接的整体。关联数据还可以通过HTTP协议和RDF链接实现与其他相关资源在语义层面的关联,通过揭示资源间的关系,丰富期刊的知识内容。
(3)基于关联数据的访问和应用。这一层面通过关联数据来浏览查询学术期刊中的数字资源,不仅可以得到简洁清晰的答案,还可以链接到其他相关数据资源,实现资源间的无缝对接。在数据资源聚合和关联数据发布的基础上,用户可以通过关联数据浏览器在不同数据源之间进行浏览,这得益于数据之间已通过RDF进行链接,并且已实现语义搜索。同时,用户还可以通过资源导航浏览整个数据网络,借助关联数据搜索引擎实现对关联数据的查询,高效抓取关联数据检索所需信息。基于关联数据的访问和应用可以使用户体验到更加智能化的数据服务。
从印刷期刊到数字化期刊再到语义出版,学术期刊出版模式在不断发生变化。数字环境下,传统的图片、文字、段落表达已经无法达到科研人员所需。而语义出版则是对出版物内容层面的深度挖掘,借助本体、关联数据等语义技术生成有价值的知识单元,实现语义层面更细粒度的知识关联。通过本文的研究,可以发现:①语义出版的应用实践还处于发展阶段,随着语义技术的发展,基于浅层语义的资源组织方式会逐渐向深度语义化的知识关联与集成转变;②语义出版是学术期刊数字资源聚合的目标,而学术期刊数字资源聚合是实现语义出版的基础性工作;③借鉴现有的国外学术期刊语义出版实践,探索符合我国学术期刊发展的语义出版模式,是这一领域的重点研究内容之一;④借助本体、关联数据等语义技术,实现对学术期刊及其知识内容的语义化描述是语义出版的主要技术路线,并以此为基础,探索基于数字资源聚合的学术期刊语义出版模式,为国内学术期刊基于资源聚合和内容组织实现语义出版提供经验与借鉴。
综上所述,学术期刊数字资源的深度聚合为其语义出版实现提供了良好的资源基础,在本体、关联数据等相关语义技术的不断变革和大量数据、知识的不断涌现以及科研人员对语义出版更高要求更迫切需求的背景下,只有不断发现和挖掘出更多的隐性知识特征,不断促进学术期刊在资源上的深度聚合和在语义层面上的发展才能跟上数字化、语义化的时代潮流。为此,推动数字资源聚合下的学术期刊语义出版发展刻不容缓。