宋丹辉
(河南科技大学图书馆 洛阳 471023)
语义出版及其对图书馆资源建设影响探析
宋丹辉
(河南科技大学图书馆 洛阳 471023)
简要分析语义出版内涵、特征的基础上,分别从语义出版理论与实践研究、核心技术及代表性工具等方面对已有成果进行全面系统的梳理,分析存在的问题,探讨其对图书馆资源建设、组织及利用的影响,为图书馆基于语义出版深化知识服务提供参考和借鉴。
数字出版 语义出版 图书馆资源建设
目前,国内外已见有关语义出版的报道,但存在以下问题:(1)已有的语义出版研究多聚焦在定义特征和技术框架,在知识组织及个性化知识服务方面的应用研究相对较少;(2)语义出版实践多由出版商、数据库服务商、研究机构或商业公司来主导,由图书馆主导的相关实践几乎没有;(3)图书馆虽然在开放存取学术出版方面取得了显著成效,但尚未提升到对语义层面的、面向知识发现与知识创新的出版模式的探索。鉴于此,本文基于前人研究成果,概括语义出版任务,介绍语义出版及引用本体的构成,总结现有语义出版相关支持工具的功能,分析语义出版对图书馆资源建设的影响,以期为图书馆创新知识服务模式提供参考。
数字出版是采用二进制数字代码创建、存储、传输、再现和管理数字内容的出版方式与活动。它摆脱了物质载体和物理空间的限制,在以下三方面凸显价值:(1)内容数字化。出版过程中形成的资源和服务均以数字化的形式和格式存储。(2)组织语义化。既包括概念提取、转换、互操作、语义互联等微观层面的语义化,也包括语义网格、本体构建等中观层面的语义化。(3)流程网络化。借助网络平台,作者、编辑和生产技术人员采用在线编审的形式,共同完成数字内容的创造、加工与发布[1]5。
较之数字出版,语义出版过程更加复杂,其实质是从多方面对数字出版进行语义增强,主要包括以下方面:(1)概念识别。基于URI,借助命名实体识别、规范词表和文本统计等技术自动识别文本中有意义的概念、实体和术语,并对有多个名称或重名的情况进行消歧与命名规范化。(2)内容结构解析。通过领域本体的语义标注,为出版物自动添加内容结构的语义信息,形成增强型文本,帮助读者快速把握出版物主题和内容结构,提高阅读效率。(3)出版物外部特征解析。通过对出版物题名、著者、机构、基金项目和参考文献等的语义化实体识别,鉴别、关联和组织更多离散的信息和资源。(4)与外部的关联与知识发现。依靠各种元数据和本体揭示实体、概念间的关联关系,利用语义标签与URI的开放链接机制,实现不同来源资源的关联和知识发现。(5)语义出版生成方式。通过发布静态RDF文件、关系数据库转化和其他类型信息转化来生成RDF数据[2]36。
2009年,牛津大学的Shotton等人在多项实验基础上首次较系统地提出了语义出版的概念[3]e228,并针对期刊文章的HTML版本进行了语义增强实验[4]509。此后,Pafilis等人利用文本挖掘技术自动识别HTML文章中的命名实体并给予语义标注[5]198,Wan等人研究从文章引文处获取情景信息[6]570,Attwood开发了智能PDF阅读终端Utopia[7],Peroni与Shotton联合开发了语义出版与参考本体SPAR[8]43。张濮等基于已有的开源软件,提出一种面向个人应用的数字复合出版环境构建方案[9]82。语义出版研讨会也于2011年5月随第5届世界语义网大会举办[10]825。
除学者外,语义出版还得到许多知名出版机构、信息服务商及学术组织的关注。如英国皇家化学会实施了Prospect项目,最早推出RichHTML形式的语义出版服务,为平台的部分期刊全文进行语义标注,并通过与多种类型化学及相关领域本体资源的关联,实现从语义层面扩充知识内容[11];爱思维尔开展了Article of the Future、Pensoft、OpenMath和Content MathML等项目,ScienceDirect平台上已有七个学科实现了语义出版原型[12]1257;汤森·路透提供OpenCalais服务,把非结构化的HTML文件转变为语义注释资料,并进一步细分出“人”、“地区”、“企业”等类别,供第三方企业实现商业应用[13]28;概念网络联盟提出的“Nanopublication”(纳米出版物)用计算机从文献和数据中抽取科学结论、科学事实或实验结果,建立带有语境、具有语义的表示模式,促进知识的发现、理解、交流、集成及共享[14]32;欧盟的ImageNotion项目成功开发一种图片语义注释工具ImageNotion,针对图片定义一系列计算机可理解的术语,以便人们进行组织、搜索和导航浏览;维基百科使用97种语言为350万条目设置了特征标签和摘要;谷歌也联合微软、雅虎和Yandex推出了网页语义化处理标准;微软实验室则使用面向Word的一种本体识别插件,自动识别Word中的语义信息,整合相关数据[13]28。
一些期刊社和报社也积极尝试,如:美国公共科学图书馆和国际计算生物学协会(ISCB)共同发布的《PLoS计算生物学》实施Semantic Enrichment计划,国际晶体学联盟(IUCr)出版的《结晶学报A辑:结晶学基础》支持文本标签[14]32,爱思唯尔对发表在《欧洲生物化学会联盟通讯》上的文章采用结构化的数字摘要(SDAs)[15]39。
与国外的高度关注相比,国内出版界、学术界及图书馆界对语义出版的关注和研究都明显滞后,只有中国知网、万方数据、人民出版社、高等教育出版社等少数数据库服务商和出版机构开展过语义技术的应用。
1.语义出版与引用本体SPAR。随着语义网的发展,学术研究越来越依赖能自动处理书目数据和引用信息的系统或工具。这间接要求元数据和引用信息必须为机器可处理、且支持互操作。在这个过程中,能结构化描述学术交流、出版和引用知识的语义出版及引用本体(Semantic Publishing and Referencing Ontologies, SPAR)中就不可或缺。它由FaBiO、CiTO、BiRO、C4O、DoCO、PRO、PSO和PWO构成,基本整合了出版与引用相关的所有属性。前四个主要用于描述书目对象、书目记录、参考文献列表、引用角色、引文记录、引文背景等;后四个主要为组织文档内容组件、出版角色、出版状态以及出版流程提供结构化的控制词表。八个本体既可单个独立使用,也可以联成一体并用[16]。
2.语义出版相关支持工具。虽然在线出版已经普及,语义出版的技术标准也早在五年前就发布,但大部分科技文献仍是传统PDF格式。为促进在线科技文献的语义分析,不同研究者先后开发了不同的工具。
(1)Utopia Documents。它通过关联网络上其他动态资源来激活PDF文档,将文档内静态文档特征(数值数据)转换成能够直接链接、注释、可视化和分析的对象(动态交互性内容),并进一步与数据分析工具及可视化工具语义整合[17]。该工具已被成功应用于《生物化学期刊》(Biochemical Journal,BJ)[18]中,帮助编辑对预在线出版文章的内容进行标记。为进一步提升对PDF文档及在线内容的无缝整合能力,Utopia Documents目前已实现与各种文本挖掘机、生物数据库插件的整合。
Utopia Documents内含一个将PDF文档分解、并用DoCO进行注释的机制。这对:生成文内文献计量相关的元数据,识别文内除页眉页脚、题注等注释性文本之外的、真正的文本字符流,实施只关注“主要正文文本”或“图表题注文本”的数据挖掘算法将十分有益。最近,Utopia Documents开发团队新发布一个称作PDFX的免费网络服务,支持对上传PDF文档的分解,并返回一个基于JATS的、用DoCO术语注释的XML文档[19]。
(2)ACL Anthology Network。由密歇根大学计算语言学和信息检索小组(Computational Linguistics And Information Retrieval,CLAIR)[20]设计和维护,旨在对ACL Anthology Network里的论文信息进行收集、整理和加工,最终形成论文引用网络、作者引用网络和作者合作网络。除支持搜索作者和文章外,它还提供总的论文引用排名及会议引用排名情况[21]。
(3)PENSOFT Writing Tool。出版开放获取在线期刊需要大量的语义增强工作,PENSOFT一直致力于这方面的研究[22]。在发布最近的《生物多样性数据期刊》BDJ时,PENSOFT启用了一套能够全面整合论文写作、投稿、审稿和编辑,以及出版和传播全部流程的在线平台PENSOFT Writing Tool,它支持论文创作过程中自动进行相关文本和数据(包括外部相关论文、物种分类、物种名、图、表、地图、数据和参考文献等)的语义混搭与集成,无需作者任何复杂操作[23]。
对任何被引文献(不管是从文本字符流自动解析过来的、还是手工输入的),只要能识别其DOI或者PubMed ID,PENSOFT Writing Tool便自动将其以选定的格式添加到参考文献列表中。同时,使用“Cite a reference”命令后,对应的文内引文指示符也会以选定的格式自动插入到光标所指的位置。PENSOFT Writing Tool也支持协作式论文创作、自动提交进行联机同行评议并返回评议结果,支持以XML格式出版各类数据关联和集成。
语义出版在发布前就完成了概念、内外部特征和相关关系的深度标引、揭示和组织,对文献资源建设规划、选择、采集、组织都产生重冲击,图书馆应积极做出调整[24]34。
1.调整采选标准。语义出版资源功能独特,图书馆应在充分试用和全面评估的基础上,制定专门的采访标准,如:在用户需求方面,主要考察能否真正提高阅读效率、促进元知识发现、提供科研线索;在内容质量方面,主要考察对概念、实体和内容结构揭示的准确度,以及与其他资源的关联丰富程度;在技术标准方面,主要考察提供商对软硬件安装、调试、维护及培训方面的支持程度及能力,同时要了解并根据语义资源的接口类型提供相应的获取方式;在法律标准方面,主要关注语义出版资源的访问权限的限制,图书馆在访问时应遵循CC、CC-BY、CCBY-NC等开放获取使用许可等。
2.改变采集方法。语义资源在存储格式、采集接口、阅读终端方面都与传统数字资源有很大不同,图书馆应及时调整采集方法,具体包括:在存储方面,图书馆需要重新安装语义出版资源所需的服务器(目前主要有RDFPeers、YARS2、SHARD、Hadoop RDF等),并提供相应的安装环境,使用SPARQL对其进行查询、处理;在采集接口方面,图书馆要根据接口的类型进行解析和抽取(目前有SPARQL端口查询、Web ServiceAPI、批量下载等5种);在阅读终端方面,由于普通浏览器和计算机终端无法展示语义和功能,图书馆需要安装第三方语义工具(如语义浏览器或插件Tabulator Browser和SemanticRadar等)及专用阅读终端进行智能化阅读。
3.创新组织方式。语义出版依赖URI标识和语义关系的标注,而URI标识又依托于主题词表、名称规范档和各种实体词汇表,而只有这些工具中概念和实体数量足够多,别称、同义词、近义词和不同语种形式的入口词足够丰富,URI标识的结果才能准确;而资源语义关系的标注、不同来源资源的关联和知识发现却依赖于本体及其语义关系的丰富性,鉴于此,图书馆可从以下方面开拓创新:①学习和借鉴计算语言学、机器学习领域的命名实体识别、关键词提取、语义标注等技术,实现概念、实体及关系的自动识别和标注;②结合领域专家和计算机技术大力构建各领域本体,进行知识的智能化揭示和改造,提高用户对知识的理解和阅读效率;③提高知识架构能力,把跨领域的研究人员、信息内容和分析过程有机融汇起来,形成新的知识基础设施,并根据用户的需求即时有效地组织和整理知识结构。
4.深化知识服务。要维护自身地位,图书馆必须在信息资源的知识化组织与集成化关联上突破,为读者开拓以下智能服务:①借助本体和引用链接等,提取实体、概念和相关要素,在出版物间建立丰富的联系,实现与用户需求的语义匹配,借助知识推理按照知识单元进行语义查询,提高查准率;②借助Web挖掘、推荐算法及自然语言处理技术,对用户查询常用的关键词、浏览的页面、主题以及添加的标签和用户评论等进行分析,揭示其兴趣领域并分析其行为特征,据此开展个性化推荐服务。
总而言之,要应对学术交流模式的变化,图书馆必须改变原有资源建设的内容及方式,关注知识呈现、传播和服务方式的变革以及环境和读者需求的变化,开放创新、转型发展,在新的知识创造模式和新的学术社区环境中重新定位。
图书馆参与数字出版,可重点从资源内容及出版流程上分担用户的精力、促进资源开放共享,而参与语义出版,则更需要技术上突破,提升资源描述、组织与呈现深度,通过对内容的揭示以及外部资源的知识关联提升学术出版功能。二者相辅相成,只有有机结合,才能从整体上改善用户信息利用环境,促进知识创新。
[1]任慧玲,曹海霞.STM数字出版对图书馆资源建设的影响[J].数字图书馆论坛,2014(5).
[2]郝嘉树.语义出版对图书馆文献资源建设的影响及对策[J].图书馆建设,2016(4).
[3]Shotton D.,Portwin K.. Technical implementation of the semantic enhancements applied to Reis et al. Impact of environment and social gradient on Leptospira infection in urban slums[J]. PLoS Neglected Tropical Diseases,2009,2(4).
[4]Pafilis E.,O'Donoghue S.I.,Jensen L.J.,Horn H.,Kuhn M.,Brown N. P.and Schneider R. Reflect-augmented browsing for the life scientist [J]. Nature Biotechnology,2009(27).
[5]Wan S.,Paris C. and Dale R..Supporting browsing-specific information needs: Introducing the Citation-Sensitive In-Browser Summariser[J]. Web Semantics: Science,Services and Agents on theWorld Wide Web,2010(8).
[6]Attwood T.K.,Kell D.B.,McDermott P.,Marsh J.,Pettifer S.R. and Thorne D. Utopia documents: linking scholarly literature with research data[J]. Bioinformatics,2010(26).
[7]Peroni S.,Shotton D.. FaBiO and CiTO: ontologies for describing bibliographic resources and citations [OL][2011-03-10] .http://image web.zoo.ox.ac.uk/pub/2011/publications/fabiocito_ontology_paper_ PREPRINT.pdf
[8]张濮.个人数字复合出版环境的构建[J].出版发行研究,2010(3).
[9]王晓光,陈孝禹.语义出版:数字时代科学交流系统新模型[J].出版科学,2012(4).
[10]翁彦琴,李苑,彭希珺,等.英国皇家化学会(RSC)-科技期刊语义出版模式的研究[J].中国科技期刊研究,2013,24(5).
[11]The Article of the Future is now live[EB/OL][2016-09-24].http: //www.articleofthefuture.com/.
[12]翁彦琴,彭希珺.爱思唯尔(Elsevier)语义出版模式研究[J].中国科技期刊研究,2014(10).
[13]Clark T,Ciccarese P,Goble C. Micropublications: a semantic model for claims,evidence,arguments and annotations in biomedical communications[J].Journal of Biomedical Semantics,2014,5(1).
[14]周杰,曾建勋.数字环境下的语义出版研究[J].情报理论与实践, 2013(8).
[15]续子恺,林晔.基于语义的新闻采集和分析系统在报业的应用[J].中国传媒科技,2008(12).
[16]Semantic Publishing and Referencing (SPAR) Ontologies.http://p url.org/spar.
[17]Utopia Documents.http://www.utopiadocs.com.[18]Biochemical Journal.http://www.biochemj.org.
[19]PDFX:http://pdfx.cs.man.ac.uk.
[20]Computational Linguistics And Information Retrieval(CLAIR) group at the University of Michigan:http://clair.eecs.umich. edu/aan/about.php.
[21]ACL Anthology Network:http://clair.eecs.umich.edu/aan/index.php.
[22] Pensoft Publishers:http://www.pensoft.net.
[23] Biodiversity Data Journal:http://biodiversitydatajournal.com.
[24]郝嘉树.语义出版对图书馆文献资源建设的影响及对策[J].图书馆建设,2016(4).
10.16565/j.cnki.1006-7744.2017.06.19
河南省教育厅2016年人文社会科学青年项目“基于新型书目框架BIBFRAME的面向学术交流过程的书目本体构建研究”(2016-QN-022)。
宋丹辉,河南科技大学图书馆馆员,研究方向为知识组织、知识服务、用户素养教育。
G252.7
A
2016-12-30