■翁彦琴 彭希珺
中国科学院文献情报中心,北京市中关村北四环西路33号 100190,E-mail:wengyq@mail.las.ac.cn
科技期刊已完成从纸本印刷向数字化出版的转型,数字形态成为学术期刊的主流形态[1]。随着网络环境的变化[2],期刊数字出版发展进程可概括为逐步适应数字化到主动利用网络技术的过程。考察网络环境下科研人员的信息交流行为,除了搜索、下载、阅读这些基本操作以外,还有一些关键应用:核心资源的过滤抽取;信息加工(分类、注释、关联);群组内的交互讨论;根据个人需求定制。实际上,海量信息资源对于科研人员来说,筛选分辨的成本太高,组织加工的难度更大。因此,对于学术出版而言,不仅需要为读者提供文本和简单的关键词查询,还需要能够合理有效组织学术资源,利用语义网技术进行深度描述与揭示,实现信息数字化、数字知识化、知识体系化,帮助用户更有效地利用信息[3]。语义网的发展为学术文献传播带来了新的可能,特别是W3C组织逐渐把语义网的相关标准(如OWL标准)上升为国际标准之后,许多大的数据库厂商开始使用基于国际标准的方式来重新描述自己系统内的数据,使系统内的数据逐渐以一种计算机可以理解的方式保存和检索,并通过开放数据链接(LOD),与外部数据实现基于知识的互联互通。基于以上背景,国际知名出版机构纷纷将语义网相关技术引入学术出版,尝试将期刊内容变成一种活的知识工具。David Shotton等[4]于2009年首次提出了语义出版的概念,即发掘并丰富文章的知识内涵,使其在网络上能够更方便地被自动发现,可以自动链接与之语义相关的文章;支持对文章中所包含的各种知识进行访问并操作,文章之间各种知识能够便捷的进行关联和集成。语义出版意味着出版机构可以充分利用丰富的期刊内容信息,提供知识的深度挖掘和关联分析,进而形成知识体系,帮助用户发现或验证新知识,这将成为期刊的新服务方向和新利润空间[5]。Outsell公司2012年的STM报告[6]提到“语义技术已成为STM期刊的主要技术发展趋势,至少在大型出版商或出版平台中已成为主流。尽管尚不能实现完全意义上的语义网,但出版商已经开始使用语义标准的‘关联数据’使内容更容易被检索和再利用”。语义增强从更智能的内容、实现新的产品和服务以及提高内部生产效率三个方面促进STM出版[7]。众多知名出版机构,包括 PLoSOne、ACS、NEJM、Nature、IOPP、RSC[8]、Elsevier等纷纷推出自己的语义出版功能模块。
我国STM期刊出版领域也逐渐开始关注和尝试语义出版方面的工作,但是,从编辑出版的视角进行语义出版相关的案例研究还相对较少。继英国皇家化学会(RSC)科技期刊语义出版案例研究[8]之后,本文对爱思唯尔ClinicalKey语义出版所关联的学科知识环境(即相应的各种信息资源)以及智能内容(特别是Elsevier自主研发的全新医学分类法EMMeT)进行了介绍,展示了其语义方面的实际应用,并探讨了学科化集成平台的语义出版模式。作为语义出版在医学领域的应用实例,爱思唯尔ClinicalKey为学科出版平台或数据库的语义化发展提供了宝贵的经验。基于此,文章最后提出我国科技期刊语义出版模式的探索及发展对策。
爱思唯尔(Elsevier)[9]是全球领先的科技、医学出版社,每年出版学术论文数量占市场1/4,包括2500多种同行评审期刊和15000多种图书,同时也出品EI、Scopus、Embase等创新型文献检索数据库。
作为世界领先的科学、技术和医学信息产品和服务提供商,爱思唯尔在语义出版方面进行了积极地尝试和开发。
爱思唯尔的语义出版路线图指出语义出版的最终发展方向为高度自动化的富含语义知识的智能内容(smart content),提升论文的附加值[1]。通过“Article of the Future”[10]项目,爱思唯尔重新定义SciVerse ScienceDirect的文章以及相关文章页面,为科研提供更好的传播与交流平台。2009年,该项目最先在Cell出版社实施,发展至2012年,所有的期刊都加入其中。“Article of the Future”的概念包含以下三个方面:即(1)呈现形式:提供最佳在线浏览及阅读体验;(2)内容:作者可以分享的更多,比如数据、代码、多媒体信息等;(3)相关信息:在线文章与来源可靠的科技信息链接,并在相关信息中呈现出来,提升附加值。他们提出,未来学术出版将会实现各种数字信息之间的交流更顺畅、可与多种外部信息互联、支持互动型信息、易阅读且可导航,最终学术出版不仅是信息载体,也是研究工具。
爱思唯尔于2012年正式发布了医学信息平台ClinicalKey[11],首次将“智能内容”引入临床领域,拥有全球最大的医学信息资源库,涵盖所有医学专科。ClinicalKey建立了自主知识产权的医学分类法系统——“爱思唯尔合并医学分类法”(Elsevier Merged Medical Taxonomy,EMMeT),对海量的医学内容进行深度标引。ClinicalKey的内容和后台技术都在不断更新,从而保证用户能够快速访问最新的临床答案。
基于数十年从事科技期刊数字出版方面的经验、深入的市场调研和对2000多名医学专业人士的咨询,爱思唯尔开发的医学信息平台ClinicalKey在检索方面显示出人性化、可定制的内容服务。ClinicalKey的主要特色为:综合全面、权威和准确快捷,其关键在于语义技术的使用。
爱思唯尔全医学平台ClinicalKey提供综合全面且权威的信息。该平台拥有全球最大的在线医学信息资源,涵盖所有临床专科,并提供最新的同行评议的循证医学信息——消除用户对不准确的医学资源的依赖。ClinicalKey包括医学图书、医学期刊,提供最新最相关的循证医学答案,以及专家评论、MEDLINE摘要和精选的第三方期刊[12]。
ClinicalKey平台拥有的资源十分丰富,主要包括以下门类[13]:Medline:2000多万条医学文摘,涵盖全球最核心的5000多种医学期刊;期刊:核心医学期刊500多种(含北美临床系列期刊),包括the Lancet,Cell等顶级期刊;北美临床系列期刊:50多种,收录最新最精的临床问题专家评论文章;图书:1100多种,包含Doody Core Titles收录的95%以上的爱思唯尔图书,如《格氏解剖学》、《坎贝尔骨科手术学》等圣经级参考书,《奈特人体解剖图谱》、《Robbins基础病理学》等权威教材;图片:超过4000000张,包括医学影像、照片、图片、图表等;床旁治疗:一期上线外科主题500多项,以简明扼要的方式提供临床决策所必需的信息;医疗操作:临床操作视频350多个,并配有文字、图解等诠释操作流程和关键点;医疗(手术)视频:18000多个,包括Procedures Consult在内的2500多个临床视频;循证医学:750多个First Consult医学主题;药物专论:2900 多个,来源于 Gold Standard’smonographs;临床试验:13000多个,来源于NIH在全球范围的注册的临床试验;诊疗指南:4000多个,来源于欧美权威的专业学、协会;患者教育:包括9000多份患者教育讲义;医学年鉴:近30种,收录对全球数百种经典医学期刊文章的评论。
近年来语义出版在学术出版领域也越来越得到重视,尤其在STM领域进行了一系列试验并逐步推出正式的服务。语义出版实践者结合多种语义处理技术和网络服务协议,如XML技术、自然语言处理技术、本体、语义网、信息可视化、API、SOAP、RSS、CrossRef、DOI等,分别从出版平台、出版物和阅读终端三个层面进行语义增强。语义增强可以增强检索和挖掘能力,通过新的方式发现相关内容,探究新的领域,进而将科学研究推进到更广阔的语境。
结构化的XML允许各种系统理解和处理内容,如识别摘要或参考文献;而智能内容能够更好地处理内容背后的意义,如识别给定的文章或段落归属于某一特定主题,附加了丰富的语义信息[14]。ClinicalKey的强大功能以爱思唯尔Smart Content为源动力,即根据EMMeT进行深度标引,支持语义检索。
EMMeT是 Elsevier与 Healthline合作,花费十余年时间开发的分类法。EMMeT选取 RxNorm、MeSH、SNOMED CT、ICD-9和LOINC临床应用方面的内容,并结合其在UMLS的相互关系从而建立新的临床分类。通过内容标引,EMMeT将ClinicalKey平台丰富的资源转换成拥有25万核心医学概念、大于1百万个同义词、大于1百万个等级关系、1百万个本体关系的分类系统体系和本体库(图 1)[15]。 以“Cancer(乳腺癌)”为例,其在EMMeT中的名称包含医学名词、用户常用名词、同义词、代码、语义类型(群组)、等级关系如上位词(如乳腺疾病、胸部肿瘤等)和下位词(如乳房肉瘤等)、以及语义关系如诊断方法、治疗方法、用药、预防、并发症、风险等等。
图1 EMM eT视图[15]
语义网可提供基于领域知识库的知识导航,而不是按目前的人为分类导航,这对读者有更大的意义,同时,语义网可以为读者提供更聪明的查询,不仅提高了文献检索的效率,还可以对检索结果进行智能聚类和智能分析。EMMeT使得ClinicalKey能够理解庞大的医学概念之间的联系并找到最相关的内容,通过把这些关系按照等级进行整理,保证ClinicalKey能够为用户的检索请求提供具体并且有针对性的答案,并且也可以发现其他传统搜索引擎可能忽略的内容(图2)。检索结果可根据需要进行分类,包括研究类型(ClinicalKey包括系统性综述、荟萃分析、随机对照试验和叙述性综述四大类型)、出版时间(可按照出版日期,如近6个月、12个月、18个月、2年或5年出版)、专科(ClinicalKey包含的所有临床专科)、资源类型(ClinicalKey各大类资源,可选择一类或多类)。例如,爱思唯尔智能内容能使计算机识别不仅是关于“心肌梗死”的文章,而且包括其语义相关的各类文章,如“心肌梗死”的同义词“心脏病”,以及一个相应的缩写“MI”;一种与高胆固醇相关的心血管疾病,MI可通过一定的药物或外科手术治疗。ClinicalKey还允许用户根据有临床意义的子分类筛选检索结果,比如内容类型、专科、疾病名称、身体部位等等。专门的专科工具帮助用户快速从医学主题概述进入深层次的专科内容。
另外,从ClinicalKey中检索到的信息可以非常方便地和他人分享,帮助用户和同事同行进行交流。例如,平台嵌入了PPT制作工具,使得用户和同事同行可以随时交流最新医学信息,用户也可以通过邮件分享论文、图书章节、影像、图像或者视频录像。
图2 ClinicalKey的工作方式[15]
《中国科协科技期刊发展报告(2014)》[16]指出目前大多数中国科协科技期刊的自建网站和在中国知网、万方数据等发布的全文内容的数字化加工尚处于数字出版1.0阶段(电子化阶段),与国外相比差距很大。中国科协科技期刊启用新媒体应用的情况调查显示,在参与调查的674个期刊编辑部中启用语义出版的编辑部仅有3个,占0.4%。国内学者和机构对资源语义分类与检索技术在具体领域实践方面的研究还不够深入,大部分仅停留在可行性分析与实验验证阶段,具有实用价值的语义分类与检索系统还较少[17]。
中国科学院文献情报中心张晓林教授于2009年提出Journal 3.0模型,从Enriched Content、Linked&Mashed-up Discovery、Open&Collaborative Communication三个维度揭示期刊的数字化发展模型[18],率先在语义出版方面进行积极探索。随后,国内大的数据库商、编辑出版平台提供商和部分期刊编辑部也逐步关注并涉足语义出版领域。目前取得的进展包括:
(1)基础数据的标准化输出
随着数字出版的快速发展,期刊编辑部也逐渐重视数字出版方面的工作。但是,在国内发展数字出版特别是语义出版面临的首要问题即基础数据复杂的技术实施过程。作为语义出版的基础,首先需要利用HTML5和XML等技术实现论文内容的结构化描述,从而达到内容与形式版面的分离,支持对期刊内容的计算机理解和处理。中文期刊长期使用方正排版软件,但是该软件的输出文件并不支持XML格式,排版文件不可编辑。近两年,方正公司旗下的团队与各编辑出版平台提供商如玛格泰克公司、勤云公司合作研发的书畅自动排版引擎,实现了编辑平台到排版软件的直接对接,可生成粗颗粒度的全文XML文件。也有编辑部改为直接使用word排版,导出数字出版所需的各类文件。另外,基于大部分期刊尚不具备使用新软件或word排版的现状以及历史数据回溯需求,也有公司(如玛格泰克公司)开发出各种排版结果文件(如word、书版文件、飞腾排版文件、Latex和Indesign等)转化XML文件的服务;还有另外一些公司,开发出直接从PDF文件加工成XML文件的工具,进而在XML文件的基础上,生成各种新型出版形态,即“后结构化”。但是,这种服务仅可作为权宜之计。
(2)相关技术的开发
鉴于标准数据输出的完成,技术公司往往会率先进入后续开发阶段。目前,技术公司[19]已实现以下功能:①对整个库(如一本杂志或多本杂志的集群),建立知识元的云图(Tag cloud);②建立图片库,实现文中与图相关的句子自动抽取,并定位到文章。后续的开发包括③针对单篇文章的Tag cloud,并实现从知识点→句子→段落的阅读模式;④针对一个知识点,自动汇聚不同文章的句子或段落,实现文章之间基于知识的片段互联。
(3)富媒体出版
技术问题的解决,推动中文期刊数字出版的步伐不断加快。近些年,编辑出版平台提供商及期刊数字出版服务公司纷纷推出期刊的全文html出版方案。中文科技期刊的网站终于不再只有下载PDF阅读这种单一模式,越来越多的中文期刊网站采用全文html,图表呈现更加直观和美观、能够提供方便的文内导航功能和全文检索等等扩展功能。其中,玛格泰克公司推出的富媒体制作技术服务采用语义识别技术,符合NLM DTD3.0规范,可实现期刊全文结构化和富媒体出版,典型案例如《作物学报》的RichHTML出版。
(4)语义出版的初步尝试
已有部分期刊、刊群或大型数据出版商在语义出版方面进行了积极的探索和尝试,并推出相应的平台。较为典型的案例包括:①Journal 3.0项目一期搭建的图书情报知识服务平台和化学研究集成服务平台,以不同学科的单刊作为试点,基本实现文章题目摘要部分的语义增强,通过计算知识点之间的相关度,建立知识点之间简单的关联关系,以及知识点与文献、知识点与作者之间的关联关系。②资源环境科学数字知识库Lore是以多刊集群提供个性化、语义化的数据增值服务,实现知识检索、内容碎片化和可视化展示等功能。③JIS期刊集群管理系统,建立专业化的期刊数字出版平台,可实现期刊管理、论文管理、知识挖掘、资讯管理等各方面的应用,初步实现的案例包括中国光学期刊网、中国水产期刊网和肿瘤科学网。④万方医学网拥有丰富的中文医学资源并整合PubMed等外文资源,实现MeSH词表的汉化,可进行多途径专业检索,并提供知识链接服务,如检索结果科学聚类、相关信息(相关主题词、检索词、专家和机构)链接和DOI链接匹配。
语义出版改变的不仅是学术期刊的传播形态,还将为期刊内容带来全新的组织、表征、利用方式。与国外数据库商摸索建设多年且成功实践相比,我国语义出版的发展尚处于觉醒和初级发展阶段,差距甚大。中文科技期刊语义出版的发展应特别注意与国际通用标准(如OWL标准)的对接,同时,中文表述的本体(包括用户描述通常语义关系的公共知识本体,如用于描述人、机构、事物、语言及其关系以及用于描述本学科领域的知识关系本体)的开发也应引起期刊界同仁的足够重视和关注。就我国科技期刊语义出版的未来发展,建议如下:
(1)以学科为纽带推动语义出版的发展。语义增强在一定程度上与学科的相关度较大,国外的成功模式也多是基于某一学科进行语义架构和关联。鉴于数字化对期刊的积聚效应和增值效应,刊群是数字化时代的产物,也是数字期刊的生存方式和发展方式[20],而学科化刊群又独具学科优势。我国学科化刊群和学科平台建设已有一定的基础和规模,中国科协学科化刊群中期刊规模达到10种及以上的为24个,期刊总量为549种,占中国科协科技期刊总量的51.9%,其中中国光学期刊网吸引了国内50余种光学领域的期刊加盟,中国地学期刊网是已收录232种地学期刊[16]。我国学科化刊群和学科平台的资源优势非常突出,可率先在语义出版方面进行积极的尝试和实践。
(2)建立和维护中文知识关联环境。国外数据库中除个别的站点,如StemBook有独立的文献库外,许多站点是以大量的公共资源本体(如PubMed、MeSH词表、OBO、Cell Ontology、Sequence Ontology、ChEBI、RXNO、CMO、MOP、ChemSpider等)作为处理对象,提供基于语义的分析深度检索和挖掘服务。我国尚缺乏可直接用于语义增强的中文本体库资源。建立和维护标准的、可关联的中文专业数据库仍是目前亟待解决的问题。
(3)以Web为期刊默认形态,重视基础数据建设。尽管已经积极尝试各种新媒体出版,但是由于技术或观念的限制,中文期刊仍无法摆脱纸本优先的老路。未来的期刊出版还是应考虑以Web作为期刊的默认形态,按照Web形式重新打造期刊的内容组织、呈现和利用形态,在编辑加工定稿后,应该首先生成XML文件,然后再根据需要生成各种版式文件,如印刷版的PDF、Web版的HTML文件等,即“前结构化”。
(4)重视技术人才,积极与技术公司合作。语义出版的实现远非编辑部甚至刊群一己之力能够驾驭。国外出版商大都采用合作的方式来弥补技术方面的短板,RSC参与了出版商与剑桥大学的合作项目SciBorg用于解决化学领域核心词汇的抽取;Elsevier与Healthline合作开发EMMeT分类法。中文科技期刊或刊群语义出版的真正实现,有赖于与技术公司精诚合作。随着数字化、新媒体进程的加快,编辑出版领域亟需引入有技术背景的编辑人才,如材料期刊网[21]引进优秀技术人才,在科技期刊网络化、数字化出版以及网络经营管理等方面进行积极探索,并取得了较好的成效。
无论出版形态如何变化,科技期刊为读者作者服务的宗旨不会改变。语义出版,强调合理有效组织学术资源以及深度描述与揭示信息,其目的也是更好地为读者作者服务。本文介绍了Elsevier在语义出版方面的出色工作,并提出我国科技期刊语义发展的对策,以期引起国内科技期刊同行对语义出版的关注和讨论,探索适合中文科技期刊发展的语义出版进程。
1 彭希珺,张晓林.国际学术期刊的数字化发展趋势.中国科技期刊研究,2013,24(6):1033-1038
2 董成悌,周维彬.面向服务的 Web3.0网络.情报探索,2010,(10): 108-110
3 Scope eKnowledge Center Pvt.Ltd.Semantic Enrichment.The Key to Successful Knowledge Extraction from STM Literature[R].October 2008
4 Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing.Learned Publishing, 2009, 22(2): 85-94
5 Mayer D.Mainstream Semantic Enrichment[EB/OL].[2012-10-06].http://www.stm-assoc.org/2011_12_02_Innovations_Mayer_Mainstream_Semantic_Enrichment.pdf
6 Ware M, Mabe M.The STM report: An overview of STM publishing.Hague:International Association of Scientific Technical and Medical Publishers,2012
7 姚伟欣,马建华.新学术环境下科技期刊数字出版平台的技术发展趋势.中国科技期刊研究,2013,24(6):1039-1043
8 翁彦琴,李苑,彭希珺.英国皇家化学会(RSC)科技期刊语义出版模式的研究.中国科技期刊研究,2013,24(5):825-829
9 Elsevier.[EB/OL].[2014-05-15].http://www.elseviermed.cn/company/AboutUs.html
10 Elsevier.Article of the Future.[EB/OL].[2014-05-15].http://www.articleofthefuture.com/about
11 Elsevier.Clinicalkey.[EB/OL].[2014-05-15].https://www.clinicalkey.com/
12 Clinicalkey communication.[2014-05-15]. http://sns.elseviermed.cn/article/topic/2951
13 Clinicalkey introducation.[2014-05-15]. http://www.elseviermed.cn/company/ClinicalKey.html
14 Elsevier Smart Content and the Next Generation of Clinical Information[EB/OL].[2012-10-06].http://info.clinicalkey.com/docs/physicians/ClinicalKey-Smart-Content.pdf
15 孙杰.划时代全医学信息平台-ClinicalKey[2013-05-15].http://lib.ccmu.edu.cn/attach/0/130508155435465.pdf
16 中国科学技术协会.中国科协科技期刊发展报告(2014).北京:中国科学技术出版社,2014
17 胡泽文.基于WordNet和SUMO本体集成的自动语义检索及可视化模型.国家图书馆学刊,2012,(2):23-32
18 张晓林.科技期刊的数字战略.中国科学院科技期刊主编岗位培训班.2009-07-04,北京
19 林家乐.学术期刊若干前沿技术.数字出版前沿技术研讨会.2014-04,北京
20 初景利.科技期刊刊群建设动力机制.科技期刊刊群建设模式与机制学术研讨会.2013-11,苏州
21 黄春晓.集群数字出版及采编排版一体化的实践和探索.科技期刊出版与传播专题培训班.2014-06-18,北京